新闻中心
-
03-02DeepSeek R1也会大脑过载?过度思考后性能下降,少琢磨让计算成本直降43%大型语言模型(LLM)在执行任务时也可能面临“过度思考”的困境,导致效率低下甚至失败。近期,来自加州大学伯克利分校、UIUC、ETHZurich和CMU等机构的...
-
02-28探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平AIxiv专栏持续关注并报道全球顶尖AI研究成果。多年来,我们已发布超过2000篇学术及技术文章,涵盖众多高校和企业实验室的领先研究。欢迎优秀研究者投稿或联系我...
-
02-28ICLR 2025|浙大、千问发布预训练数据管理器DataMan,53页细节满满DataMan:提升大语言模型预训练效率的数据管理器AIxiv专栏持续报道全球顶尖AI研究成果。本文介绍由浙江大学和阿里巴巴千问团队合作完成的一项研究,该研究针...
-
02-22阿里即将推出基于Qwen2.5-MAX的深度推理模型阿里巴巴即将发布基于其千问大模型Qwen2.5-MAX的全新深度推理模型。阿里巴巴集团CEO吴泳铭在近期财报会议上确认了这一消息。此前,阿里已推出千问旗舰版Qw...
-
02-22游戏显卡跑AI大模型?使用MTT S80解锁DeepSeek R1蒸馏模型本地推理颠覆想象:游戏显卡也能轻松驾驭AI!MTTS80强势证明:“游戏与AI,我全都要!”摩尔线程MTTS80“全功能”图形显卡,不仅能流畅运行大型游戏,例如《黑神话...
-
02-20重磅发现!DeepSeek R1方法成功迁移到视觉领域,多模态AI迎来新突破!嘿,各位开发小伙伴,今天要给大家安利一个全新的开源项目——VLM-R1!它将DeepSeek的R1方法从纯文本领域成功迁移到了视觉语言领域,这意味着打开了对于多...

