新闻中心
-
06-14ACL 2025|PsySafe:跨学科视角下的Agent系统安全性研究AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
06-04ICML2025高分!魔改注意力,让小模型能打两倍大的模型改进Transformer核心机制注意力,让小模型能打两倍大的模型!ICML+2024高分论文,彩云科技团队构建DCFormer框架,替代Transformer...
-
06-03英伟达新研究:上下文长度虚标严重,32K性能合格的都不多无情戳穿“长上下文”大模型的虚标现象——英伟达新研究发现,包括GPT-4在内的10个大模型,生成达到128k甚至1M上下文长度的都有。但一番考验下来,在新指标“...
-
05-27全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型为了将大型语言模型(LLM)与人类的价值和意图对齐,学习人类反馈至关重要,这能确保它们是有用的、诚实的和无害的。在对齐LLM方面,一种有效的方法是根据人类反馈的...
-
05-24Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star一个月前,Meta+发布了开源大模型llama3系列,在多个关键基准测试中优于业界SOTA模型,并在代码生成任务上全面领先。此后,开发者们便开始了本地部署和实现...
-
05-04终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名当前最火的大模型,竟然三分之二都存在过拟合问题?刚刚出炉的一项研究,让领域内的许多研究者有点意外。提升大型语言模型的推理能力是当前研究的最重要方向之一,在这类任...

