新闻中心
-
08-08PRO | 为什么基于 MoE 的大模型更值得关注?2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作...
-
08-06算法、系统和应用,三个视角全面读懂混合专家(MoE)LLM很强,而为了实现LLM的可持续扩展,有必要找到并实现能提升其效率的方法,混合专家(MoE)就是这类方法的一大重要成员。最近,各家科技公司提出的新一代大模型...
-
06-06LLM | Yuan 2.0-M32:带注意力路由的专家混合模型图片一、结论写在前面Yuan+2.0-M32是一种基础架构,与Yuan-2.0+2B相似,采用了一个包含32位专家的专家混合架构。其中2位专家处于活跃状态。提出...
-
06-04快速学会一个算法,xLSTM今天给大家分享一个超强的算法模型,xLSTM。xLSTM(ExtendedLongShort-TermMemory)是对传统LSTM(LongShort-Ter...
-
06-04ICML2025高分!魔改注意力,让小模型能打两倍大的模型改进Transformer核心机制注意力,让小模型能打两倍大的模型!ICML+2024高分论文,彩云科技团队构建DCFormer框架,替代Transformer...
-
05-14微软让MoE长出多个头,大幅提升专家激活率MH-MoE能优化几乎所有专家,实现起来非常简单。混合专家(MoE)是个好方法,支持着现在一些非常优秀的大模型,比如谷歌家的Gemini1.5以及备受关注的Mi...

