新闻中心
-
07-10单一作者论文,谷歌提出百万专家Mixture,超越密集前馈、稀疏MoE释放进一步扩展Transformer的潜力,同时还可以保持计算效率。标准Transformer架构中的前馈(FFW)层会随着隐藏层宽度的增加而导致计算成本和激活...
-
07-10鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆2.4B的Memory3比更大的LLM和RAG模型获得了更好的性能。近年来,大型语言模型(LLM)因其非凡的性能而获得了前所未有的关注。然而,LLM的训练和推理...
-
07-03整合多组学数据,华大基因团队图神经网络模型SpatialGlue登Nature子刊编辑:KX空间转录组学与多组学数据整合空间转录组学作为单细胞转录组学后的重大进展,使得多组学数据的整合至关重要。SpatialGlue:具有双注意力机制的图神经...
-
06-28将图像自动文本化,图像描述质量更高、更准确了AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
06-183D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D2024年5月,DreamTech官宣了其高质量3D生成大模型Direct3D,并公开了相关学术论文Direct3D:ScalableImage-to-3DGe...
-
06-11用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高用神经架构搜索给LLM瘦身,同等准确度可让LLaMA2-7B模型大小降2倍。LLM(大型语言模型)的一个主要特点是“大”,也因此其训练和部署成本相当高,如何在保...

