新闻中心
-
11-19大模型承重墙,去掉了就开始摆烂!苹果给出了「超级权重」去掉一个「超权重」的影响,比去掉其他7000个离群值权重加起来还要严重。大模型的参数量越来越大,越来越聪明,但它们也越来越奇怪了。两年前,有研究者发现了一些古怪...
-
10-21【进展】中国科大在钙钛矿软X射线探测器件领域取得重要进展;1.国仪量子发布全新AI电子顺磁共振波谱仪,信噪比创世界纪录10月19日,国仪量子技术(合肥)股份有限公司(简称“国仪量子”)在2024年全国电子顺磁共振波谱学...
-
07-31厦大团队材料预测迁移学习范式登Nature子刊,发现高性能催化剂编辑|KX传统的材料发现依赖反复试验或偶然发现,效率低下且成本高昂。AI在发现新型催化剂方面潜力巨大。然而,受到算法的选择,以及数据质量和数量的影响。在此,来自...
-
07-10单一作者论文,谷歌提出百万专家Mixture,超越密集前馈、稀疏MoE释放进一步扩展Transformer的潜力,同时还可以保持计算效率。标准Transformer架构中的前馈(FFW)层会随着隐藏层宽度的增加而导致计算成本和激活...
-
05-10原作者带队,LSTM真杀回来了!LSTM:这次重生,我要夺回Transformer拿走的一切。在20世纪90年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来,...
-
05-04小模型性能饱和、表现不佳,根源是因为Softmax?小语言模型的出现是为弥补大语言模型的训练、推理等成本昂贵的缺点,但其自身也存在训练到某个阶段后性能下降的事实(饱和现象),那么这个现象的原因是什么?是否可以克服...

