新闻中心
-
10-11这篇论文非常火!差分Transformer竟能消除注意力噪声,犹如降噪耳机Transformer的强大实力已经在诸多大型语言模型(LLM)上得到了证明,但该架构远非完美,也有很多研究者致力于改进这一架构,比如本站曾报道过的Reform...
-
10-02ECCV2025 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
09-20o1带火的CoT到底行不行?新论文引发了论战ToCoTornottoCoT?OpenAIο1的诞生极大地提升了人们对LLM推理能力和思维链(CoT)的兴趣。一时之间,似乎思维链很快就会成为所有LLM的标配...
-
09-12Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB*训练完就直接上模型。我们都知道,Mistral团队向来「人狠话不多」。昨天下午,他们又又又丢出了一个不带任何注解的磁力链接。解析一下这个链接,可以看到大小共23...
-
08-05苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了偷懒才能更好地工作。Llama3.1刚刚发布,你是否已经尝试了呢?就算你的个人计算机是最近的顶尖配置,运行其中最小的8B版本可能也依然会有明显延迟。为了提升模型...
-
07-28万亿token!史上最大多模态数据集诞生开源多模态大模型或将开始腾飞。值此Llama3.1占领各大头条之际,又突然冒出了另一个也非常重要的发布——一个规模空前的开源多模态数据集。对大模型来说,数据集的...

