新闻中心
-
10-16NeurIPS2025 | OCR-Omni来了,字节&华师提出统一的多模态文字理解与生成大模型研究背景与挑战在人工智能领域,赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前,视觉文字领域的大模型研究主要聚焦于单模态生成任务。尽管这些模...
-
10-07号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling lawMolmo,开源多模态模型正在发力!它也可以从虚拟世界帮你解决现实世界的问题,说一句:「Molmo,帮我买杯星巴克的南瓜拿铁。」剩下的就不用动手了,打开外卖网页...
-
09-12Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB*训练完就直接上模型。我们都知道,Mistral团队向来「人狠话不多」。昨天下午,他们又又又丢出了一个不带任何注解的磁力链接。解析一下这个链接,可以看到大小共23...
-
09-11ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
09-10还在人工炼丹?自动提示工程指南来了,还带从头实现人工设计提示词太麻烦了!想过让LLM帮你设计用于LLM的提示词吗?近日,自称生成式AI黑带选手的谷歌研究者HeikoHotz发布了一篇长文,详细介绍了自动提示词...
-
09-09任意论文一键变播客,谷歌正式发布Illuminate,它能重构研究者的学习方式吗?像听书一样「读」论文。先来听一段英文播客,内容是不是很熟悉?是的,这俩人就是在聊那篇《AttentionisAllYouNeed》。在4分半的对话里,他们介绍...

