新闻中心
-
05-13DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩基于DiffusionTransformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和3D「一网打尽」。今年2月初,Sora的发布...
-
05-10原作者带队,LSTM真杀回来了!LSTM:这次重生,我要夺回Transformer拿走的一切。在20世纪90年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来,...
-
04-26CVPR 2025 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNetAIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
04-22超越BEVFusion!DifFUSER:扩散模型杀入自动驾驶多任务(BEV分割+检测双SOTA)写在前面&笔者的个人理解目前,随着自动驾驶技术的越发成熟以及自动驾驶感知任务需求的日益增多,工业界和学术界非常希望一个理想的感知算法模型,可以同时完成三...
-
04-18Meta无限长文本大模型来了:参数仅7B,已开源谷歌之后,Meta也来卷无限长上下文。Transformers的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力力和状态空间模型等次二次解...
-
04-17用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM多任务机器人学习在应对多样化和复杂情景方面具有重要意义。然而,当前的方法受到性能问题和收集训练数据集的困难的限制。这篇论文提出了GeRM(通用机器人模型),研究...

