新闻中心
-
02-24清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力在自动驾驶领域,研究人员也在朝着GPT/Sora等大模型方向进行探索。与生成式AI相比,自动驾驶也是近期AI最活跃的研究和开发领域之一。要想构建完全的自动驾驶系...
-
02-19让视觉语言模型搞空间推理,谷歌又整新活了尽管视觉语言模型(VLM)在许多任务上取得了显著进展,包括图像描述、视觉问答、具身规划和动作识别等,但在空间推理方面仍然存在挑战。许多模型在理解目标在三维空间中...
-
02-16陪跑又快又稳,机器人跑步搭子来了这个机器人名叫Cassie,曾经创下百米跑世界纪录。最近,加州大学伯克利分校的研究者给它开发了一种新的深度强化学习算法,让它掌握了急转弯等技能,还能对抗各种干扰...
-
02-01将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B大型视觉语言模型(LVLM)可以通过扩展模型来提高性能。然而,扩大参数规模会增加训练和推理成本,因为每个token的计算都会激活所有模型参数。来自北京大学、中山...
-
01-25更有用的模型需要更深入地「逐步思考」,而不仅仅是「逐步思考」不够最近,大型语言模型(LLM)以及它们的高级提示策略的出现,意味着语言模型的研究取得了重大进展,尤其是在经典的自然语言处理(NLP)任务中。其中一个重要的创新是思...
-
01-24BAT方法:AAAI 2025首个多模态目标追踪通用双向适配器目标跟踪是计算机视觉的基础任务之一,近年来,单模态(RGB)目标跟踪取得了重大进展。然而,由于单一成像传感器的限制,我们需要引入多模态图像(如RGB、红外等)来...

