新闻中心
-
04-03开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计!0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务...
-
03-21DualBEV:大幅超越BEVFormer、BEVDet4D,开卷!这篇论文探讨了在自动驾驶中,从不同视角(如透视图和鸟瞰图)准确检测物体的问题,特别是如何有效地从透视图(PV)到鸟瞰图(BEV)空间转换特征,这一转换是通过视觉...
-
03-18巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数传统的时空预测模型通常需要大量数据支持才能取得良好效果。然而,由于不同城市发展水平的差异和数据收集政策的不一致,许多地区的时空数据(例如交通和人群流动数据)受到...
-
02-26国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2025接收2月16日,OpenAISora的发布无疑标志着视频生成领域的一次重大突破。Sora基于DiffusionTransformer架构,和市面上大部分主流方法(由...
-
02-19让视觉语言模型搞空间推理,谷歌又整新活了尽管视觉语言模型(VLM)在许多任务上取得了显著进展,包括图像描述、视觉问答、具身规划和动作识别等,但在空间推理方面仍然存在挑战。许多模型在理解目标在三维空间中...
-
02-05CMUÐ实现突破:机器狗点满敏捷值天赋,超高速穿越障碍,速度与安全兼备!CMU和ETHZurich团队合作开发了名为"敏捷但安全"(ABS)的新框架,为四足机器人在复杂环境中实现高速运动提供了解决方案。该框架不仅...

