新闻中心
-
04-02阿里7B多模态文档理解大模型拿下新SOTA多模态文档理解能力新SOTA!阿里mPLUG团队发布最新开源工作mPLUG-DocOwl1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引...
-
04-023D视觉绕不开的点云配准!一文搞懂所有主流方案与挑战作为点集合的点云有望通过3D重建、工业检测和机器人操作中,在获取和生成物体的三维(3D)表面信息方面带来一场改变。最具挑战性但必不可少的过程是点云配准,即获得一...
-
03-28DifFlow3D:场景流估计新SOTA,扩散模型又下一城!原标题:DifFlow3D:TowardRobustUncertainty-AwareSceneFlowEstimationwithIterativeDiffu...
-
03-25CVPR 2025 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步在许多实际应用中,物体姿态估计扮演着关键角色,比如在具身智能、机器人操作和增强现实等领域。在这一领域中,最先受到关注的任务是实例级别6D姿态估计,其需要关于目标...
-
03-25零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步物体姿态估计在许多现实世界应用中扮演着关键角色,如具身智能、机器人灵巧操作和增强现实等领域。在这一领域中,最先受到关注的任务是实例级别6D姿态估计,其需要关于目...
-
03-25CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术视频理解的核心目标是准确理解时空表示,但面临两个主要挑战:短视频片段中存在大量时空冗余,并且复杂的时空依赖关系。三维卷积神经网络(CNN)和视频Transfor...

