新闻中心
-
05-08一览Occ与自动驾驶的前世今生!首篇综述全面汇总特征增强/量产部署/高效标注三大主题写在前面&笔者的个人理解近年来,自动驾驶因其在减轻驾驶员负担和提高驾驶安全方面的潜力而越来越受到关注。基于视觉的三维占用预测是一种新兴的感知任务,适用于...
-
04-25颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑近日,颜水成教授团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。项目主页&Demo:https://vitron-llm.github....
-
04-023D视觉绕不开的点云配准!一文搞懂所有主流方案与挑战作为点集合的点云有望通过3D重建、工业检测和机器人操作中,在获取和生成物体的三维(3D)表面信息方面带来一场改变。最具挑战性但必不可少的过程是点云配准,即获得一...
-
03-13美图AI视觉创作工具上新,涂抹+关键词,变废为宝!整理|星璇出品|51CTO技术栈(微信号:blog51cto)美图公司最近发布了AI视觉创作工具WHEE,其中新增了AI改图功能,这一功能极大地降低了专业图像编...
-
02-19后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式ImageNet准确率曾是评估模型性能的主要指标,但在当今计算视觉领域,这一指标逐渐显得不够完善。随着计算机视觉模型变得更加复杂,可用模型种类已显著增加,从Co...
-
02-19让视觉语言模型搞空间推理,谷歌又整新活了尽管视觉语言模型(VLM)在许多任务上取得了显著进展,包括图像描述、视觉问答、具身规划和动作识别等,但在空间推理方面仍然存在挑战。许多模型在理解目标在三维空间中...

