新闻中心
-
01-16使用SAM实现可靠的多模态3D检测的RoboFusion论文链接:https://arxiv.org/pdf/2401.03907.pdf多模态3D检测器旨在研究安全可靠的自动驾驶感知系统。尽管它们在干净的基准数据集...
-
01-16精选200条数据后,MiniGPT-4被匹配相同模型的效果超越在生成细节丰富和精确的图像描述方面,GPT-4已经展现出了强大超凡的能力,其标志着一个语言和视觉处理新时代的到来。因此,类似于GPT-4的多模态大型语言模型(M...
-
01-15高效提升检测能力:突破200米以上小目标检测本文经自动驾驶之心公众号授权转载,转载请联系出处。基于LiDAR点云点3DObjectDetection一直是一个很经典的问题,学术界和工业界都提出了各种各样的...
-
01-15SD社区的I2V-Adapter:无需配置,即插即用,完美兼容图生视频插件图像到视频生成(I2V)任务是计算机视觉领域的一项挑战,旨在将静态图像转化为动态视频。这个任务的难点在于从单张图像中提取并生成时间维度的动态信息,同时保持图像内...
-
01-15iPhone实时渲染300平房间,达到厘米级精度!谷歌最新研究:NeRF尚未破产3D实时渲染大型场景,一台电脑,甚至一部手机就可以完成。从家里的客厅到主卧,储物间,厨房,卫生间各个死角,都能逼真在电脑中完成渲染,如同拍摄实物视频一般。而且,...
-
01-14CVPR 2025|美图&国科大联合提出DropKey正则化方法:用两行代码高效避免视觉Transformer过拟合问题近期,基于Transformer的算法被广泛应用于计算机视觉的各类任务中,但该类算法在训练数据量较小时容易产生过拟合问题。现有VisionTransformer...

