新闻中心
SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?
基于激光雷达相机融合的3d检测是自动驾驶的一项关键任务。近年来,出现了许多激光雷达相机融合方法,并取得了良好的性能,但是这些方法始终缺乏精心设计和有效监督的融合过程
本文介绍了一种名为SupFusion的新训练策略,它为激光雷达相机融合提供了辅助特征级监督,并显著提高了检测性能。该方法包括Polar Sampling数据增强方法,用于加密稀疏目标并训练辅助模型生成高质量特征进行监督。这些特征用于训练激光雷达相机融合模型,优化融合特征以模拟生成高质量特征。此外,还提出了一种简单而有效的深度融合模块,与之前使用SupFusion策略的融合方法相比,该模块连续获得了优越的性能。本文的方法具有以下优点:首先,SupFusion引入了辅助特征级监督,可以在不增加额外推理成本的情况下提高激光雷达相机的检测性能。其次,所提出的深度融合可以不断提高检测器的能力。提出的SupFusion和深度融合模块是即插即用的,本文通过大量实验证明了它们的有效性。在基于多个激光雷达相机的3D检测KITTI基准测试中,取得了约2%的3D mAP改进!

图1:顶部,以前的激光雷达相机3D检测模型,融合模块是通过检测loss进行优化的。底部:本文提出的SupFusion,通过辅助模型提供的高质量特征引入辅助监督。
基于激光雷达相机融合的3D检测是自动驾驶和机器人技术的一项关键且具有挑战性的任务,先前的方法总是通过内参和外参将相机输入投影到激光雷达BEV或体素空间,以对齐激光雷达和相机特征。然后,采用简单的级联或求和来获得用于最终检测的融合特征。此外,一些基于深度学习的融合方法获得了有希望的性能。然而,以往的融合方法总是通过检测损失直接优化3D/2D特征提取和融合模块,这在特征层面缺乏精心设计和有效的监督,限制了其性能。
近年来,蒸馏方式在用于3D检测的特征级监督方面显示出很大的改进。一些方法提供了激光雷达特征,以指导2D主干根据相机输入估计深度信息。此外,一些方法提供了激光雷达相机融合功能,以监督激光雷达主干从激光雷达输入中学习全局和上下文表示。通过模拟更稳健和高质量的特征引入特征级辅助监督,检测器可以促进边际改进。受此启发,处理激光雷达相机特征融合的自然解决方案是提供更强、高质量的特征,并为激光雷达相机3D检测引入辅助监督!
为了提高基于激光雷达相机的融合3D检测性能,本文提出了一种名为SupFusion的监督式激光雷达相机融合方法。该方法通过生成高质量的特征,并为融合和特征提取过程提供有效的监督来实现。首先,我们训练一个辅助模型,以提供高质量的功能。与以往利用较大模型或额外数据的方法不同,我们提出了一种新的数据增强方法,称为Polar Sampling。Polar Sampling可以从稀疏的激光雷达数据中动态增强目标的密度,从而更容易检测并提高特征质量,例如准确的检测结果。然后,我们简单地训练基于激光雷达相机融合的检测器,并引入辅助特征级监督。在这一步中,我们将原始激光雷达和相机输入输入到3D/2D主干和融合模块中,以获得融合特征。融合特征被馈送到检测头中用于最终预测,同时辅助监督将融合特征模拟为高质量特征。这些特征是通过预训练的辅助模型和增强的激光雷达数据获得的。通过这种方式,所提出的特征级监督可以使融合模块生成更稳健的特征,并进一步提高检测性能。为了更好地融合激光雷达和相机的特征,我们提出了一种简单而有效的深度融合模块,该模块由堆叠的MLP块和动态融合块组成。SupFusion可以充分挖掘深度融合模块的能力,并不断提高探测精度!
本文的主要贡献:
- 提出了一种新的监督融合训练策略SupFusion,该策略主要由高质量的特征生成过程组成,并首次提出了用于鲁棒融合特征提取和精确3D检测的辅助特征级监督损失。
- 为了在SupFusion中获得高质量的特征,提出了一种名为“Polar Sampling”的数据增强方法来加密稀疏目标。此外,还提出了一种有效的深度融合模块,以连续提高检测精度。
- 基于具有不同融合策略的多个检测器进行了广泛的实验,并在KITTI基准上获得了约2%的mAP改进。
提出的方法
高质量的特征生成过程如下图所示,对于任何给定的LiDAR样本,通过polar pasting粘贴来加密稀疏目标,极轴polar pasting计算方向和旋转以从数据库中查询密集目标,并通过pasting为稀疏目标添加额外的点。本文首先通过增强的数据训练辅助模型,并将增强的激光雷达数据馈送到辅助模型中,以在其收敛后生成高质量特征f*。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

高质量的特征生成
为了在SupFusion中提供特征级监督,采用了一个辅助模型来从增强的数据中捕获高质量的特征,如图3所示。首先,训练一个辅助模型来提供高质量的特征。对于D中的任何样本,通过polar pasting来增强稀疏的激光雷达数据,以获得增强的数据,该极性粘贴通过极性分组中生成的添加点集来加密备用目标。然后,在辅助模型收敛之后,将增强的样本输入到优化的辅助模型中,以捕获高质量特征,用于训练激光雷达相机3D检测模型。为了更好地应用于给定的激光雷达相机检测器并更容易实现,这里简单地采用激光雷达分支探测器作为辅助模型!
检测器训练
对于任何给定的激光雷达相机检测器,在特征级别使用所提出的辅助监督来训练模型。给定样本,的情况下,首先将激光雷达和相机输入到3D和2D编码器和中,以捕获相应的特征和,这些特征被输入到融合模型中以生成融合特征,并流到检测头中进行最终预测。此外,采用所提出的辅助监督来模拟具有高质量特征的融合特征,该特征是由预先训练的辅助模型和增强的激光雷达数据生成的。上述过程可以公式化为:

Polar Sampling
为了提供高质量的特征,本文在提出的SupFusion中引入了一种名为Polar Sampling的新的数据增强方法,以解决稀疏问题,该问题经常导致检测失败。为此,我们对激光雷达数据中的稀疏目标进行了密集处理,类似于密集目标的处理方式。极坐标采样由两个部分组成,即极坐标分组和极坐标粘贴。在极坐标分组中,我们主要建立了一个数据库来存储密集目标,该数据库用于极坐标粘贴,从而使稀疏目标变得更加密集
Blackink AI纹身生成
创建类似纹身的设计,生成独特纹身
80
查看详情
考虑到激光雷达传感器的特性,收集到的点云数据自然存在特定的密度分布。例如,物体在表面上有更多的点朝向激光雷达传感器,而在相对两侧的点很少。密度分布主要受方向和旋转的影响,而点的密度主要取决于距离。离激光雷达传感器更近的物体具有更密集的点。受此启发,本文的目标是根据稀疏目标的方向和旋转,将长距离的稀疏目标与短距离的密集目标进行密度化,以保持密度分布。我们基于场景中心和特定目标为整个场景以及目标建立极坐标系,并将激光雷达传感器的正方向定义为0度,以测量相应的方向和旋转。然后,我们收集具有相似密度分布(例如,具有相似方向和旋转)的目标,并为极性分组中的每组生成一个密集目标,并在极坐标粘贴中使用它来密集稀疏目标
Polar Grouping
如图4所示,这里构建了一个数据库B,根据极性分组中的方向和旋转来存储生成的密集物点集l,在图4中记为α和β!

首先,搜索整个数据集,通过位置计算所有目标的极角,并在基准中提供旋转。其次,根据目标的极角将它们分成几组。手动将方向和旋转划分为N组,对于任何目标点集l,都可以根据索引将其放入相应的组中:

Polar Pasting
如图2所示,利用Polar Pasting来增强稀疏的激光雷达数据,以训练辅助模型并生成高质量特征。给定LiDAR样本,,,,包含个目标,对于任何目标,都可以计算与分组过程相同的方向和旋转,并根据标签和索引从B查询密集目标,这可以从E.q.6中获得增强样本中的所有目标并获得增强的数据。

Deep Fusion
为了模拟增强型激光雷达数据生成的高质量特征,融合模型旨在从相机输入中丰富的颜色和上下文特征中提取稀疏目标的缺失信息。为此,本文提出了深度融合模块,以利用图像特征并完成激光雷达演示。所提出的深度融合主要由3D学习器和2D-3D学习器组成。3D学习器是一个简单的卷积层,用于将3D呈现转移到2D空间中。然后,连接2D特征和3D呈现(例如,在2D空间中),2D-3D学习器被用来融合LiDAR相机特征。最后,通过MLP和激活函数对融合特征进行了加权,将其添加回原始激光雷达特征作为深度融合模块的输出。2D-3D学习器由深度为K的堆叠MLP块组成,学习利用相机特征来完成稀疏目标的激光雷达表示,以模拟密集激光雷达目标的高质量特征。
实验对比分析
实验结果(mAP@R40%)。这里列出了三个类别的简单、中等(mod.)和困难情况,以及总体性能。这里L、LC、LC*表示相应的激光雷达检测器、激光雷达相机融合检测器和本文提案的结果。∆表示改进。最佳结果以粗体显示,预期L†是辅助模型,并在增强验证集上进行测试。MVXNet是基于mmdetection3d重新进行的。PV-RCNN-LC和Voxel RCNN LC是基于VFF的开源代码重新进行的。

重写后的内容:整体性能。根据表1中的比较结果,3DmAP@R40基于三个检测器的比较显示了各个类别和每个难度划分的总体性能。可以明显观察到,通过引入额外的相机输入,激光雷达相机方法(LC)在性能上优于基于激光雷达的检测器(L
)。通过引入极性采样,辅助模型(L†)在增强的验证集上表现出令人钦佩的性能(例如超过90%的mAP)。借助具有高质量特征的辅助监督和提出的深度融合模块,我们的提案不断提高检测精度。例如,与基线(LC)模型相比,我们的提案在中度和难度目标上分别获得了+1.54%和+1.24%的3D mAP改进。此外,我们还对基于SECOND-LC的nuScenes基准进行了实验,如表2所示,NDS和mAP分别提高了+2.01%和+1.38%

class感知改进分析。与基线模型相比,SupFusion和深度融合不仅可以提高整体性能,还可以提高包括Pedestrian在内的每个类别的检测性能,比较三个类别的平均改善(例如中等情况),可以获得以下观察结果:骑自行车的人获得最大的改善(+2.41%),而行人和汽车分别获得+1.35%和+0.86%的改善。原因很明显:(1) 与行人和骑自行车的人相比,汽车更容易被发现,并获得最佳效果,因此更难改进。(2) 与行人相比,骑自行车的人获得了更多的改进,因为行人是非网格的,生成的密集目标与骑自行车的相比不那么好,因此获得的性能改进较低!


请点击以下链接查看原文内容:https://mp.weixin.qq.com/s/vWew2p9TrnzK256y-A4UFw
以上就是SupFusion:探索如何有效监督Lidar-Camera融合的3D检测网络?的详细内容,更多请关注其它相关文章!
# 骑自行车
# 宿州seo公司推荐23火星
# 南充营销推广怎么联系
# 天津网站推广技术
# 郑州SEO学习壁纸电脑
# 网站建设方案考虑
# 终端营销平台推广员下载
# 优化网站投资多少钱
# 广西抖音seo招商信息
# 嘉兴抖音seo
# 任丘农产品网站建设
# 训练
# 进行了
# 获得了
# 组中
# 极坐标
# 并在
# 的人
# 所示
# 提出了
# 高质量
# 自动驾驶
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
红米手机怎么设置变成5G手机
哪个品牌有折叠屏手机卖
路由器上面的power红灯是什么意思
j*a map数组怎么用
税负是什么意思
j*a怎么存放数组中
怎么在项目中使用typescript
固态硬盘如何显示
如何用好typescript
春运抢票如何抢连坐的票
笔记本如何选择固态硬盘
.asm如何在命令行运行
什么叫typescript
typescript的语法格式是什么
dos命令如何复制目录结构
智能锁type-c接口是什么
分销是什么意思
win10如何打开dos命令窗口大小
春运抢票准备什么东西
科技型企业成长"十步法"
手机如何运行ping命令
固态硬盘如何消除缓存
广东春运抢票怎么抢不到
苹果16更新了哪些版本
今天是农历多少号
如何去除计算器的命令
交管12123协议头不完整是什么原因
video是什么意思
电脑type-c接口是什么意思
路由器上的power按钮是什么意思
固态硬盘质量如何
typescript如何做项目
animal是什么意思
如何查找固态硬盘
跨境电商gmv是什么意思?跨境电商GMV:理解其含义、计算方法和影响因素
华为5g手机怎么用4g网络
直接gmV是什么意思?直接GMV:定义和概念
夸克加载什么要会员
element ui的好处
固态硬盘如何安装win10系统安装
复制 命令如何撤销
广东春运抢票怎么抢的
市盈率高是什么意思
燃气热水器上的power是什么意思
typescript适合什么用
单片机计数程序怎么写
ai如何重复使用上一命令
交管12123协议头不完整怎么弄
新找到ao3镜像网站链接入口
固态硬盘如何4k对其


2023-09-28
浏览次数:次
返回列表