[发明专利]面向自动驾驶的多传感器深度融合3D目标检测方法有效
申请号: | 202110391620.2 | 申请日: | 2021-04-12 |
公开(公告)号: | CN113159151B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 张燕咏;祝含颀;吉建民;张昱 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06T5/50;G06T17/20;G06V10/774;G06V10/80 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 自动 驾驶 传感器 深度 融合 目标 检测 方法 | ||
本发明公开了一种面向自动驾驶的多传感器深度融合3D目标检测方法,通过边缘校准技术,有效解决了传感器时空不同步的问题,通过目标中心数据增强,有效解决了标注不足时的深度估计模型训练问题,通过不确定性估计技术、场景关联损失函数,有效提高了深度估计模型在场景变化条件下的鲁棒性和精度。通过2D‑3D无损信息转化、体素转换为点技术、由粗到细的深度对齐、多分支监督流,有效的解决了不同模态特征空间不一致且转换有信息损失问题,最终的架构可以在自动驾驶场景中,增强多模态信息的互补作用,降低多模态信息相互之间的干扰,在遮挡、点云稀疏、光照变化等场景下均取得良好表现。
技术领域
本发明涉及机器视觉技术领域,尤其涉及一种面向自动驾驶的多传感器深度融合3D目标检测方法。
背景技术
3D目标检测在无人驾驶、机器人、增强现实等场景具有广泛应用。相比普通的2D检测,3D检测额外提供了目标物体的长宽高和偏转角信息。是三维场景理解、自主决策规划的重要感知基础。目前存在以下几种代表性的融合方案。
MV3D是第一个融合LiDAR BEV特征和相机前视图特征的工作,但是由于特征未对齐,效果并不好。
多任务多传感器融合技术(Ming Liang,Bin Yang,Yun Chen,Rui Hu,RaquelUrtasun;Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR),2019,pp.7345-7353)利用多任务学习(2D和3D目标检测、地面估计和深度估计),将多层次的图像和LiDAR3D特征在各自的特征空间分别提取特征,在多任务多传感器融合技术中,深度估计只是在多传感器功能图之间建立密集对应关系的辅助任务,没有显式的进行对齐,而是直接拼接融合多模态特征。
PointPainting方案(Alex H.Lang,SourabhVora,Holger Caesar,Lubing Zhou,Jiong Yang,Oscar Beijbom;PointPainting:Sequential Fusion for 3D ObjectDetection;Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR),2019,pp.12697-12705)将LiDAR点投影到图像平面,并将投影的LiDAR点与从图像语义分割中获得的分类信息融合,采用了从3D到2D的简单的特征对齐方法,但是,仅利用密集图像中包含的稀疏信息产生了信息损失。
F-ConvNet使用2D检测器生成2D区域提议,将其投影到3D视锥,并使用PointNet获得3Dbox。因此,其性能受到2D检测器的限制。
3D-CVF(3D-CVF:Generating Joint Camera and LiDAR Features Using Cross-view Spatial Feature Fusion for 3D Object Detection ECCV 2020pp 720-736)提取2D图像特征,将其投影到3D LiDAR空间,通过自适应注意力网络融合这两个特征,最后通过基于3D兴趣区域(ROI)对结果进行两阶段的优化,采用了从2D到3D的对齐方法,由于在3D空间中对齐,因此效果较好,但是图像特征在投影到LiDAR空间之前会先进行多倍下采样,并且会丢失密集2D像素和3D空间之间的细粒度空间对应。
CLOCS(CLOCs:Camera-LiDAR Object Candidates Fusion for 3D ObjectDetection,IROS 2020pp 1250-1256)将现有点云检测器和图像检测器的输出结果进行后融合,通过2D边框和3D边框的一致性进行置信度重打分。EPNet使用两个流RPN来编码LiDAR点和图像特征,并增强点特征通过将LiDAR点投影到像平面来具有语义图像特征,但是,该方案依然仅利用了密集图像中包含的稀疏信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110391620.2/2.html,转载请声明来源钻瓜专利网。