[发明专利]基于自动驾驶场景下的多模态融合三维目标鲁棒检测方法在审
| 申请号: | 202310357033.0 | 申请日: | 2023-04-03 |
| 公开(公告)号: | CN116486368A | 公开(公告)日: | 2023-07-25 |
| 发明(设计)人: | 禹鑫燚;杨阳;陈昊;沈春华;欧林林 | 申请(专利权)人: | 浙江工业大学 |
| 主分类号: | G06V20/58 | 分类号: | G06V20/58;G06V10/44;G06V10/80;G06V10/764;G06V10/82;G06N3/0464;G06N3/08;G06N5/04 |
| 代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 孙家丰 |
| 地址: | 310014 浙江省杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 自动 驾驶 场景 多模态 融合 三维 目标 检测 方法 | ||
1.基于自动驾驶场景下的多模态融合鲁棒三维目标检测方法,具体步骤如下:
步骤1:获取当前帧点云数据和图像数据;
步骤2:将点云输入点云特征提取网络,将当前帧点云转换为鸟瞰图(BEV)特征;其中,又可分为三个步骤
步骤2-1:定义体素大小和检测范围;人为定义检测范围区间设置为X和Y轴区间为[-54m,54m],Z轴区间为[-5m,3m],并定义体素大小为(0.075m,0.075m,0.2m);
步骤2-2:点云体素化;将该空间内的点云根据定义的体素大小进行栅格化操作,得到若干体素;其次,对各个非空体素内的点云进行采样,随机选取N个点云,若不足则用0补全;使用全连接神经网络对采样到的点云进行升维操作,得到体素i内的点云特征为并利用最大池化法得到该体素特征Vi∈RC;其中C为特征通道数;此外对于不存在点云的空体素同样使用0补全;
步骤2-3:提取体素特征;使用稀疏三维卷积对上述步骤得到的体素特征进行下采样操作得到BEV特征FB∈RC×W×H,而后使用传统的二维卷积得到多尺度的BEV特征并通过FPN融合多尺度信息得到最终的BEV特征;
步骤3:首先,将图像数据输入图像特征提取网络Resnet-50,提取该时刻下的6张图像特征;而后,利用FPN融合多尺度信息,得到不同尺度对应的特征图;
步骤4:将鸟瞰图特征输入鸟瞰图检测模块,得到初步的三维目标检测结果;该步骤,具体可分为:
步骤4-1:降维;使用3×3卷积对BEV特征进行降维操作,从而节约计算量;
步骤4-2:预测结果;将该检测任务视为集合匹配问题,给定一组可学习的对象查询向量,使用交叉注意力机制对BEV特征进行解码操作,对象查询向量作为BEV特征解码后的容器;最后,将对象查询向量输入回归分支和分类分支从而得到BEV空间内的检测结果;
步骤5:将步骤2和步骤3输出的点云、图像特征和步骤4的输出的初步检测结果送入交错融合模块,从而自适应融合图像特征和点云特征;利用融合后的结果微调步骤4中的初步检测结果。
2.如权利要求1所述的基于自动驾驶场景下的多模态融合鲁棒三维目标检测方法,其特征在于:步骤5的具体流程如下所示:
步骤5-1:初始化;初始化流程分为两步:首先,利用步骤4-2中的对象查询向量作为交错融合模块的对象查询向量;采样初步检测结果中的点云用于生成增强向量添加到对象查询向量中;其次,将步骤4-2中检测结果的中心点作为该模块的“参考点”;
步骤5-2:融合图像特征;首先将对象查询向量送入全连接层,生成基于“参考点”的六个可学习偏置;其次,通过该偏置计算得到采样位置,从而在输入的多尺度图像特征图中进行双线性插值采样;同时,利用全连接层生成该六个点对应的权重;最后,对该六个点的特征进行加权求和,用于更新对象查询向量;
步骤5-3:融合点云特征;首先将参考点的三维坐标,转换为BEV视角下的坐标;其次,通过双线性采样算法计算得到“参考点”对应的BEV特征;最后,将该用于更新对象查询向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310357033.0/1.html,转载请声明来源钻瓜专利网。





