[发明专利]基于目标检测和语义分割融合的障碍物检测方法在审
| 申请号: | 202111516010.7 | 申请日: | 2021-12-04 |
| 公开(公告)号: | CN114187268A | 公开(公告)日: | 2022-03-15 |
| 发明(设计)人: | 何坚;魏鑫;宋雪娜;吕孟飞 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06T7/00 | 分类号: | G06T7/00;G06T7/10;G06K9/62;G06N3/04;G06N3/08;G06V10/80 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 目标 检测 语义 分割 融合 障碍物 方法 | ||
1.一种基于目标检测和语义分割融合的障碍物检测方法,其特征在于:
(1)目标检测数据集和语义分割数据集混合加载与数据扩充
将目标检测数据标注格式和语义分割标注格式统一以txt文件进行存储,每个txt文件对应一张图片,每一行代表图片中的一个目标边界框或一个目标闭合区域,边界框的数据格式为(class_id,x,y,w,h),其中class_id为目标类别编号,x为目标的中心点x坐标(横向)/图片总宽度,y为目标的中心点y坐标(纵向)/图片总高度,w为目标框宽度/图片总宽度,h为目标框高度/图片总高度,闭合区域的数据格式为(class_id,x_1,y_1,x_2,y_2,…,x_n,y_n),其中class_id为闭合区域的类别编号,一组x、y代表一个点的坐标,x和y的值为对图片尺寸归一化后的值,n表示一共有n个点确定该闭合区域;基于PyTorch深度学习框架,实现对两种标注的同步加载,数据增强采用Mosaic的方式随机拼接4幅图像,每个图像又经过随机平移、缩放、翻转、亮度和饱和度调整,用于丰富物体背景,提高模型的泛化能力;
(2)目标检测和语义分割融合的端到端深度卷积神经网络DeSeNet
DeSeNet网络架构一共分为4部分,分别是Input输入端、Backbone主干网络、Neck网络和Prediction预测网络;所述Input输入端,包含一个Focus模块,将RGB图像分解成4张尺寸为原来1/2的图像,并在通道维上拼接,最后经过一个卷积操作得到无损二倍下采样特征图;所述Backbone骨干网络,用于初步提取图像特征,包含CBS模块和CSP模块:a)CBS模块由卷积层(Conv)、归一化层(Batch Nrom)和激活层(Swish)串连而成,作为网络中的基本卷积单元;b)CSP模块中包含两种基本模块,一种是CBS,另一种是残差单元(Res Unit),CSP_1使用了残差单元,CSP_2使用两个串连的CBS模块替换残差单元,CSP_1_X中的X代表模块中残差单元的数量;所述Neck网络,包括SPP模块、FPN结构和PAN结构,将Backbone中的多尺度信息进行融合:a)SPP结构利用空洞卷积将多重感受野融合;b)FPN结构通过自定向下的方式提取图片的语义特征,利用上采样并按通道维进行张量拼接,将深层特征维度扩展到浅层特征维度,PAN结构通过自底向上提取图片中的位置特征,利用CBS模块实现下采样,并按通道维进行张量拼接,将不同层次的特征进行融合;所述Prediction预测网络,分为Detection目标检测头和Segmentation语义分割头两个并行部分,分别输出3个不同尺度的目标检测特征图和1个语义分割特征图。
2.根据权利要求1所述的方法,其特征在于,下面详细描述DeSeNet每个模块的具体实施步骤:
(1)Input输入端,输入的图片大小为640*640*3,接着使用Focus模块对图像进行无损二倍下采样操作,具体操作是在一张图片中每隔一个像素取一个值,类似于邻近下采样,这样就获取了4张图片,每张图片尺寸变为320*320*3,将这4张图片按通道维拼接,组成一个320*320*12的张量,这样就将空间信息集中到了通道维度,最后再通过32个3*3的卷积核进行卷积运算输出一个32通道的特征图;
(2)Backbone骨干网络,其中SPP模块首先通过一个CBS模块进行卷积操作,再分成四个分支,其中三个分别经过k={5×5,9×9,13×13}、步长为1的最大池化层,这三个分支的输出和另一个没有经过池化层的分支组成了四个不同尺度的特征图,将这四个特征图进行concat拼接操作,再经过一个CBS模块做融合;具体结构如表1所示:
表1
index type in_channel out_channel kernel_size stride output_size 1 CBS 32 64 3 2 160*160 2 CSP1_1 64 64 160*160 3 CBS 64 128 3 2 80*80 4 CSP1_3 128 128 80*80 5 CBS 128 256 3 2 40*40 6 CSP1_3 256 256 40*40 7 CBS 256 512 3 2 20*20 8 SPP 512 512 20*20 9 CSP2_1 512 512 20*20
(3)Neck部分,CSP模块全部使用不带残差结构的CSP2,上采样模块全部使用最邻近插值算法,除第28层为4倍上采样外,其余都是2倍上采样,下采样全部使用卷积核大小为3*3、步长为2的CBS模块来代替池化层;第12层接收来自第6和第11层的输出,第16层接收来自第4和第15层的输出,第19层接收来自第14和第18层的输出,第22层接收来自第10层和第21层的输出,第24、25、27层分别接收来自第16、19、22层的输出,第29层接收来自24、26、28层的输出;具体结构如表2所示:
表2
index type in_channel out_channel kernel_size stride output_size 10 CBS 512 256 1 1 20*20 11 Upsample 40*40 12 Concat 512 40*40 13 CSP2_1 512 256 40*40 14 CBS 256 128 1 1 40*40 15 Upsample 80*80 16 Concat 256 80*80 17 CSP2_1 256 128 80*80 18 CBS 128 128 3 2 40*40 19 Concat 256 40*40 20 CSP2_1 256 256 40*40 21 CBS 256 256 3 2 20*20 22 Concat 512 20*20 23 CSP2_1 512 512 20*20 24 CBS 256 256 1 1 80*80 25 CBS 256 256 1 1 40*40 26 Upsample 80*80 27 CBS 512 256 1 1 20*20 28 Upsample 80*80 29 Concat 768 80*80
(4)Prediction部分,分为目标检测头和语义分割头;目标检测头使用3个卷积层,每个卷积层有36个大小为1*1、步长为1的卷积核,输出大小分别为80*80*36、40*40*36、20*20*36的3种特征图,其中维度36表示3个12维的网格,即每个特征图的每个网格中有3个先验框,每个先验框由先验框位置4维、置信度1维、类别7维合计12维构成,80、40、20分别代表特征图的大小,关注不同尺度的目标;利用CBS_X模块作为空洞卷积层,CBS_X中X的值表示卷积核的扩张率;扩张率使用1、2、3的组合避免语义分割结果中的网格效应,让分割结果更平滑,金字塔池化层使用四个输出大小分别为1、2、3、6的平均池化层再串连CBS和上采样的分支组成,将空间和上下文信息传给后面的FFM特征融合模块,最后通过一个卷积核大小为1*1、步长为1的卷积层将通道数调整为语义分割类别数以获得语义分割输出的特征图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111516010.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:页面处理方法、装置、计算机设备和存储介质
- 下一篇:一种载具





