[发明专利]一种基于深度卷积神经网络的智能挖掘机行人检测方法有效

专利信息
申请号: 201811438551.0 申请日: 2018-11-28
公开(公告)号: CN109711262B 公开(公告)日: 2021-12-03
发明(设计)人: 宋学官;贾兆柱;郭佳鹏 申请(专利权)人: 大连理工大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/62
代理公司: 大连理工大学专利中心 21200 代理人: 温福雪;侯明远
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种基于深度卷积神经网络的智能挖掘机行人检测方法,具体是指为了避免挖掘机在挖掘过程中发生安全事故,而将行人检测算法应用其中,通过检测行人框的大小,估算行人距挖掘机的距离,从而减少安全事故,实现智能化。本发明的检测方法在构建挖掘工况下,特定的行人检测数据集,并搭建了一个单阶段的行人检测的深度卷积神经网络算法,该算法并没有包含区域候选网络,速度明显比两阶段检测算法要快,通过融合不同阶段的特征信息来解决多尺度多姿态检测的困难问题,并且采用Focal Loss来提高检测精度。
搜索关键词: 一种 基于 深度 卷积 神经网络 智能 挖掘机 行人 检测 方法
【主权项】:
1.一种基于深度卷积神经网络的智能挖掘机行人检测方法,其特征在于,步骤如下:S1根据在挖掘现场采集到的大量多样的行人图像数据,构建矿场的行人数据集,用于训练和测试深度卷积神经网络算法的数据;S1.1采集挖掘矿区在不同天气、不同时刻的无人体的各种矿山背景图片作为负样本图片,共3000张;S1.2采集挖掘矿区在上述不同情况下的行人图片,图片中人体的姿态、尺度、背景光照应多样,图片应该包含挖掘机日常工作所能拍摄的所有可能的情况,为正样本图片,共采集7000张;S2将现场采集到的图像数据进行预处理,以去除噪声和冗余信息,并标注深度卷积神经网络算法所需要的图片上的位置信息来构建完整的行人数据集;S2.1将步骤S1收集到的图片样本进行高斯滤波,直方图均衡化来去除噪声和图片增强;训练集包含8000张图片,测试集包含2000张图片,训练集和测试集各包含一半的正样本图片和一半的负样本图片;S2.2使用IabelImg标注正样本图片中行人框的坐标,即行人框的左上角坐标和右下角X‑Y坐标,生成相应的xml文件,该xml文件包含行人框的坐标信息和正样本图片的绝对路径;行人框的坐标信息即为坐标框;S3根据目标检测算法的常用模型,搭建本方法所用的深度卷积神经网络算法,具体步骤如下:S3.1使用TensorFlow深度学习框架来搭建此算法,主网络基本结构借鉴Resnet网络的残差结构,即特征信息依次通过1*1、3*3、1*1的卷积操作,然后与原始信息相加,最后经过Prelu激活函数输出;图片输入网络先通过7*7的卷积操作,最大池化操作,之后经过4个Bottleneck,每个Bottleneck将特征尺度缩小一倍,通道数增加一倍,4个Bottleneck包含的残差结构的数目为3、4、6、3,输出特征记为C2、C3、C4、C5;S3.2特征融合的结构是C5经过1*1卷积,将通道数改为256,记为P5;P5经过最近邻差值增加特征的尺度并与C4经过1*1卷积的特征相加得到P4,同理得到P3;S3.3P3、P4、P5每个特征点产生9个预选框,宽高比是{1,2,3},尺度系数为预选框与坐标框标签的交并比大于0.7时,该预选框的标签为1,预选框与坐标框标签的交并比小于0.3时,预选框的标签为0,其余预选框的标签是‑1,不用考虑;S3.4类别分类结构和边框回归结构是依次将特征P3、P4、P5分别经过四个3*3通道数为256的卷积操作,类别分类结构再经过3*3通道数为1*9的卷积操作,而边框回归结构再经过3*3通道数为4*9的卷积操作;S3.5边框回归结构的公式如下:其中,x、y、w、h分别为坐标框标签的中心点x‑y坐标、宽、高,xa、ya、wa、ha分别为预选框的中心点x‑y坐标、宽、高;S3.6类别分类结构的损失函数采用Focal Loss,形式如下:FL(pt)=‑αt(1‑pt)γlog(pt)其中,αt为类别不平衡系数,γ为难易样本的比例系数,pt为预测的前景概率;S3.7边框回归结构所采用的损失函数是Smooth L1 Loss,形式如下:S4为了使深度卷积神经网络算法更快收敛,使用ImageNet公开数据集预训练神经网络算法的主网络模型,具体步骤如下:S4.1图片数据输入网络前先对其进行随机翻折、旋转、平移缩放以及改变对比度来保证输入数据的多样性,提高算法的泛化能力,降低过拟合现象;之后进行归一化处理,然后送入网络进行训练;S4.2去掉算法的分类回归部分,在主网络后加全连接层,使用ImageNet数据集训练主网络结构;这样做主要是为了使算法参数的初始化值合理,加快算法收敛;S4.3在经过S1与S2步骤构建的行人数据集上训练搭建的网络,优化器是Adam,初始学习率0.0001,batch_size为5,训练50epoch,总损失值从2.56降到0.35;S5将标注好的图像数据分成训练数据集和测试数据集,用训练集来训练搭建好的神经网络算法;S6构建soft‑NMS算法,以有效去除神经网络算法生成的多余候选框,已达到一人一框,具体步骤如下:S6.1将置信度大于0的预选框取出,按置信度大小对预选框进行排序;S6.2置信度最高的预选框与其他预选框取交并比值i0;S6.3交并比值i0小于阈值0.5的那些其他预选框的置信度不变,而交并比值i0大于等于阈值0.5的那些预选框的置信度改为1‑i0;S6.4将置信度最大的预选框取出,如果置信度大于0.3,将剩余的预选框返回S6.1继续执行算法,否则退出算法,将取出的高置信度预选框作为算法最终预测的包含行人的坐标框;行人检测算法的评价指标主要是当每张图片的假正数为0.1时,漏检率的大小,漏检率越小代表算法效果越好;S7.使用测试集测试训练好的算法模型,若达不到精度,调节学习率等超参数重新训练算法模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811438551.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top