[发明专利]一种基于深度学习和图像处理的小物件检测方法有效

专利信息
申请号: 201811605116.2 申请日: 2018-12-26
公开(公告)号: CN109685145B 公开(公告)日: 2022-09-06
发明(设计)人: 李卫军;吴超 申请(专利权)人: 广东工业大学
主分类号: G06V10/80 分类号: G06V10/80;G06V10/82;G06V10/70;G06N3/04
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 林丽明
地址: 510006 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及图像处理领域,更具体的,涉及一种基于深度学习和图像处理的小物件检测方法,本发明通过把原始Inception模块的5x5的卷积替换为两个3x3的卷积核,保留了更多的细节,同时为了加快训练速度和输出一致性,在每个分支的最后加入了BN,即Batch Normalization,进行批量归一化处理,同时引入残差网络结构,增加准确率,而且本发明采用反卷积增强相邻两层的高层和底层的上下文信息,将上层反卷积的结果与底层卷积曾像素对齐一一相加,得到的新的特征图作为检测的特征图,可以提高对小物体的识别,本发明在不影响传统SSD的高FPS的前提下,提高传统SSD对小物体检测的准确率。
搜索关键词: 一种 基于 深度 学习 图像 处理 物件 检测 方法
【主权项】:
1.一种基于深度学习和图像处理的小物件检测方法,其特征在于,包括以下步骤:步骤S1:获取数据集,数据集中包括已标注的物体类别信息和目标框的左上(xmin,ymin)和右下(xmax,ymax)两个点的坐标信息的原始图片,从数据集的训练集中任意选取一张带标签信息的图片,将图片调整到300x300的大小作为输入;步骤S2:将图片沿着水平(0,150)(300,150)和竖直方向(150,0)(150,300)分割成大小为150x150的4部分P1,P2,P3,P4;另外取以(75,75)(225,75)(75,225)(225,225)为四个顶点坐标的图像作为第5部分P5;步骤S3:根据每张输入图片带的目标框的左上和右下两个坐标信息(xmin,ymin),(xmax,ymax)判断图片中的物体有没有被分割,并根据物体被分割的情况修改坐标;步骤S4:运用三次内插法对图片进行插值,使被分割的大小为150x150的5部分图片P1、P2、P3、P4、P5与原始图片300x300的大小相同,并命名为F1,F2,F3,F4,F5,同时将步骤S3得到的修改后的坐标乘以2并进行更新;步骤S5:对F1,F2,F3,F4,F5五张图片的每一张经VGG16网络提取特征,再用3x3x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv6特征图,再继续用1x1x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv7特征图;步骤S6:将1x1,3x3,3x3的卷积核堆叠在一起,组成三个分支,每个分支的最后加入了BN,即Batch Normalization来进行批量归一化处理,将各个分支连接融合同时引入残差网络结构,将该结构命名为IRBNet卷积结构;步骤S7:由步骤S6得到的大小为19x19x1024的Conv7特征图,经过IRBNet卷积结构来提取特征,得到大小为10x10x512的特征图Conv8;Conv8经过IRBNet卷积得到大小为5x5x256的特征图Conv9;Conv9经过IRBNet卷积得到大小为3x3x256的特征图Conv10;Conv10经过IRBNet卷积得到大小为1x1x256的特征图Conv11;步骤S8:采用卷积核为3x3,步长为4的卷积方式对高层特征图进行反卷积,让其扩大两倍使得与上一底层大小一样,然后将对应位置的像素进行一一相加,得到的新的特征图大小与底层特征图大小一致,将该结构取名为HDPANet;步骤S9:将特征图Conv8经过步骤S8得到另一个大小为19x19x1024的特征图与Conv7相加得到特征图Conv7D,特征图Conv9经过步骤S8得到另一个大小为10x10x512的特征图与Conv8相加得到特征图Conv8D,特征图Conv10经过步骤S8步得到另一个大小为5x5x256的特征图与Conv9相加得到特征图Conv9D,特征图Conv11经过步骤S8得到另一个大小为3x3x256的特征图与Conv10相加得到特征图Conv10D;步骤S10:在Conv4_3和Conv10D以及Conv11特征图层用3x3的卷积核进行卷积得到通道数为4x(class+4)的特征图,在Conv7D,Conv8D,Conv9D特征图层用3x3的卷积核进行卷积得到通道数为6x(class+4)的特征图;步骤S11:F1,F2,F3,F4,F5通过步骤S1~S10得到各自对应的损失函数loss;在反向传播的时候通过随机梯度下降算法优化五个损失函数loss的总和total_loss,同时还设置训练迭代次数epoch,当total_loss稳定时候得到的网络参数即为最优解;步骤S12:在数据集中选取不带标签信息的图片,执行步骤S1以及步骤S2进行图片分割,并将分割好的图片放入到步骤S1~步骤S10训练好的网络中,再经过非极大值抑制进行过滤,最终得到F1,F2,F3,F4,F5这五张图的带预测类别label和预测坐标(xpred_min,ypred_min),(xpred_max,ypred_max);步骤S13:根据F1,F2,F3,F4,F5五张图片的预测类别label以及预测坐标对图片进行融合,最后的结果即为检测的最终结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811605116.2/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top