[发明专利]一种基于深度学习和图像处理的小物件检测方法有效
申请号: | 201811605116.2 | 申请日: | 2018-12-26 |
公开(公告)号: | CN109685145B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 李卫军;吴超 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/82;G06V10/70;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及图像处理领域,更具体的,涉及一种基于深度学习和图像处理的小物件检测方法,本发明通过把原始Inception模块的5x5的卷积替换为两个3x3的卷积核,保留了更多的细节,同时为了加快训练速度和输出一致性,在每个分支的最后加入了BN,即Batch Normalization,进行批量归一化处理,同时引入残差网络结构,增加准确率,而且本发明采用反卷积增强相邻两层的高层和底层的上下文信息,将上层反卷积的结果与底层卷积曾像素对齐一一相加,得到的新的特征图作为检测的特征图,可以提高对小物体的识别,本发明在不影响传统SSD的高FPS的前提下,提高传统SSD对小物体检测的准确率。 | ||
搜索关键词: | 一种 基于 深度 学习 图像 处理 物件 检测 方法 | ||
【主权项】:
1.一种基于深度学习和图像处理的小物件检测方法,其特征在于,包括以下步骤:步骤S1:获取数据集,数据集中包括已标注的物体类别信息和目标框的左上(xmin,ymin)和右下(xmax,ymax)两个点的坐标信息的原始图片,从数据集的训练集中任意选取一张带标签信息的图片,将图片调整到300x300的大小作为输入;步骤S2:将图片沿着水平(0,150)(300,150)和竖直方向(150,0)(150,300)分割成大小为150x150的4部分P1,P2,P3,P4;另外取以(75,75)(225,75)(75,225)(225,225)为四个顶点坐标的图像作为第5部分P5;步骤S3:根据每张输入图片带的目标框的左上和右下两个坐标信息(xmin,ymin),(xmax,ymax)判断图片中的物体有没有被分割,并根据物体被分割的情况修改坐标;步骤S4:运用三次内插法对图片进行插值,使被分割的大小为150x150的5部分图片P1、P2、P3、P4、P5与原始图片300x300的大小相同,并命名为F1,F2,F3,F4,F5,同时将步骤S3得到的修改后的坐标乘以2并进行更新;步骤S5:对F1,F2,F3,F4,F5五张图片的每一张经VGG16网络提取特征,再用3x3x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv6特征图,再继续用1x1x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv7特征图;步骤S6:将1x1,3x3,3x3的卷积核堆叠在一起,组成三个分支,每个分支的最后加入了BN,即Batch Normalization来进行批量归一化处理,将各个分支连接融合同时引入残差网络结构,将该结构命名为IRBNet卷积结构;步骤S7:由步骤S6得到的大小为19x19x1024的Conv7特征图,经过IRBNet卷积结构来提取特征,得到大小为10x10x512的特征图Conv8;Conv8经过IRBNet卷积得到大小为5x5x256的特征图Conv9;Conv9经过IRBNet卷积得到大小为3x3x256的特征图Conv10;Conv10经过IRBNet卷积得到大小为1x1x256的特征图Conv11;步骤S8:采用卷积核为3x3,步长为4的卷积方式对高层特征图进行反卷积,让其扩大两倍使得与上一底层大小一样,然后将对应位置的像素进行一一相加,得到的新的特征图大小与底层特征图大小一致,将该结构取名为HDPANet;步骤S9:将特征图Conv8经过步骤S8得到另一个大小为19x19x1024的特征图与Conv7相加得到特征图Conv7D,特征图Conv9经过步骤S8得到另一个大小为10x10x512的特征图与Conv8相加得到特征图Conv8D,特征图Conv10经过步骤S8步得到另一个大小为5x5x256的特征图与Conv9相加得到特征图Conv9D,特征图Conv11经过步骤S8得到另一个大小为3x3x256的特征图与Conv10相加得到特征图Conv10D;步骤S10:在Conv4_3和Conv10D以及Conv11特征图层用3x3的卷积核进行卷积得到通道数为4x(class+4)的特征图,在Conv7D,Conv8D,Conv9D特征图层用3x3的卷积核进行卷积得到通道数为6x(class+4)的特征图;步骤S11:F1,F2,F3,F4,F5通过步骤S1~S10得到各自对应的损失函数loss;在反向传播的时候通过随机梯度下降算法优化五个损失函数loss的总和total_loss,同时还设置训练迭代次数epoch,当total_loss稳定时候得到的网络参数即为最优解;步骤S12:在数据集中选取不带标签信息的图片,执行步骤S1以及步骤S2进行图片分割,并将分割好的图片放入到步骤S1~步骤S10训练好的网络中,再经过非极大值抑制进行过滤,最终得到F1,F2,F3,F4,F5这五张图的带预测类别label和预测坐标(xpred_min,ypred_min),(xpred_max,ypred_max);步骤S13:根据F1,F2,F3,F4,F5五张图片的预测类别label以及预测坐标对图片进行融合,最后的结果即为检测的最终结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811605116.2/,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序