[发明专利]一种基于深度学习和图像处理的小物件检测方法有效

申请号：	201811605116.2	申请日：	2018-12-26
公开（公告）号：	CN109685145B	公开（公告）日：	2022-09-06
发明（设计）人：	李卫军;吴超	申请（专利权）人：	广东工业大学
主分类号：	G06V10/80	分类号：	G06V10/80;G06V10/82;G06V10/70;G06N3/04
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510006 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及图像处理领域，更具体的，涉及一种基于深度学习和图像处理的小物件检测方法，本发明通过把原始Inception模块的5x5的卷积替换为两个3x3的卷积核，保留了更多的细节，同时为了加快训练速度和输出一致性，在每个分支的最后加入了BN，即Batch Normalization,进行批量归一化处理，同时引入残差网络结构，增加准确率，而且本发明采用反卷积增强相邻两层的高层和底层的上下文信息，将上层反卷积的结果与底层卷积曾像素对齐一一相加，得到的新的特征图作为检测的特征图，可以提高对小物体的识别，本发明在不影响传统SSD的高FPS的前提下，提高传统SSD对小物体检测的准确率。
搜索关键词：	一种基于深度学习图像处理物件检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度学习和图像处理的小物件检测方法，其特征在于，包括以下步骤：步骤S1：获取数据集，数据集中包括已标注的物体类别信息和目标框的左上(x_min,y_min)和右下(x_max,y_max)两个点的坐标信息的原始图片，从数据集的训练集中任意选取一张带标签信息的图片，将图片调整到300x300的大小作为输入；步骤S2：将图片沿着水平(0，150)(300，150)和竖直方向(150，0)(150，300)分割成大小为150x150的4部分P1，P2，P3，P4；另外取以(75，75)(225，75)(75，225)(225，225)为四个顶点坐标的图像作为第5部分P5；步骤S3：根据每张输入图片带的目标框的左上和右下两个坐标信息(x_min,y_min),(x_max,y_max)判断图片中的物体有没有被分割，并根据物体被分割的情况修改坐标；步骤S4：运用三次内插法对图片进行插值，使被分割的大小为150x150的5部分图片P1、P2、P3、P4、P5与原始图片300x300的大小相同，并命名为F1，F2，F3，F4，F5，同时将步骤S3得到的修改后的坐标乘以2并进行更新；步骤S5：对F1，F2，F3，F4，F5五张图片的每一张经VGG16网络提取特征，再用3x3x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv6特征图，再继续用1x1x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv7特征图；步骤S6：将1x1,3x3，3x3的卷积核堆叠在一起,组成三个分支,每个分支的最后加入了BN，即Batch Normalization来进行批量归一化处理，将各个分支连接融合同时引入残差网络结构，将该结构命名为IRBNet卷积结构；步骤S7：由步骤S6得到的大小为19x19x1024的Conv7特征图，经过IRBNet卷积结构来提取特征，得到大小为10x10x512的特征图Conv8；Conv8经过IRBNet卷积得到大小为5x5x256的特征图Conv9；Conv9经过IRBNet卷积得到大小为3x3x256的特征图Conv10；Conv10经过IRBNet卷积得到大小为1x1x256的特征图Conv11；步骤S8：采用卷积核为3x3,步长为4的卷积方式对高层特征图进行反卷积，让其扩大两倍使得与上一底层大小一样，然后将对应位置的像素进行一一相加，得到的新的特征图大小与底层特征图大小一致，将该结构取名为HDPANet；步骤S9：将特征图Conv8经过步骤S8得到另一个大小为19x19x1024的特征图与Conv7相加得到特征图Conv7D，特征图Conv9经过步骤S8得到另一个大小为10x10x512的特征图与Conv8相加得到特征图Conv8D,特征图Conv10经过步骤S8步得到另一个大小为5x5x256的特征图与Conv9相加得到特征图Conv9D,特征图Conv11经过步骤S8得到另一个大小为3x3x256的特征图与Conv10相加得到特征图Conv10D；步骤S10：在Conv4_3和Conv10D以及Conv11特征图层用3x3的卷积核进行卷积得到通道数为4x(class+4)的特征图，在Conv7D,Conv8D,Conv9D特征图层用3x3的卷积核进行卷积得到通道数为6x(class+4)的特征图；步骤S11:F1，F2，F3，F4，F5通过步骤S1～S10得到各自对应的损失函数loss；在反向传播的时候通过随机梯度下降算法优化五个损失函数loss的总和total_loss，同时还设置训练迭代次数epoch，当total_loss稳定时候得到的网络参数即为最优解；步骤S12：在数据集中选取不带标签信息的图片，执行步骤S1以及步骤S2进行图片分割，并将分割好的图片放入到步骤S1～步骤S10训练好的网络中，再经过非极大值抑制进行过滤，最终得到F1，F2，F3，F4，F5这五张图的带预测类别label和预测坐标(x_{pred_min}，y_{pred_min})，(x_{pred_max}，y_{pred_max})；步骤S13:根据F1，F2，F3，F4，F5五张图片的预测类别label以及预测坐标对图片进行融合，最后的结果即为检测的最终结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东工业大学，未经广东工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811605116.2/，转载请声明来源钻瓜专利网。

上一篇：一种对视频模型做评估的方法、装置及电子设备
下一篇：一种基于双卷积和主题模型的场景识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习和图像处理的小物件检测方法有效

专利文献下载