[发明专利]一种基于Faster Rcnn的小目标检测识别方法在审
申请号: | 202110504503.2 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113159215A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 刘群坡;王淇璟;刘尚争;王满利;张建军;吴中华;魏萍 | 申请(专利权)人: | 河南理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06N3/04;G06N3/08 |
代理公司: | 焦作市科彤知识产权代理事务所(普通合伙) 41133 | 代理人: | 杨晓彤 |
地址: | 454000 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 faster rcnn 目标 检测 识别 方法 | ||
1.一种基于Faster Rcnn的小目标检测识别方法,其特征在于:包括配置环境,搭建基于Faster Rcnn的小目标检测识别模型以及模型训练平台,所述小目标检测识别模型包括四个部分:
1)、数据预处理:对训练数据集中的原始图片进行数据增强,并对数据增强后的训练数据集中图像小目标进行标注,形成小目标数据集;
2)、骨干网络:采用带有残差边的ResNet网络提取小目标数据集中图像特征;
3)、区域建议网络:在原始图像上提取出目标可能存在的候选区域,并在候选区域生成多个锚框,采用DIOU处理锚框并同时对锚框进行软非极大值抑制操作;
4)、头部网络:根据区域建议网络的结果,在特征图中将相应的区域转化为固定尺度的特征图,然后再进行精确的目标分类和目标定位;头部网络包含Roi Align和两个分支网络,在Roi Align中使用双三次插值来精确的寻找每个锚框块对应的特征,并从特征图中提取出固定长度的特征向量;然后把特征向量送入FC全连接层,最后再送入两个分支网络中,其中一个分支网络为分类网络,进行分类预测,输出具体的类别;另一个分支网络为边界回归网络,进行回归预测,输出目标精确的位置;每一个锚框块区域都定义了多任务的损失函数:L=Lcof+Llof,其中Lcof为分类损失函数,对应分类网络,Llof为定位损失函数,对应边界回归网络。
2.根据权利要求1所述的基于Faster Rcnn的小目标检测识别方法,其特征在于:原始图片进行数据增强的方式包括随机的翻转、错切、缩放、旋转、对比度拉伸、裁剪的一种或多种组合。
3.根据权利要求1所述的基于Faster Rcnn的小目标检测识别方法,其特征在于:所述ResNet网络为ResNet50。
4.根据权利要求1所述的基于Faster Rcnn的小目标检测识别方法,其特征在于:区域建议网络根据卷积神经网络生成特征图,先在原始图片上生成多个锚框;区域建议网络利用了滑动窗口机制,窗口每滑动一次可以产生k个锚框;利用DIOU定位锚框位置,利用软非极大值抑制操作确定最终的检测框;
DIOU公式如下:
IOU公式如下:
式(1)和式(2)中,A代表预测框(锚框),B代表真实框(标签值),∩代表取交集,∪代表取并集,d表示预测框和真实框中心点的距离,c表示外包框的对角线距离,IOU表示交并比,DIOU表示距离交并比;
所述软非极大值抑制操作利用目标框和真实框的重叠率排序,然后选出其中重叠率最大的目标框并把其余的目标框删除,选出的目标框就是最终的检测框,公式为:
式(3)中:M为当前得分最高的框,bi为待处理的框,F为最终的得分,Nt为事先设定的阈值,当重叠率越大,F的值越高,重叠率越小,F的值越低,但是并不会为0;
在选出目标框后还需要对目标框进行微调操作,微调公式如下:
f(Px,Py,Pw,)=(Zx,Zy,Zw,Zh) (4)
Zx=Px+Pwdx(P),Zy=Py+Phdy(P) (5)
式(4)(5)(6)中,(Px,Py,Pw,Ph)代表目标框的左上角坐标(Px,Py)和框的长(Pw)和高(Ph),(Zx,Zy,Zw,Zh)代表真实框的左上角坐标(Zx,Zy)和框的长(Zw)和框(Zh),dx、dy、dw、dh是四个映射函数,由以下公式得到:
式(7)-(10)中,t*代表预测值和真实值的差距,d*(P)是得到的预测值,对应dx或dy或dw或dh四个映射函数,是输入的特征向量,W*是要学习的参数,tx是x轴方向上的预测框与真实框的差距,ty是y轴方向上的预测框与真实框的差距,Gx是真实框左上角x轴坐标,Gy是真实框左上角y轴坐标,Px是目标框左上角x轴坐标,Py是目标框左上角y轴坐标,Pw是目标框的长,Ph是目标框的高,Gw是真实框的长,Gh是真实框的高,tw是目标框与真实框的长的差距,th是目标框与真实框的高的差距,Pi是输入的特征向量,γ是随机参数,W*T是W*的转置矩阵。
5.根据权利要求1所述的基于Faster Rcnn的小目标检测识别方法,其特征在于:头部网络中Roi Align先遍历每一个候选区域,并且保持浮点数;然后将候选区域分割成k*k个单元,最后利用双三次插值计算出每个单元中固定的四个坐标位置,并进行最大池化操作;双三次插值公式为:
式(11)和(12)中,a取值为-0.5,W(i)表示横坐标权重,W(j)表示纵坐标权重,x代表某个像素点的像素值,aij代表第i行j列的像素点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110504503.2/1.html,转载请声明来源钻瓜专利网。