[发明专利]一种基于Faster Rcnn的小目标检测识别方法在审

专利信息
申请号: 202110504503.2 申请日: 2021-05-10
公开(公告)号: CN113159215A 公开(公告)日: 2021-07-23
发明(设计)人: 刘群坡;王淇璟;刘尚争;王满利;张建军;吴中华;魏萍 申请(专利权)人: 河南理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06K9/46;G06N3/04;G06N3/08
代理公司: 焦作市科彤知识产权代理事务所(普通合伙) 41133 代理人: 杨晓彤
地址: 454000 河南*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 faster rcnn 目标 检测 识别 方法
【权利要求书】:

1.一种基于Faster Rcnn的小目标检测识别方法,其特征在于:包括配置环境,搭建基于Faster Rcnn的小目标检测识别模型以及模型训练平台,所述小目标检测识别模型包括四个部分:

1)、数据预处理:对训练数据集中的原始图片进行数据增强,并对数据增强后的训练数据集中图像小目标进行标注,形成小目标数据集;

2)、骨干网络:采用带有残差边的ResNet网络提取小目标数据集中图像特征;

3)、区域建议网络:在原始图像上提取出目标可能存在的候选区域,并在候选区域生成多个锚框,采用DIOU处理锚框并同时对锚框进行软非极大值抑制操作;

4)、头部网络:根据区域建议网络的结果,在特征图中将相应的区域转化为固定尺度的特征图,然后再进行精确的目标分类和目标定位;头部网络包含Roi Align和两个分支网络,在Roi Align中使用双三次插值来精确的寻找每个锚框块对应的特征,并从特征图中提取出固定长度的特征向量;然后把特征向量送入FC全连接层,最后再送入两个分支网络中,其中一个分支网络为分类网络,进行分类预测,输出具体的类别;另一个分支网络为边界回归网络,进行回归预测,输出目标精确的位置;每一个锚框块区域都定义了多任务的损失函数:L=Lcof+Llof,其中Lcof为分类损失函数,对应分类网络,Llof为定位损失函数,对应边界回归网络。

2.根据权利要求1所述的基于Faster Rcnn的小目标检测识别方法,其特征在于:原始图片进行数据增强的方式包括随机的翻转、错切、缩放、旋转、对比度拉伸、裁剪的一种或多种组合。

3.根据权利要求1所述的基于Faster Rcnn的小目标检测识别方法,其特征在于:所述ResNet网络为ResNet50。

4.根据权利要求1所述的基于Faster Rcnn的小目标检测识别方法,其特征在于:区域建议网络根据卷积神经网络生成特征图,先在原始图片上生成多个锚框;区域建议网络利用了滑动窗口机制,窗口每滑动一次可以产生k个锚框;利用DIOU定位锚框位置,利用软非极大值抑制操作确定最终的检测框;

DIOU公式如下:

IOU公式如下:

式(1)和式(2)中,A代表预测框(锚框),B代表真实框(标签值),∩代表取交集,∪代表取并集,d表示预测框和真实框中心点的距离,c表示外包框的对角线距离,IOU表示交并比,DIOU表示距离交并比;

所述软非极大值抑制操作利用目标框和真实框的重叠率排序,然后选出其中重叠率最大的目标框并把其余的目标框删除,选出的目标框就是最终的检测框,公式为:

式(3)中:M为当前得分最高的框,bi为待处理的框,F为最终的得分,Nt为事先设定的阈值,当重叠率越大,F的值越高,重叠率越小,F的值越低,但是并不会为0;

在选出目标框后还需要对目标框进行微调操作,微调公式如下:

f(Px,Py,Pw,)=(Zx,Zy,Zw,Zh) (4)

Zx=Px+Pwdx(P),Zy=Py+Phdy(P) (5)

式(4)(5)(6)中,(Px,Py,Pw,Ph)代表目标框的左上角坐标(Px,Py)和框的长(Pw)和高(Ph),(Zx,Zy,Zw,Zh)代表真实框的左上角坐标(Zx,Zy)和框的长(Zw)和框(Zh),dx、dy、dw、dh是四个映射函数,由以下公式得到:

式(7)-(10)中,t*代表预测值和真实值的差距,d*(P)是得到的预测值,对应dx或dy或dw或dh四个映射函数,是输入的特征向量,W*是要学习的参数,tx是x轴方向上的预测框与真实框的差距,ty是y轴方向上的预测框与真实框的差距,Gx是真实框左上角x轴坐标,Gy是真实框左上角y轴坐标,Px是目标框左上角x轴坐标,Py是目标框左上角y轴坐标,Pw是目标框的长,Ph是目标框的高,Gw是真实框的长,Gh是真实框的高,tw是目标框与真实框的长的差距,th是目标框与真实框的高的差距,Pi是输入的特征向量,γ是随机参数,W*T是W*的转置矩阵。

5.根据权利要求1所述的基于Faster Rcnn的小目标检测识别方法,其特征在于:头部网络中Roi Align先遍历每一个候选区域,并且保持浮点数;然后将候选区域分割成k*k个单元,最后利用双三次插值计算出每个单元中固定的四个坐标位置,并进行最大池化操作;双三次插值公式为:

式(11)和(12)中,a取值为-0.5,W(i)表示横坐标权重,W(j)表示纵坐标权重,x代表某个像素点的像素值,aij代表第i行j列的像素点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110504503.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top