[发明专利]一种基于YOLOV3-tiny的改进目标检测方法有效
申请号: | 201910495809.9 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110222769B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 郭烈;何丹妮;赵一兵;秦增科;赵剑;李琳辉;张明恒 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06V10/762 | 分类号: | G06V10/762;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李洪福 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于YOLOV3‑tiny的改进目标检测方法,包括以下步骤:确认要检测的目标种类;获取所有目标标注框的宽高占原图宽高的比例数据;用K‑means算法聚类出9个不同大小的锚框;搭建目标检测神经网络。本发明采用轻量化目标检测网络YOLOV3‑tiny,计算量小,能够在嵌入式硬件中进行目标检测任务并保证实时性。对于原图大小为416*416的图片,YOLOV3‑tiny网络能被检测出来的最小目标尺寸为16*16;本发明通过在原始YOLOV3‑tiny网络上增加52*52的预测尺度,理论上能被检测出来的最小目标尺寸为8*8,能够在不降低检测速度的前提下提高对小物体的检测精度。 | ||
搜索关键词: | 一种 基于 yolov3 tiny 改进 目标 检测 方法 | ||
【主权项】:
1.一种基于YOLOV3‑tiny的改进目标检测方法,其特征在于:包括以下步骤:第一步,确认要检测的目标种类确认要识别的目标数量m,则最后一层滤波器的数量为n=3*(m+5),其中“3”代表3个锚框,“5”代表检测框的中心点x坐标,中心点y坐标、宽度、高度以及置信度这5个量;收集若干张包含目标的图片,并在每张图片中标记出目标的位置,将图片和标记文件构成数据集;第二步,获取所有目标标注框的宽高占原图宽高的比例数据对于图片中的每个标注框,设其宽度和高度分别为w和h,对应原图宽度和高度分别为W和H;获取所有目标标注框的宽度和高度占原图宽度和高度的比例数据,即w/W和h/H,这样得到若干组数据;第三步,用K‑means算法聚类出9个不同大小的锚框根据所有宽高的比例数据,用K‑means算法聚类出9个不同大小的锚框;聚类步骤如下:A、任意选取9组数据,作为9个聚类质心;B、计算其余所有数据与这9组数据的交并比,对于每组数据,与这9组数据中交并比最大的那组数据属于一类,这样把数据分成了9类;其中交并比计算公式为:
式中w1、h1和w2、h2分别为两组数据的宽高占比;C、对于分出来的9类数据,将每类数据的宽度中位数和高度中位数作为该类数据新的聚类质心;D、转到步骤B,直到聚类质心不变;将最终得到的9个聚类质心乘416即得到9个锚框的参数;第四步,搭建目标检测神经网络搭建目标检测神经网络YOLOV3‑tiny并在52*52的尺度上增加一个预测结果;具体网络结构如下:输入图片为R、G和B的彩色图片,大小为416*416;经过卷积层,使用16个大小为3*3的卷积核,步长为1,得到416*416*16的输出数据;通过核大小为2*2,步长为2的最大池化层,得到数据大小为208*208*16;经过卷积层,使用32个大小为3*3的卷积核,步长为1,得到208*208*32的输出数据;通过核大小为2*2,步长为2的最大池化层,得到数据大小为104*104*32;经过卷积层,使用64个大小为3*3的卷积核,步长为1,得到104*104*64的输出数据;通过核大小为2*2,步长为2的最大池化层,得到数据大小为52*52*64;经过卷积层,使用128个大小为3*3的卷积核,步长为1,得到52*52*128的输出数据;通过核大小为2*2,步长为2的最大池化层,得到数据大小为26*26*128;经过卷积层,使用256个大小为3*3的卷积核,步长为1,得到26*26*256的输出数据;通过核大小为2*2,步长为2的最大池化层,得到数据大小为13*13*256;经过卷积层,使用512个大小为3*3的卷积核,步长为1,得到13*13*512的输出数据;通过核大小为2*2,步长为1的最大池化层,得到数据大小为13*13*512;最后连接一个卷积层使用1024个大小为3*3的卷积核,步长为1,得到13*13*1024的数据;对于最终得到的13*13*1024的特征图数据,先通过卷积层,使用256个1*1大小的卷积核,得到13*13*256大小的数据;再通过卷积层,使用512个3*3大小的卷积核,最后连接一个有n个1*1大小的卷积核,得到13*13这个尺度上的预测结果,其中n由第一步计算得到;在这个尺度上使用9个锚框中面积最大的三个锚框进行预测;对于13*13这个尺度中的13*13*256的数据,经过128个1*1卷积核的卷积层得到13*13*128大小的数据,将这个数据上采样得到26*26*128大小的数据,并与卷积层5的输出相连接,得到26*26*384大小的数据,再经过256个3*3卷积核的卷积层得到26*26*256大小的数据,最后通过n个1*1卷积核的卷积层得到26*26这个尺度上的预测结果,其中n在第一步中算出;在这个尺度上使用9个锚框中面积中等的三个锚框进行预测;再对于26*26这个尺度上的26*26*256大小的数据,经过128个1*1卷积核得到数据大小为26*26*128,然后向上采样得到52*52*128,与卷积层4的输出结果相连接,得到52*52*256大小的数据,再通过256个3*3卷积核的卷积层得到52*52*256大小的数据,最后通过n个1*1卷积核的卷积层得到52*52这个尺度上的预测结果,其中n在第一步中算出;在这个尺度上使用9个锚框中面积最小的三个锚框进行预测;得到13*13,26*26和52*52这三个尺度的预测结果之后使用非极大值抑制算法得到最终的检测结果;第五步,得到训练权重文件用第一步中获得的数据集训练第三步中搭建的目标检测神经网络,并判断训练误差,当误差长时间保持在2.0以下则停止训练,得到训练权重文件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910495809.9/,转载请声明来源钻瓜专利网。