[发明专利]基于YOLOv5的尺度自适应目标检测的方法及存储介质在审
申请号: | 202210411140.2 | 申请日: | 2022-04-19 |
公开(公告)号: | CN114926722A | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 王福田;陈菲儿;汤进;赵海峰 | 申请(专利权)人: | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/40;G06V10/774;G06V10/764;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 合肥天明专利事务所(普通合伙) 34115 | 代理人: | 苗娟 |
地址: | 230000 安徽省合肥市望江西路5089号,*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 yolov5 尺度 自适应 目标 检测 方法 存储 介质 | ||
1.一种基于YOLOv5的尺度自适应目标检测的方法,其特征在于,包括以下步骤,
步骤1:采集图像,然后将样本集按一定比例随机分为训练集和验证集;
步骤2:将步骤1获得的样本进行Mosaic数据增强,即随机使用4张图片,随机缩放,再随机分布进行拼接;
步骤3:将数据增强后的样本输入模型网络中,首先将样本送入fcous模块,对图片进行切片操作,将切片操作得到的新图片再经过卷积操作,最终得到了没有信息丢失情况下的二倍下采样特征图,然后将得到的特征图送入backbone中,提取样本的多层深度特征;
步骤4:将步骤3中得到的特征图送入分层特征自适应融合模块;先通过三个并行的网络组成的分层模块,三个网络的参数是共享的,只有空洞卷积的膨胀率不同,将提取到的多尺度特征送入自适应融合模块处理;在经过一个全局平均池化之后每个分支都连接一个全连接层,一起做SoftMax操作,与每个分支相乘后再做一个残差连接;
步骤5:将步骤4中得到的特征继续送入后续的网络中,实现网络前向传播以得到目标物体的边界框信息,YOLOv5检测层在3种不同尺度的特征图上对输入的图像进行检测,在每个尺度上,每个网络单元使用3种不同长宽比的锚点框预测边界框,输出的预测信息包括:边界框中心坐标、边界框宽度和高度、边界框中包含目标物体的置信度,以及边界框中目标物体属于某一类的概率;接着,设置置信度阈值,进行非极大值抑制,取高于置信度阈值的边界框的并集作为最终预测的结果;
步骤6:实时采集待测图像,输入至步骤5中所述的目标检测模型中,计算输出置信度大于阈值的分类结果作为待测图像的识别结果。
2.根据权利要求1所述的基于YOLOv5的尺度自适应目标检测的方法,其特征在于:步骤5还包括通过损失函数计算预测的边界框与标记的真实边界框之间的误差,将误差反向传播,更新网络参数,损失函数如下定义:
Loss=Lreg+Lobj+Lcls
其中,A为模型的预测框,B为标注的真实框,C表示包含A与B的最小凸闭合框;
置信度误差使用交叉熵来表示,S和B代表图片划分成S×S个网格,每个网格预测B个候选框;和代表第i个网格的第j个候选框是否负责该目标,表示参数置信度;当第i个网格的第j个候选框负责某一个真实目标时,才会去计算这个候选框所产生的分类损失,代表分类概率;边界框回归损失、置信度损失和分类损失三者之和为网络的总损失。
3.根据权利要求1所述的基于YOLOv5的尺度自适应目标检测的方法,其特征在于:步骤1中采用标注工具对图像中的需要检测的目标进行标注,得到所有感兴趣目标所在的边界框,并生成相应的标签文件(class,x,y,w,h),其中(x,y)为目标所在边界框的中心坐标w,h分别为边界框的宽和高,class表示目标物体的种类。
4.根据权利要求1所述的基于YOLOv5的尺度自适应目标检测的方法,其特征在于:步骤2中将步骤1获得的样本进行Mosaic数据增强具体包括:
将样本进行Mosaic数据增强,即每次读取4张图片,分别对4张图片进行随机概率的翻转即对原始图片进行左右的翻转、缩放即对原始图片进行大小的缩放、色域变换即对原始图片的明亮度、饱和度、色调进行改变,操作完成之后然后再将四张原始图片完成摆放之后,利用矩阵的方式将四张图片固定的区域截取下来,然后将它们拼接起来,拼接成一张新的分辨率为1600×1600图片。
5.根据权利要求1所述的基于YOLOv5的尺度自适应目标检测的方法,其特征在于:步骤3中的对图片进行切片操作,具体操作是在一张图片中每隔一个像素拿到一个值,类似于邻近下采样,这样就拿到了四张图片,四张图片互补,将W、H信息就集中到了通道空间,输入通道扩充了4倍,即拼接起来的图片相对于原先的RGB三通道模式变成了12个通道。
6.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室),未经合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210411140.2/1.html,转载请声明来源钻瓜专利网。