[发明专利]一种基于NAM和YOLOv3的目标检测方法在审
申请号: | 202211670444.7 | 申请日: | 2022-12-25 |
公开(公告)号: | CN115861651A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 王春峰;彭鹏 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 nam yolov3 目标 检测 方法 | ||
1.一种基于NAM和YOLOv3的目标检测方法,实际步骤如下:
步骤一:下载目标检测领域公开的PASCAL VOC数据集,保证与该领域通用数据集保持一致,实现达到对比效果,检测本发明方法性能。
步骤二:构建YOLOv3网络模型,将步骤一的数据集传入模型,训练YOLOv3网络得到权重文件W,评价模型性能,做好对比参照资料。
步骤三:以NAM(Normalization-based Attention Module)注意力机制为基础,重建YOLOv3网络体系,将步骤一的数据集传入重建模型完成训练,检测性能。
步骤四:对比经典的YOLOv3模型,分析测试结果。
2.根据权利要求书1所述的一种基于NAM和YOLOv3的目标检测方法,步骤一:下载目标检测领域公开的PASCALVOC数据集,该数据集源自世界级的计算机视觉挑战赛用于构建和评估用于图像分类、目标检测和分割的方法。VOC数据集提供了20个物体类别,本发明使用的数据集的图片中,标注了目标的分类信息pName、目标所在的中心位置坐标(x,y)和目标的宽度w及高度h,且通过矩形框将其可视化。
3.根据权利要求书1所述的一种基于NAM和YOLOv3的目标检测方法,步骤二:构建YOLOv3网络体系,将步骤一的数据集传入模型训练,得到权重文件W1,评估其性能,做好对比参照资料。网络模型及训练过程具体如下:
YOLOv3模型的主体网络结构Darknet53,该结构由52个卷积层构成,共三个特征提取阶段,也就是会输出三个特征矩阵,三个特征矩阵的维度分别是(52×52×75)、(26×26×75)、(13×13×75)。(52×52×75)特征矩阵的感受野最小,适合图片中小目标的检测。(26×26×75)特征矩阵的感受野居中,适合中目标的检测。(13×13×75)特征矩阵的输出感受野大,适合大目标的检测。
首先,随机初始化网络的初始权重,使初始化的值符合高斯正态分布。输入一张图片x,其像素为(416×416×3)。通过第1层卷积层,卷积核为3×3,步长为2,个数为32,输出(208×208×32)的特征图;经过第2层卷积层,卷积核为3×3,步长为1,个数为32,输出(208×208×32)的特征图,以此类推;根据模型中各个特征层不同的卷积核,分别进入三个阶段,先后获得(52×52×256)特征图、(26×26×512)特征图和(13×13×1024)特征图,然后进入特征交互层1、2、3继续进行特征卷积操作,分别如下:
特征交互层1是卷积模块,共有5步卷积操作﹐卷积核尺寸及个数依次为(1×1×128)、(3×3×256)、(1×1×128)、(3×3×256)和(1×1×128),步长都是1,得到(52×52×128)的特征图,再通过(3×3×75)和(1×1×75)的卷积操作,得到(52×52×75)的特征图1;
特征交互层2是卷积模块,共有5步卷积操作﹐卷积核尺寸及个数依次为(1×1×128),(.3×3×256)、(1×1×128)、(3×3×256)和(1×1×128),步长都是1,得到(26×26×128)的特征图,再通过(3×3×75)和(1×1×75)的卷积操作,得到(26×26×75)的特征图2;
特征交互层3是卷积模块,共有5步卷积操作﹐卷积核尺寸及个数依次为(1×1×128)、.(3×3×256)、(1×1×128)、(3×3×256)和(1×1×128),步长都是1,得到(13×13×128)的特征图,再通过(3×3×75)和(1×1×75)的卷积操作,得到(13×13×75)的特征图3;
以13×13×75特征图3为例进行说明:第一个维度13表示图片中横向像素点的个数,第二个维度13表示图片中纵向像素点的个数,第三个维度75表示感兴趣目标特征数,包含3个尺度的信息,每个尺度的信息又包含25个信息点,25个信息点分别为:感兴趣目标所在的中心位置坐标(x,y)、目标宽度w和高度h,类别信息pName和置信度c,其中类别信息pName=20;故3×(1+1+1+1+20+1)=75;特征图2和特征图3各维度的意义与特征图1相同。
综上,具体训练过程可简化总结如下:
(1)随机初始化网络的初始权重,使初始化的值符合高斯正态分布;
(2)输入图片通过本发明步骤二中的网络结构向前传播得到输出值为特征图1、特征图2.特征图3,并利用特征图信息得到预测边框的信息;
(3)将数据集中标注出的真实框与聚类得到的锚框进行匹配:计算出真实框所在的中心点,筛选出此中心点对应的锚框,选取与真实框有最大IoU值的锚框作为目标框,并将该真实框的坐标值信息赋给目标框,即得到目标框的坐标值;
(4)利用损失函数求网络预测边框的输出值与目标框的目标值之间的误差损失:
(5)当迭代次数小于epoch=100时,使用Adam优化算法和StepLR固定步长衰减更新权值,直到迭代次数大于epoch,终止训练,输出权重文件,再对训练结果进行评估;本发明方法的主要测试指标为mAP(meanAverage Precision),表示平均的平均精确度。先在一个类别内求平均精确度AP(Average Precision),再对所有类别的平均精确度再求平均mAP(mean Average Precision)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211670444.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光伏发电用硅材料及其制备方法
- 下一篇:一种保温防寒鞋