[发明专利]一种基于RetinaNet模型的麦蜘蛛图像检测方法有效
申请号: | 202210664056.1 | 申请日: | 2022-06-14 |
公开(公告)号: | CN114743023B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 庞登浩;王弘;孟浩;陈鹏;梁栋;徐超;王海涛 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G06T7/00 |
代理公司: | 合肥国和专利代理事务所(普通合伙) 34131 | 代理人: | 张祥骞 |
地址: | 230601 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 retinanet 模型 蜘蛛 图像 检测 方法 | ||
1.一种基于RetinaNet模型的麦蜘蛛图像检测方法,其特征在于,包括以下步骤:
11)麦蜘蛛图像样本的获取和预处理:采集真实背景下麦田里麦蜘蛛的图片作为麦蜘蛛图片样本,并使用LabelImg对采集图片进行分类和坐标标注,作为预处理后的麦蜘蛛图像样本;
12)麦蜘蛛图像样本的扩充:使用随机平移、旋转、色彩转换和添加噪声操作对麦蜘蛛图像样本进行扩充;并随机选取图片,复制麦蜘蛛到图片中随机位置,生成新的图片和标注文件;最后将高分辨率图片样本进一步分割,一张图片分割成若干低分辨率的图片组成新的麦蜘蛛图像训练集;
13)麦蜘蛛图像检测模型的构建:基于RetinaNet模型构建麦蜘蛛图像检测模型;
所述麦蜘蛛图像检测模型的构建包括以下步骤:
131)构建麦蜘蛛图像检测模型,麦蜘蛛图像检测模型包括RetinaNet模型的骨干网络、特征金字塔以及标签分配模块;
132)对RetinaNet模型的骨干网络重新进行设计,输入数据集图片,输出不同尺寸的骨干网络特征图;
所述对RetinaNet模型的骨干网络重新进行设计包括以下步骤:
1321)设定骨干网络为五层结构;
1322)设定骨干网络的第一层,输入数据集图像,通过卷积池化操作得到尺度压缩的图像,作为骨干网络初始特征图;
1323)设定骨干网络的第二层,对骨干网络初始特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,最后一次进行下采样,输出第一层骨干网络特征图;
1324)设定骨干网络的第三层,对第一层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复4次,最后一次进行下采样,输出第二层骨干网络特征图;
1325)设定骨干网络的第四层,对第二层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复5次,最后一次进行下采样,输出第三层骨干网络特征图;
1326)设定骨干网络的第五层,对第三层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,输出第四层骨干网络特征图;
133)对RetinaNet模型的特征金字塔进行重新设计,接收骨干网络输出的骨干网络特征图作为输入,融合上下文信息以及多尺度信息,输出金字塔特征图;
所述对RetinaNet模型的特征金字塔进行重新设计包括以下步骤:
1331)将特征金字塔设计为六层结构:
1332)设定特征金字塔的第一层,将骨干网络输出的第二层、第三层和第四层特征图通过双线性插值上采样放大分辨率,得到三个上采样特征图,分别为第二层上采样特征图、第三层上采样特征图和第四层上采样特征图;
其中,双线性插值的公式如下:
其中,𝑄11=(𝑥1,𝑦1)、𝑄21=(𝑥2,𝑦1)、 𝑄12=(𝑥1,𝑦2)、 𝑄22=(𝑥2,𝑦2)分别为左下、右下、左上、右上位置的坐标,𝑓(𝑄11)、 𝑓(𝑄21)、𝑓(𝑄12) 、𝑓(𝑄22)分别表示插入点的左下、右下、左上、右上位置的像素值,𝑓(𝑥,𝑦)为(𝑥,𝑦)位置新的像素值;
1333)设定特征金字塔的第二层,将第二层上采样特征图与第一层骨干网络特征图、第三层上采样特征图与第二层骨干网络特征图、第四层上采样特征图与第三层骨干网络特征图进行拼接,融合语义信息,得到三个融合语义特征图;
1334)设定特征金字塔的第三层,将骨干网络输出的第一层骨干网络特征图以及融合之后的融合语义特征图通过最大池化减小分辨率并融合处理,得到最大池化特征图;最大池化,采用以下公式:
其中,𝑘表示区域范围为𝑘×𝑘,𝑥𝑖𝑗表示区域𝑘内第𝑖行𝑗列个点的像素值,𝑦为区域𝑘内最大的像素值;
1335)设定特征金字塔的第四层,将最大池化特征图与第四层骨干网络特征图进行融合位置特征处理,得到上下文融合特征图;其公式如下:
其中,𝑛为骨干网络传递特征图个数,𝑦p表示最大池化特征图,𝑦4表示第四层骨干网络特征图,𝑐𝑜𝑛𝑐𝑎𝑡表示拼接运算;
1336)设定特征金字塔的第五层,使用不同尺寸的卷积提取上下文融合特征图的多尺度信息;
1337)设定特征金字塔的第六层,按照通道拼接上下文融合特征图的多尺度信息得到最终的金字塔特征图,其中,卷积拼接采用如下公式:
其中,𝑛为输出金字塔特征图个数,𝑥l表示第l层金字塔特征图,∗表示卷积运算,𝑐𝑜𝑛𝑐𝑎𝑡表示拼接运算,𝑘l3和𝑘l5分别代表第l层特征图的3×3大小的卷积核和5×5大小的卷积核,𝑏l3和𝑏l5分别代表第l层特征图的3×3卷积的偏置和5×5卷积的偏置;
134)构建标签分配模块:将特征金字塔输出的所有金字塔特征图上的点生成的锚框按缩放比例映射到原图,计算所有锚框与真实标签的交并比,动态选取Topk个锚框作为正样本,每一个真实标签对应的交并比阈值以及k进行不断优化;
14)麦蜘蛛图像检测模型的训练:将麦蜘蛛图像训练集输入麦蜘蛛图像检测模型进行训练;
15)待检测图像的获取:获取待检测的麦蜘蛛图像并进行预处理;
16)麦蜘蛛图像检测结果的获得:将预处理后的待检测麦蜘蛛图像输入训练后的麦蜘蛛图像检测模型,得到麦蜘蛛图像检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210664056.1/1.html,转载请声明来源钻瓜专利网。