[发明专利]基于YOLOv2的遥感图像快速目标检测方法在审
申请号: | 201810767515.2 | 申请日: | 2018-07-13 |
公开(公告)号: | CN109063594A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 王世刚;李奇;赵岩;韦健;赵文婷;卢洋 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 长春吉大专利代理有限责任公司 22201 | 代理人: | 邵铭康;朱世林 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于YOLOv2的遥感图像快速目标检测方法属图像处理和模式识别技术领域,本发明实现了对遥感图像中的重要目标的快速检测;首先构建了遥感图像数据集用于模型的训练及性能检测;然后提出了一种适用于遥感图像分类的卷积神经网络结构用于特征提取,进而构建目标检测网络。针对卷积神经网络对小目标检测能力差这一问题,本发明采用增加训练尺度、批量正则化等方法提升了网络的性能。本发明定义了偏移因子校正目标位置,利用SVM分类器对检测结果进行目标背景二次分类,在保证检测精度的同时保障了检测速度,实现了端到端检测。最重要的是,模型允许将新数据的检测结果扩充到训练数据集中,从而更新训练目标检测网络,不断提升模型的泛化能力。 | ||
搜索关键词: | 检测 遥感图像 检测结果 快速目标 构建 卷积神经网络 模式识别技术 神经网络结构 校正目标位置 遥感图像分类 遥感图像数据 二次分类 快速检测 目标背景 目标检测 偏移因子 特征提取 图像处理 性能检测 训练目标 训练数据 重要目标 网络 端到端 小目标 新数据 正则化 卷积 尺度 更新 保证 | ||
【主权项】:
1.一种基于YOLOv2的遥感图像快速目标检测方法,其特征在于:构建了遥感图像数据集,针对遥感图像目标检测问题提出了一种改进的卷积神经网络作为模型的特征提取网络,包括下列步骤:1.1制作遥感图像数据集,并对图像进行预处理操作,具体包括下列步骤:1.1.1预处理:用暗通道去雾算法对雾天图像进行去雾处理,用MSRCR图像增强算法获得清晰度和对比度得到提升的遥感图像数据集;1.1.2对步骤1.1.1获得的遥感图像数据集进行人工标注,将待检测目标划分为飞机、船、车辆、广场、操场、建筑六个类别,记录目标位置坐标,将图像中包含的目标类别信息及其对应的坐标信息存储为XML文件格式;1.1.3将步骤1.1.1获得的遥感图像数据集通过翻转、旋转、裁切、加入噪声、调整色调来扩大样本数,选取遥感图像数据集中80%作为训练集,剩下的20%作为测试集;1.2针对步骤1.1制作的遥感图像数据集,构建卷积神经网络作为模型的特征提取网络,利用特征提取网络进行分类网络预训练,结合YOLOv2模型构建目标检测网络,具体包括下列步骤:1.2.1将特征提取网络分为21层,包含15个卷积层和6个池化层,具体网络结构及设置如下:(1)第1、3、5、6、7、9、10、11、13、14、15、17、18、19、20层为卷积层,第2、4、8、12、16、21层为池化层;(2)卷积层中第1、3、5、7、9、11、13、15、17、19层filter设置为3×3,深度分别设置为32、64、128、128、256、256、512、512、1024、1024,第6、10、14、18、20层filter设置为1×1,深度分别设置为64、128、256、512、1000;(3)池化层中第2、4、8、12、16层采用最大池化方式,filter设置为2×2,stride设置为2,第21层采用全局平均池化方式;1.2.2对步骤1.2.1构建的特征提取网络进行预训练,具体包括下列步骤:1.2.2.1用所述特征提取网络在ImageNet1000类分类数据集上训练150轮,网络输入为224×224,采用随机梯度下降算法;初始学习率为0.1;权重衰减参数取0.0005;momentum取0.9;1.2.2.2用步骤1.1.3所述遥感图像数据集,继续对1.2.2.1中的特征提取网络进行微调,训练10轮,更改网络输入为448×448,learning rate更改为0.001;1.2.3用尺寸为544×544×3的图像作为模型输入,通过YOLOv2模型构建目标检测网络,具体包括下列步骤:1.2.3.1获得步骤1.2.1中特征提取网络的第15层的输出34×34×512维特征图;1.2.3.2将步骤1.2.3.1输出的34×34×512维特征图,转化为17×17×1024维特征图;1.2.3.3将步骤1.2.3.2获得的输出与步骤1.2.1中特征提取网络的第19层的输出进行整合,得到17×17×3072维的特征图;1.2.3.4将1.2.3.3的输出经filter为3×3、深度为1024的卷积层,输出17×17×1024维特征图;1.2.3.5将1.2.3.3的输出经filter为3×3、深度为55的卷积层,输出17×17×55维特征图;1.2.4对步骤1.2.1构建的检测网络中的每个卷积层的输出,进行Batch Normalization操作;1.3提升目标检测精确度,设定网络超参数训练检测网络,具体包括下列步骤:1.3.1用K‑means维度聚类算法,对步骤1.1.3所述遥感图像数据集的训练集中手工标记的目标框进行聚类,找到目标框的统计规律,采用距离d度量数据间的相似度:d(box,centroid)=1‑IOU(box,centroid)式中IOU计算结果为目标框box之间的交并比;以聚类个数k作为anchor个数,以k个聚类中心box的宽高维度作为anchor的维度;1.3.2用多尺度输入方法对检测网络进行训练,训练过程中每迭代10次就随机改变模型的输入尺寸,尺寸S计算公式:S=32×(15+x)其中:模型采用的下降因子为32,所以S为32的倍数;x为0到9的随机整数;1.3.3设置检测网络阈值为0.3;权重衰减参数取0.0005;初始学习率设置为0.0001;batch取64;subdivisions取8;momentum取9;训练次数max_batches取45000;学习率调整方式policy设定为steps方式;根据训练次数设置steps为100,25000,35000,scales为10,0.1,0.1;1.3.4用步骤1.1.3中的训练集对步骤1.2.3构建的目标检测网络进行训练,参数设置如步骤1.3.3中所述,激活函数用leak RELU函数;1.3.5将步骤1.1.3中的测试集用经步骤1.3.4训练好的目标检测网络进行测试;1.4获取步骤1.3.5中返回参数,优化检测结果:判断检测结果的合理性,对检测结果位置及类别进行修正,具体包括下列步骤:1.4.1目标位置坐标修正,具体包括下列步骤:1.4.1.1获取检测结果目标的位置信息:x,y,w,h;x、y为目标框中心坐标,w、h分别为目标框的宽度和高度;1.4.1.2定义横向检测偏移因子hof,纵向检测偏移因子vof,计算公式为:x=xt+wt·hof+cxy=yt+ht·vof+cy其中:xt,yt,wt,ht分别表示目标标注框的中心坐标及宽高;cx,cy为偏置项;1.4.1.3利用梯度下降算法计算各个类别的hof及vof,计算公式为:![]()
其中:m表示训练样本个数,i表示第i个样本;利用梯度下降算法可求得当J(hof)取得最小值时cx及hof的值,且hof最优解为(wtTwt)‑1wtT(x‑xt);同理可求得vof的最优解;1.4.2目标分类结果修正,具体包括下列步骤:1.4.2.1在步骤1.1.3制作的遥感图像数据集中收集目标及背景样本;1.4.2.2将步骤1.4.2.1中待检测地物目标图像标注为1;选择无目标图像作为背景,标注为0;1.4.2.3将步骤1.4.2.2中训练样本送到线性SVM分类器中训练,基于HOG特征提取遥感图像中的目标及背景特征,用训练好的SVM分类器对置信度低于50%的检测结果进行二次分类,从而降低误检率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810767515.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种人脸跟踪方法及装置
- 下一篇:一种将肢体动作转换为计算机语言的方法及装置