[发明专利]基于强化学习的遥感影像的语义标注方法有效
| 申请号: | 201910491117.7 | 申请日: | 2019-06-06 |
| 公开(公告)号: | CN110347857B | 公开(公告)日: | 2020-12-01 |
| 发明(设计)人: | 崔巍;姚勐;何新;王梓溦;郝元洁;赵慧琳;杨卓琳;陈先锋;殷子健;汤敏 | 申请(专利权)人: | 武汉理工大学 |
| 主分类号: | G06F16/55 | 分类号: | G06F16/55;G06F16/58;G06K9/62 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
| 地址: | 430070 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 强化 学习 遥感 影像 语义 标注 方法 | ||
1.基于强化学习的遥感影像的语义标注方法,其特征在于,包括如下步骤:
步骤S1,数据获取:获取研究地段的高分辨率遥感影像;
步骤S2,数据预处理:对已经获取的高分辨率遥感数据进行预处理,包括几何校正、大气校正、裁剪处理;
步骤S3,切割影像数据:通过对原始影像的分析,确定影像切割的尺度,即单个样本数据的大小,用掩膜提取的方法将数据从原始影像中切割出来,将切割出来的样本以ID加影像格式后缀名的形式保存,所有切割完的样本成为一个样本集;
步骤S4,制作样本集的标注:按照样本ID添加标注,即为描述样本内容的句子;
步骤S5,构建强化学习网络模型:构建的网络模型包括policy网络、value网络、嵌入网络三个网络;其中policy网络用于在每个时刻输出下一时刻出词的候选列表以及列表中各词的概率;嵌入网络用来训练样本影像对应样本标注语句的reward;value网络用于输出一个候选列表以及列表中各词的value值;
步骤S5中的嵌入网络为VGG16接GRU的模式,输出影像对应标签的reward;policy网络为VGG16加上GRU的模式;value网络为VGG16、GRU、3层MLP相结合的结构;
步骤S6,设置训练参数:设置VGG16网络的batch_size、学习率、迭代次数、词汇表大小、保存路径;对于GRU网络而言,参数初始化采用随机初始化方法;
步骤S7,选取训练集、验证集:将样本集按比例分为训练集和验证集;
步骤S8,使用训练集训练嵌入网络:输入样本影像及对应的标注语句,训练句子与图像的reward值,当嵌入网络训练完成后输入标注语句与样本影像得到的reward值最高,此时嵌入网络可以最大程度上判断句子与图像的相似度,训练完成嵌入网络加以保存;
步骤S9,使用训练集训练value网络:将影像样本及对应的标注语句输入value网络,最后输出value值,与嵌入网络输出reward值的误差进行参数优化,训练完成value网络加以保存;
步骤S10,使用训练集训练policy网络:将样本影像及其对应的标注语句输入policy网络,通过优化输出值与标签值的loss函数优化参数,训练完成policy网络加以保存;
步骤S11,使用训练集联合训练policy、value网络:导入步骤S9、S10训练完成的value与policy网络参数,输入样本影像,联合policy网络输出的概率值以及value网络输出的value值,将整个出词的过程视为部分可观测马尔可夫决策,使用强化学习的方式联合训练policy和value网络,使用策略梯度函数调整两个网络的参数,更新并保存最终训练完的模型;
步骤S12,使用验证集进一步优化网络参数:读取训练完成的policy、value网络,输入样本数据,调整输出结果与标签数据之间的误差,并更新网络参数进行下次训练,迭代至误差曲线稳定时模型训练完成,保存训练模型。
2.如权利要求1所述基于强化学习的遥感影像的语义标注方法,其特征在于:步骤S8中使用训练集训练嵌入网络的具体实现方式为,
首先是VGG16部分,使用训练集样本影像进行训练,将样本影像经过5个卷积层、5个降采样层,提取出影像特征,特征经过全连接层输出特征向量;然后是GRU部分,将前面提取出的影像特征输入GRU网络,将网络生成的句子与标注语句通过误差函数计算误差,从而调整参数;训练完成后,输入影像,将GRU网络的输出与VGG16全连接层的输出进行cosine相似度计算,从而得到reward值。
3.如权利要求2所述基于强化学习的遥感影像的语义标注方法,其特征在于:步骤S9中使用训练集训练value网络的具体实现方式为,
首先样本影像经过5个卷积层、5个降采样层,提取出影像特征,特征经过全连接层输出特征向量;然后将前面提取出的影像特征输入GRU网络,输出隐藏层状态与全连接层输出的特征向量进行连接,输入MLP,将MLP输出值与影像对应的reward值通过误差函数计算误差,从而调整参数;完成训练后,输入影像,网络每一时刻GRU的隐藏状态都会经过MLP输出value值。
4.如权利要求3所述基于强化学习的遥感影像的语义标注方法,其特征在于:步骤S10中使用训练集训练policy网络的具体实现方式为,
首先将样本影像经过5个卷积层、5个降采样层,提取出影像特征,然后将提取出的影像特征输入GRU网络,将GRU网络生成的句子与标注语句进行对比,通过误差函数计算误差,从而调整参数;完成训练后,输入影像,网络每一时刻都会输出该时刻对应单词在词汇表中的分布概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910491117.7/1.html,转载请声明来源钻瓜专利网。





