[发明专利]一种基于多级特征融合的遥感图像语义描述方法在审
申请号: | 202110577114.2 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113298151A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 王港;高峰;陈金勇;帅通;王敏;郭争强 | 申请(专利权)人: | 中国电子科技集团公司第五十四研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 河北东尚律师事务所 13124 | 代理人: | 王文庆 |
地址: | 050081 河北省石家庄*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多级 特征 融合 遥感 图像 语义 描述 方法 | ||
1.一种基于多级特征融合的遥感图像语义描述方法,其特征在于,所述方法包括以下步骤:
步骤一、获取原始的高分辨率遥感影像,对获取的高分辨率遥感影像进行预处理,得到图像数据集,对于图像数据集中的每个图像,人工添加语义标注,用自然语言的形式描述图像内容,图像与语义标注共同构成遥感图像语义描述数据集;同时获取公开的遥感图像目标检测数据集;
步骤二、将构建的遥感图像语义描述数据集和公开的遥感图像目标检测数据集分别划分为训练集、验证集和测试集;
步骤三、将遥感图像语义描述数据集划分后各个数据集中图像对应的语义标注拆分为单个词,每个单词作为图像的一个标签,利用拆分后的训练集和验证集数据对语义分类模型进行训练及优化调整,利用拆分后的测试集数据对语义分类模型进行验证,获取图像的语义特征;同时利用遥感图像目标检测数据集划分后的训练集和验证集数据对目标检测模型进行训练及优化调整,利用测试集数据对目标检测模型进行验证,获取图像的视觉特征;
步骤四、将步骤三获取的语义特征和视觉特征进行聚合,即将两组特征拼接在一起,得到图像多级特征;
步骤五、将步骤四得到的图像多级特征作为图像自然语言生成模型的输入,训练图像自然语言生成模型;
步骤六、利用步骤二处理后的测试集数据对训练好的图像自然语言生成模型进行验证,生成遥感图像的语义描述。
2.如权利要求1所述的一种基于多级特征融合的遥感图像语义描述方法,其特征在于,步骤三中利用拆分后的训练集和验证集数据对语义分类模型进行训练及优化调整,利用拆分后的测试集数据对语义分类模型进行验证,获取图像的语义特征,具体包括以下过程:
步骤3.1:设置模型的参数:设置ResNet-101语义分类模型的网络学习率、优化函数、最大迭代次数、批量训练的大小以及模型保存位置;
步骤3.2:训练模型:利用拆分后的训练集数据对ResNet-101语义分类模型的参数进行训练;
步骤3.3:优化模型:根据拆分后的验证集数据调整ResNet-101语义分类模型的参数,优化ResNet-101语义分类模型;
步骤3.4:验证模型:根据拆分后的测试集数据对ResNet-101语义分类模型进行验证;
步骤3.5:获取语义特征:在ResNet-101语义分类模型得到的输出中,根据每个单词的概率值大小排序,选择前K个得分高的单词,将每个单词进行编码,得到语义特征向量;其中,K为设定值。
3.如权利要求1所述的一种基于多级特征融合的遥感图像语义描述方法,其特征在于,步骤三中利用遥感图像目标检测数据集划分后的训练集和验证集数据对目标检测模型进行训练及优化调整,利用测试集数据对目标检测模型进行验证,获取图像的视觉特征,具体包括以下步骤:
步骤4.2:设置目标检测模型的参数:设置Faster R-CNN目标检测模型的先验框大小、网络学习率、优化函数、最大迭代次数、批量训练的大小和模型保存位置;
步骤4.3:训练模型:利用遥感图像目标检测数据集的训练集数据对Faster R-CNN目标检测模型的参数进行训练;
步骤4.4:优化模型:根据遥感图像目标检测数据集的验证集数据调整Faster R-CNN目标检测模型的训练参数,优化Faster R-CNN目标检测模型;
步骤4.5:验证模型:根据遥感图像目标检测数据集的测试集数据对Faster R-CNN目标检测模型进行验证;
步骤4.6:获取视觉特征:在Faster R-CNN目标检测模型生成的候选区域中,根据区域是待检测目标的概率值排序结果,选择前P个得分高的候选区域,对候选区域提取特征,将P个候选区域特征聚合在一起,得到视觉特征向量;其中P为设定值。
4.如权利要求1所述的一种基于多级特征融合的遥感图像语义描述方法,其特征在于,步骤五具体包括以下步骤:
步骤5.1:将步骤四获取的图像多级特征作为输入特征向量,将输入特征向量分割为多个片段,按照一定的顺序排列,得到序列化数据,并为每个片段添加一个位置向量,以确定每一个描述单词的位置;
步骤5.2:将每个片段的输入特征向量通过注意力机制后与输入特征向量本身进行相加和归一化;
步骤5.3:相加和归一化后的特征向量经前馈神经网络进行特征提取与组织,将前馈神经网络前后的数据再次进行相加和归一化;
步骤5.4:步骤5.3相加和归一化获得的结果,输出到上一个位置片段的注意力机制上,以持续获得不断片段的排序位置和语言信息;
步骤5.5:将上一个位置片段的注意力机制前后的数据进行相加和归一化,并依次经前馈神经网络和softmax层,得到一个输出向量,输出向量的每个位置代表相应单词的得分,选择概率最大的单词即当前时刻的输出结果;
步骤5.6:重复步骤5.2至步骤5.5,直到生成一个约定的终止符号,表示图像自然语言生成模型完成了输出,将每次得到的单词连接在一起即为对应遥感图像的语义描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第五十四研究所,未经中国电子科技集团公司第五十四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110577114.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:LED贴片机送板装置
- 下一篇:铁电存储器器件及其形成方法