[发明专利]一种基于多模态神经网络的高分遥感图像语义理解方法在审
申请号: | 201910406998.8 | 申请日: | 2019-05-16 |
公开(公告)号: | CN110287354A | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 卢孝强;屈博;刘康 | 申请(专利权)人: | 中国科学院西安光学精密机械研究所 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06K9/00;G06N3/04 |
代理公司: | 西安智邦专利商标代理有限公司 61211 | 代理人: | 唐沛 |
地址: | 710119 陕西省西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 遥感图像 文本描述 神经网络 多模态 数据库 语义理解 卷积神经网络 词汇文本 高层语义 视觉特征 构建 语句 单词 图像 创建 分析 | ||
1.一种基于多模态神经网络的高分遥感图像语义理解方法,其特征在于,包括以下步骤:
1)构建高分遥感图像-文本描述数据库;
所述高分遥感图像-文本描述数据库包括若干张高分遥感图像以及对应每张高分遥感图像的多条文本描述语句;
2)采用预训练好的卷积神经网络提取高分遥感图像-文本描述数据库中所有图像的视觉特征;
具体计算公式为:
b0=CNN(I);
其中I为高分遥感图像-文本描述数据库中的图像,b0为图像的视觉特征;
3)根据高分遥感图像-文本描述数据库的所有文本描述语句中的单词创建词汇文本库;
所述词汇文本库中每一个单词由一个向量表示,加入START向量和END向量表示句子的起始和终止;
4)训练深度多模态神经网络;所述深度多模态神经网络中所有时刻均对应一个输入层、一个隐层以及一个输出层;
4.1)在t=1时刻,将步骤2)中图像的视觉特征b0以及步骤3)中的START向量输入至t=1时刻深度多模态神经网络的隐层,得到深度多模态神经网络t=1时刻的隐层输出h1;
h1=g(λ1w1+b0);
其中,w1为输入的START向量;
g为非线性函数;
λ1,λ2为待训练的网络权重参数;
4.2)随后将t=1时刻的隐层输出h1,输入至深度多模态神经网络t=1时刻的输出层,然后通过Softmax函数计算t=1时刻所有单词的概率分布;
p(w2)=softmax(λ3h1);
其中,λ3为待训练的网络权重参数;
4.3)选取t=1时刻概率分布最高的单词w2,作为t=1时刻的预测单词;
4.4)在t>1时刻,将上一时刻预测出的中的单词对应单词向量以及上一时刻网络隐层输出,同时输入至当前时刻深度多模态神经网络的隐层,得到深度多模态神经网络当前时刻的隐层输出;
ht=g(λ1wt+λ2ht-1);
其中,ht为深度多模态神经网络当前时刻的隐层输出;
wt为当前时刻的输入单词向量;
4.5)将当前时刻的隐层输出输入至深度多模态神经网络当前时刻的输出层,通过Softmax函数计算当前时刻所有单词的概率分布;
p(wt+1)=softmax(λ3ht);
4.6)选取当前时刻的概率分布最高的单词,作为当前时刻的预测单词;
4.7)重复步骤4.4)至步骤4.6)直到预测单词向量为END向量;
4.8)对所有的训练图像文本对进行求和,得到最优的深度多模态神经网络总体损失函数;
5)输入高分遥感图像,利用训练好的深度多模态神经网络生成高分遥感图像对应的文本描述。
2.根据权利要求1所述的基于多模态神经网络的高分遥感图像语义理解方法,其特征在于:所述步骤4.1)中,非线性函数g为RNN或LSTM,图像的视觉特征b0由AlexNet或VGGNet或GoogLeNet提取。
3.根据权利要求1所述的基于多模态神经网络的高分遥感图像语义理解方法,其特征在于:所述非线性函数g为LSTM,图像的视觉特征b0由VGGNet提取。
4.根据权利要求1所述的基于多模态神经网络的高分遥感图像语义理解方法,其特征在于:所述步骤1)中多条文本描述语句的内容包括目标或者获得图像各像素或整个图像的类别标签、目标的属性、特征以及目标之间相互的关系。
5.根据权利要求1所述的基于多模态神经网络的高分遥感图像语义理解方法,其特征在于:所述步骤2)中所述图像的视觉特征为卷积神经网络最后一层全连接层输出的4096维向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院西安光学精密机械研究所,未经中国科学院西安光学精密机械研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910406998.8/1.html,转载请声明来源钻瓜专利网。