[发明专利]基于注意力机制和深度学习的遥感图像自然语言生成方法有效

专利信息
申请号: 201711068875.5 申请日: 2017-11-03
公开(公告)号: CN107766894B 公开(公告)日: 2021-01-22
发明(设计)人: 王生生;陈嘉炜 申请(专利权)人: 吉林大学
主分类号: G06K9/62 分类号: G06K9/62;G06K9/40;G06K9/00;G06N3/04
代理公司: 长春市恒誉专利代理事务所(普通合伙) 22212 代理人: 李荣武
地址: 130012 吉*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 注意力 机制 深度 学习 遥感 图像 自然语言 生成 方法
【权利要求书】:

1.一种基于注意力机制和深度学习的遥感图像自然语言生成方法,其特征在于:至少包括以下步骤:

步骤一、预处理遥感图像和对应的自然语言描述,对遥感图像进行降噪处理,把自然语言描述切片,将字符构建成一个字典以备后续调用;

步骤二、密集定位卷积神经网络IPCNN包括卷积层、池化层、密集定位层和识别网络,将降噪后的遥感图像输入到密集定位卷积神经网络,图像在经过卷积层和池化层之后,进入到密集定位层,密集定位层接收到的是有关激活值的输入张量,它能够识别感兴趣的空间区域并且从每一个区域平滑得提取一个固定尺寸的表示,最后通过识别网络将来自密集定位层的每个区域的特征扁平化后,获得区域块;

步骤三、重分配长短期记忆网络RLSTM包括权重分配层、循环神经网络和深度输出层,将步骤二获得的区域块输入到重分配长短期记忆网络中,首先进入到权重分配层中,将一个区域块均匀地切割成多个区域,并且对每个区域的标签进行编码,接着获取这个区域块在多层网络中的不同时刻的隐藏状态与分割成的每个区域的编码,利用多层网络函数分别求得每个区域的权重,接着整合这些区域的权重得到整张图片关于这个区域块信息的动态表示,然后将这些信息的动态表示输入到循环神经网络中,最后通过深度输出层实现自然语言描述的整体输出;

步骤四、将步骤三中生成的自然语言描述输入遥感图像语言描述打分模型,考虑生成的自然语言描述C的任一单词序列n-gram,首先计算单词序列n-gram在自然语言描述C中出现的次数Count,然后统计单词序列n-gram在各参考句子中分别出现的次数的最大值,将该最大值与Count中的较小者记作单词序列n-gram的匹配次数,之后,再把每个单词序列n-gram的计算结果累加起来,乘一个惩罚因子得到自然语言描述C的打分;

步骤五、将目标位置、类别标签和自然语言描述得分输入到数据库中,如果有搜索特定标签则输出特定标签下得分前十的句子,否则输出所有语句中得分前十的句子。

2.根据权利要求1所述的一种基于注意力机制和深度学习的遥感图像自然语言生成方法,其特征在于:步骤一中采用如下方法对遥感图像和对应的自然语言描述进行预处理:利用槽形滤波和傅立叶变换的方法对遥感图像进行降噪处理,能有效消除周期性的干涉图形,不仅使得原图细节更加丰富,而且能够降低目标识别网络对干扰数据的过拟合,使得网络能够输出更好的特征,把自然语言描述切片,将字符构建成一个字典,就是提前将相应的字符映射成向量,能有效的提高语言模型的运算速度。

3.根据权利要求1所述的一种基于注意力机制和深度学习的遥感图像自然语言生成方法,其特征在于:所述步骤二中利用IPCNN对步骤一中的降噪遥感图像进行处理,首先图像通过IPCNN的卷积层和池化层处理,接着输入密集定位层,密集定位层能够对感兴趣区域增加权重,并且可以从每一个区域平滑的提取一个固定尺寸的表示,与现有网络相比较,在更加精确地提取目标特征的情况下,还提高了对背景信息的利用,在IPCNN中用双线性插值进行池化操作,这样做的好处在于可以预测变形候选区域,并且可以使梯度传到输入的坐标上,使得网络训练的速度大大加快,最后通过IPCNN的识别网络将来自密集定位层的每个区域的特征扁平化,这样做可以降低维度,加快后续模型的运算时间。

4.根据权利要求1所述的一种基于注意力机制和深度学习的遥感图像自然语言生成方法,其特征在于:所述步骤三中利用RLSTM对步骤二中得到的区域块进行处理,在RLSTM中,权重分配层对区域块进行处理分别得到每个区域块中不同区域的权重,接着利用多层网络函数计算得到整个区域块的信息的动态表示,这样做可以给不同单词分配不同的注意力大小,跟经典范式框架相比,重要单词自身的信息被强调,背景信息同样被赋予注意力,则最后呈现出的句子会比之前多出很多细节信息,接着把权重和区域块输入RLSTM中的循环神经网络中,词向量在经过循环神经网络的处理后,会极大的增强语言描述的可读性。

5.根据权利要求1所述的一种基于注意力机制和深度学习的遥感图像自然语言生成方法,其特征在于:所述步骤四,步骤五对步骤三中生成的自然语言描述进行进一步处理,将自然语言描述输入遥感图像语言描述打分模型,由于一张图片对应多个区域,一个区域对应多条语句,所以最后得到的数据量庞大且杂乱,将自然语言描述输入遥感图像语言描述打分模型,对信息的价值进行标记,然后将标记过后的数据放入数据库中,和之前的遥感字幕框架比起来,这样既不会忽略一些细节信息,又保证了调用时最有价值的信息会首先出现,节约了使用者大量的时间。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711068875.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top