[发明专利]一种基于场景预分类的光学遥感图像语句描述生成方法有效
申请号: | 201911155068.6 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110991284B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 史振威;马小锋;赵睿;陈科研;张宁;韩传钊;章泉源;朱新忠;张瑞珏 | 申请(专利权)人: | 北京航空航天大学;上海航天电子通讯设备研究所 |
主分类号: | G06V20/13 | 分类号: | G06V20/13;G06V10/774;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜;王顺荣 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 场景 分类 光学 遥感 图像 语句 描述 生成 方法 | ||
本发明公开一种基于场景预分类的光学遥感图像语句描述生成方法,技术核心是将语句描述生成任务与场景预分类任务进行联合优化,从而提升模型的数据域适应性。该方法包含四个步骤:步骤一:制作数据集;步骤二:搭建网络模型;步骤三:分步训练网络模型;步骤四:遥感图像语句描述生成。本发明克服了现有技术的不足,很好地解决了遥感图像语句描述模型与遥感数据域的适应性问题,自动化程度和语句描述内容准确度均较高,具有广阔的应用前景和巨大的使用价值。
技术领域
本发明涉及一种基于场景预分类的光学遥感图像语句描述生成方法,属于光学遥感图像语句描述自动生成技术领域。
背景技术
遥感(remote sensing)可以分为主动遥感和被动遥感,前者通过发射和回收信号来成像,而后者通过接收地物反射的太阳光来成像,光学遥感(optical remote sensing)一般指后者,指在紫外波段和红外波段的范围内,通过探测仪器远距离获取地物信息的技术。目前,光学遥感技术一般依靠星载和机载传感器来探测地物目标,受拍摄设备高度、拍摄角度以及传感器精度的影响,获取到的图像数据在分辨率、覆盖地物尺度等多个方面表现出不同于自然图像的特点,对相关处理技术有着更高的要求。光学遥感图像在民事和军事应用中均具有重要的作用,民事上主要用于气象预报、土地普查以及灾害评估等方面,军事上主要用于导弹预警、战场监测等方面。
图像语句描述生成(image caption)是指计算机通过分析输入图像的语义内容,包括场景、目标以及目标之间的关系,之后自动生成一句描述图像内容的语句的技术。相比于目标检测、图像分割等传统图像处理技术,该技术可以实现图像到描述语句的映射,功能上更接近人类的行为表现,具有更加广阔的应用场景,包括图像检索,智能交互以及情报自动生成等多个方面。其技术实现在数据集构建、模型搭建以及训练和测试等多个方面面临更大的困难和挑战。
卷积神经网络(convolutional neural network)是近年来发展非常迅速的神经网络模型之一,该网络在处理图像数据时具有天然的优势,解决了网络庞大臃肿、难以训练以及泛化能力差等诸多问题,在图像分类比赛中屡创佳绩,以ImageNet数据集分类任务为例,人类的Top5 error分类精度大致在5%到10%之间,自从2015年深度残差网络(residual neural network)提出之后,计算机的分类精度已经超越人类。在图像语句描述生成任务中,如何使用卷积神经网络提取高质的图像语义表示,仍是目前研究面临的一大难点。
循环神经网络(recurrent neural network)是处理序列数据最有效的神经网络模型,在语句生成任务中应用广泛。由于该模型在训练时存在梯度消失的问题,后经改进,变身为长短时记忆模型(long short-term memory,LSTM),LSTM通过设计遗忘门、输入门以及输出门解决了梯度消失问题。目前在图像语句描述生成模型中,一般采用LSTM或其变体来生成描述图像的语句结果。
注意力机制(attention mechanism)是指人脑通过注意力聚焦来重点关注某一部分信息的机制,基于该机制构建的注意力模块在图像语句描述生成模型中扮演着重要的角色,该模块可以帮助模型在生成语句的单词时与图像进行语义对齐,从而得到更准确的描述结果。现有的注意力模块主要包括空间注意力模块、自适应注意力模块两种,本发明在此基础上提出了一种3D注意力结构,这种设计更适用于处理尺度不一的光学遥感图像数据。
场景分类(scene classification)技术是指计算机根据输入的图像判定图像所属场景类别的技术。由于光学遥感图像与自然图像相比,通常一张遥感图像只包含一种地物场景,如港口、山区等,对其进行场景分类有助于图像语句描述生成模型获取更加准确的语义信息,从而减轻语句生成部分的学习压力,进而得到一种更适合于光学遥感图像语句生成的模型。本发明就是基于这种思想,将场景分类任务与语句描述生成任务进行多任务联合,搭建了一种基于场景预分类的光学遥感图像语句描述生成模型,与领域内其它模型相比,该模型具有出色的性能表现。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;上海航天电子通讯设备研究所,未经北京航空航天大学;上海航天电子通讯设备研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911155068.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示装置及其显示方法
- 下一篇:模具及其制备方法、电池盖及其制备方法