[发明专利]长时记忆增强的段落级别图像描述生成方法在审
申请号: | 202110609977.3 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113591874A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 丁贵广;陈辉 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王萌 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 记忆 增强 段落 级别 图像 描述 生成 方法 | ||
本申请提出了一种长时记忆增强的段落级别图像描述生成方法,涉及图像描述技术领域,其中,该方法包括:通过预训练的卷积神经网络对待描述图像进行图像特征编码;通过第一循环神经网络对历史信息进行历史信息编码;使用注意力机制从高容量记忆池中检索出与历史信息编码相关的历史记忆信息,将其映射成一个记忆向量得到记忆增强的历史信息编码;通过第二循环神经网络将利用视觉注意力机制获取的图像上下文视觉特征和记忆增强的历史信息编码处理为预测向量,基于预测向量使用softmax层预测下一时刻的词的分布信息,完成自然语言描述生成。本发明充分利用历史的信息,有效加强循环神经网络的长时上下文关系建模能力,提升段落级别的图像描述效果。
技术领域
本发明涉及图像描述技术领域,尤其涉及一种长时记忆增强的段落级别图像描述生成方法和计算机设备。
背景技术
现有的技术大多面向语句级别的图像描述,即用一句话来描述图像内容。采用编码器-解码器的方式来生成自然语言,比如,使用卷积神经网络(Convolution NeuralNetwork,CNN)作为编码器,将图像信息压缩成一系列特征,然后使用循环神经网络(Recurrent Neural Network,RNN)作为解码器基于图像特征生成自然语言。基于编码器-解码器的架构,研究者们设计了许多新颖的架构,显著提高了图像描述生成效果。Mao等人提出了一种多模态循环神经网络来生成图像描述句子,使用CNN来编码图像信息和一个普通RNN来解码,解码时使用一种多模态层来融合图像特征和已经生成的词的特征,进而预测下一个词。Vinyals等人基于CNN和LSTM提出一种神经图像描述生成器(Neural ImageCaption Generator,NIC),将CNN抽取的全局图像特征当做是第零个词插入到解码器中进行LSTM的初始化,然后在每个时刻,单词的生成依赖之前的LSTM的隐藏状态向量以及上一个时刻模型预测的词的特征。基于语义组合的图像描述方法提出将视觉语义识别和语言语法学习解耦,使用一个卷积神经网络预测图像的语义概念,即属性特征,接着将视觉特征和属性特征一起输入到编码器中进行描述句子生成。Yao等人抽取属性信息当做是图像语义信息,并设计了多种不同的结构研究了如何将属性信息插入到描述语句的生成过程中,比如类似NIC只用于初始化LSTM的隐藏状态向量,或者插入到LSTM的每个时刻等等。You等人提出基于属性注意力机制的图像描述方法,采用自上而下的方式抽取了图像视觉特征,使用全卷积网络从图像的局部区域中学习属性信息,使用注意力机制将属性特征图插入到句子生成过程中。这种方法结合自上而下和自底向上的学习方式,能够生成较好的图像描述句子。在人类视觉系统中,存在着一种视觉注意力的信号处理机制,即通过眼睛关注点的移动,人眼可以自适应选择所关注的视觉信息,实现动态捕捉视觉信号。受此启发,Xu等人首次将视觉注意力机制引入到图像描述领域,使用卷积神经网络抽取了图像的局部区域特征,在解码器端,采用一个注意力模块让解码器当前的隐藏状态特征和图像特征图上的区域特征进行注意力权重计算,然后用这些权重对图像局部区域特征进行融合。注意力模块可以让解码器根据语言上下文关联信息来动态感知图像的视觉内容,并进行单词的生成。Anderson等人认为在人类视觉系统中,视觉注意力是自上而下和自底向上两种方式结合的,自上而下表现在根据具体的任务自适应过滤不相关的信息,自底向上表现在从底层视觉特征中概括出高层语义信息。使用在大型知识库上预训练的对象检测模型抽取图像的区域特征,然后通过常规注意力机制将区域特征输入到自上而下学习的解码器中进行解码。由于使用和图像描述数据集特别相关的外部大型数据集训练对象检测模型,自底向上注意力和自上而下生成的图像描述方法取得了极佳的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110609977.3/2.html,转载请声明来源钻瓜专利网。