[发明专利]基于卷积神经网络的深度图像描述方法有效
| 申请号: | 201910583139.6 | 申请日: | 2019-07-01 |
| 公开(公告)号: | CN110347860B | 公开(公告)日: | 2021-07-09 |
| 发明(设计)人: | 张道强;陈若煜 | 申请(专利权)人: | 南京航空航天大学 |
| 主分类号: | G06F16/583 | 分类号: | G06F16/583;G06N3/04;G06N3/08 |
| 代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 韩天宇 |
| 地址: | 210016 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 卷积 神经网络 深度 图像 描述 方法 | ||
本发明公开了一种基于卷积神经网络的深度图像描述方法,涉及计算机视觉与自然语言处理的交叉领域,涉及图像处理、自然语言理解、深度学习、机器学习等技术领域,解决了以往基于长短时神经网络的图像描述方法无法并行训练的问题。同时,本发明能够更好地捕捉到生成单词之间的长距依赖以及学习到如何自适应地关注图像和语言特征。
技术领域
本发明涉及计算机视觉与自然语言处理的交叉领域,涉及图像处理、自然语言理解、深度学习、机器学习等技术领域,尤其涉及一种基于卷积神经网络的深度图像描述方法。
背景技术
近年来,图像描述任务在学术界受到广泛的研究。该任务的主要目的在于构建一种机器学习算法,在接收自然图片输入后,生成对该输入的语言描述。这一任务旨在对视觉环境进行语义解释,是视觉感知的高级任务。当前,主要的图像描述算法均基于编码器-解码器(Encoder-Decoder)的结构,这类框架使用一个深度卷积神经网络作为图像的编码器,将输入的原始图像编码为一个高维的特征向量。然后再使用长短时记忆网络(Long-Short-Term-Memory Network,LSTM)作为解码器,接收编码后的图像特征向量,并将其解码为自然语言。
这种基于长短时记忆网络的解码器模型有其固有缺陷。首先,训练数据必须按照前后顺序输入神经网络之中,以至于其不能进行并行计算,导致模型的优化时间较长。其次,这类模型在面对较长的输入数据时,不善于建模长句依赖,同时易产生梯度消失等问题。
为了解决这一问题,有研究者提出完全基于卷积神经网络(ConvolutionalNeural Network)的语言解码器,使得网络的训练能够并行化。
基于卷积神经网络的语言解码器存在以下几个问题。首先,该模型的注意力机制(attention)仅应用于图像特征和语言特征两个模态之间,忽略了语言局部特征之间的关联。其次,该模型在训练时是基于交叉熵损失来训练的,而在测试模型的过程中,我们需要用专用的指标来评价模型的好坏。因此,基于交叉熵损失训练的模型不一定能够使得生成的结果达到最优。最后,这种基于交叉熵的训练方式在训练时需要图像对应的真实文本标签,而在测试时,我们无法获得图像对应的真实文本标签,这将导致训练与测试出现偏差。
发明内容
本发明所要解决的技术问题是针对背景技术中所涉及到的缺陷,提供一种基于卷积神经网络的深度图像描述方法。
本发明为解决上述技术问题采用以下技术方案:
基于卷积神经网络的深度图像描述方法,包含以下步骤:
对MSCOCO训练数据集中的所有真实描述句子进行预处理,在所有真实描述句子的首部添加起始标识单词,在所有真实描述句子的结尾添加结尾标识单词;记录所有出现次数大于等于预设的第一次数阈值的单词,并将所有出现次数小于预设的第一次数阈值的单词替换为未知标识单词;
为所有单词标记索引,形成词汇表,将所有真实描述句子用单词的索引表示,即“one-hot”表示;
对于MSCOCO训练数据集中每一幅原始图像:
步骤1),将原始图像经过深度学习库的resize函数调整后,输入至预训练好的深度卷积神经网络,得到原始图像的特征图表示;
使用深度学习库中的网络构建函数构建两层的全连接神经网络M1,将原始图像的特征图表示输入全连接神经网络M1中,得到原始图像的图像特征表示;
将原始图像图像特征表示经过深度学习库中的维度调整函数,将其由三维调整为二维,得到调整过后的图像特征表示、记为m;
步骤2),使用深度学习库中的词嵌入网络构建函数构建词嵌入表示层,输入原始图像对应的真实描述句子的“one-hot”表示,对真实描述句子中的每个词做词嵌入操作,得到由词向量表示的真实描述句子的特征,记为x;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910583139.6/2.html,转载请声明来源钻瓜专利网。





