[发明专利]基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备有效
申请号: | 201910393359.2 | 申请日: | 2019-05-13 |
公开(公告)号: | CN110288665B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 郑向涛;卢孝强;吴思远 | 申请(专利权)人: | 中国科学院西安光学精密机械研究所 |
主分类号: | G06T9/00 | 分类号: | G06T9/00;G06N3/04;G06N3/08 |
代理公司: | 西安智邦专利商标代理有限公司 61211 | 代理人: | 郑丽红 |
地址: | 710119 陕西省西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备,解决现有递归神经网络方法不能并行处理序列信号以及运算耗时的问题。该方法包括以下步骤:1)将卷积神经网络预训练好;2)提取图像的全局特征和局部特征,将图像的全局特征和局部特征投影到多模态映射空间中;3)对步骤2)中多模态映射空间下的图像表达进行卷积编码;4)单词特征表达;5)对步骤4)的描述语句进行卷积编码,6)计算注意力,得到输入图像对应生成单词的概率;7)构建输入输出之间的目标损失函数,利用损失函数进行神经网络训练,得到神经网络的位置参数;8)将测试图像输入训练的神经网络系统,得到测试图片对应的描述性自然语句。 | ||
搜索关键词: | 基于 卷积 神经网络 图像 描述 方法 计算机 可读 存储 介质 电子设备 | ||
【主权项】:
1.一种基于卷积神经网络的图像描述方法,其特征在于,包括以下步骤:1)将卷积神经网络在数据集ImageNet预训练好;2)利用步骤1)预训练好的卷积神经网络提取图像的全局特征和局部特征,然后将图像的全局特征和局部特征投影到多模态映射空间中,得到多模态映射空间下的图像表达v′i,所述图像包括训练集图像和测试集图像;3)对步骤2)中多模态映射空间下的图像表达进行卷积编码,得到图像编码信息cI;cI=[cI1,cI2,…,cIm]=CNN[v′i]=CNN[v′1,v′2,…,v′m]4)单词特征表达;给定步骤2)中图像对应的描述语句,对描述语句的单词进行特征表达,然后经过映射矩阵将其投影到多模态映射空间中,得到描述语句中每个单词的特征表达;st=Ws·wt,t∈{1,2,…,N}其中,st是语句中第t个单词的特征表达,wt是原始描述语句的表示向量,Ws是文本的映射矩阵;5)对步骤4)的描述语句进行卷积编码,得到相应文本编码信息cs;cs=[cs1,cs2,…,csT]=CNN[st]=CNN[s1,s2,…,sT]6)计算注意力,得到输入图像对应生成单词的概率;6.1)将解码器的隐层状态hl和步骤5)中文本编码信息cs通过解码器加权,得到单词的解码向量,然后通过解码向量和步骤3)中的图像编码cI做内积,计算注意力权重,计算公式如下:![]()
其中,
表示注意力权重,
是迭代l次的解码器隐层状态,csi是第i个单词编码,cIj是第j个图像编码,
表示第i个单词的解码向量,
和
是解码器的加权参数和偏移参数;6.2)将步骤6.1)得到注意力权重与步骤3)得到的图像信息编码加权求和,得到基于注意力加权的图像信息编码;
其中,
是基于注意力加权的图像信息编码,vj是第j个图像特征;6.3)将步骤6.1)得到注意力权重与步骤5)得到的文本信息编码加权求和,得到基于注意力加权的文本信息编码;假定解码CNN的深度为L,每一层的隐层状态可表示为:
h0=cs+cI其中,hl是第l层的隐层状态,输入层h0是图像编码和单词编码加权;编码器隐层状态更新,利用步骤(6.2)中计算得到的经注意力机制后的图像信息
对编码器隐层状态
进行更新,更新公式为:
6.4)根据步骤6.2)的图像信息编码和步骤6.3)的文本信息编码,计算输入图像对应生成单词的概率;解码网络的隐层输出hL,计算每次生成单词的概率pj+1:
(wj+1|w0:j,I;θ)~pj+1其中,Wp是加权矩阵,bp是偏移量,θ表示设计网络中的所有参数,条件概率(wj+1|w0:j,I;θ)表示,已知前j个单词情况下第j+1单词出现的概率;7)构建输入输出之间的目标损失函数,利用损失函数进行神经网络训练,得到神经网络的位置参数;7.1)利用步骤6.4)得到的单词概率构建输入图像和输出单词之间损失函数;
其中,条件概率P(S|I;θ)表示已知图像I情况下,语句S出现的概率,7.2)使步骤7.1)的损失函数达到最小,初始化网络参数,通过优化算法迭代θ,得到最优的网络参数,完成神经网络训练过程;8)将测试图像输入至步骤7)训练的神经网络系统,得到测试图片对应的描述性自然语句。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院西安光学精密机械研究所,未经中国科学院西安光学精密机械研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910393359.2/,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序