[发明专利]一种基于神经网络模型的图像到汉语古诗的转换方法有效

申请号：	201711064401.3	申请日：	2017-11-02
公开（公告）号：	CN107832292B	公开（公告）日：	2020-12-29
发明（设计）人：	刘学亮;洪日昌;汪萌;郝世杰;邢硕	申请（专利权）人：	合肥工业大学
主分类号：	G06F40/289	分类号：	G06F40/289;G06F16/51;G06N3/04;G06N5/02
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于神经网络模型的图像到汉语古诗的转换方法。本发明包括如下步骤：1收集现有的汉语古诗作为诗集数据集；收集图片资源及与所述图片资源对应的语句描述资源作为图像数据集；2建立多模态循环神经网络并进行训练以生成图像目标描述语句；3映射目标描述语句为汉语关键词；4利用长短期记忆网络建立汉语古诗生成模型并进行训练，从而实现图像到汉语古诗的转换。本发明通过计算机自动将图片转化成能够描述图片的汉语古诗，摆脱主题词的限制，使得普通使用者通过输入一幅图片生成对应的汉语古诗，从而能在一定程度上填补我国在机器“看图写诗”领域方面的空缺。
搜索关键词：	一种基于神经网络模型图像汉语古诗转换方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于神经网络模型的图像到汉语古诗的转换方法，其特征包括如下步骤：步骤1、收集现有的汉语古诗作为诗集数据集Q＝{q1,q2,...,qi,...,qn}，qi表示第i首汉语古诗，并有表示所述第i首汉语古诗中第v个字符，i＝1,2,…,n，v＝1,2,...,Vi；获取图片资源以及与所述图片资源对应的语句描述资源作为图像数据集T＝{(I1,s1),(I2,s2),...,(Ij,sj),....,(Im,sm)}；其中，Ij表示第j张图片，sj表示所述第j张图片对应的语句描述，并有：表示所述第j张图片对应的语句描述中第z个字符，j＝1,2,…,m，z＝1,2,…,Zj；步骤2、建立多模态循环神经网络，所述多模态循环神经网络由深度卷积神经网络CNN和长短期记忆网络LSTM组成，并对所述多模态循环神经网络进行训练，得到图片最终的目标描述语句；步骤2.1、利用式(1)所示的深度卷积神经网络CNN将第j张图片Ij映射到向量空间W中，从而得到第j张图片Ij的向量x′j：x′j＝Wc[CNN(Ij)] (1)式(1)中，CNN(Ij)表示利用深度神经网络CNN提取出的第j张图片Ij的特征向量，Wc为所述向量空间W的图像映射矩阵；步骤2.2、利用式(2)所示的热编码方法将所述第j张图片Ij对应的语句描述sj映射到所述向量空间W中，从而得到语句描述sj的向量其中，表示所述语句描述sj中第z个字符的向量，x0表示所有语句描述的开始字符的向量，表示所有语句描述的结束字符的向量：xzj=WeOzj---(2)]]>式(2)中，为所述语句描述sj中第z个字符的热编码向量，We为所述向量空间W的字符映射矩阵；步骤2.3、将所述第j张图片Ij的向量x′j及其对应的语句描述sj的向量xj输入到式(3)所示的长短期记忆网络LSTM中，得到第j张图片Ij的目标描述语句的概率分布其中，表示所述第j张图片Ij的目标描述语句的概率分布yj中第z个字符的概率分布，y0表示所有目标描述语句的开始字符的概率分布，表示所有目标描述语句的结束字符的概率分布：yj=LSTMθσ(xj,xj′)---(3)]]>式(3)中，θσ为长短期记忆网络的参数；步骤2.4、从所述第j张图片Ij的目标描述语句的概率分布yj中第z个字符的概率分布中选取概率最大的字符作为所述第j张图片Ij的目标描述语句的第z个字符，从而得到所述第j张图片Ij的目标描述语句；步骤2.5、利用所述图像数据集T对所述多模态循环神经网络进行训练，得到所述第j张图片Ij最终的目标描述语句；步骤2.5.1、选用所述目标描述语句的概率分布yj的负对数似然和的均值作为损失函数L1(I,s)如式(4)所示：L1(I,s)=-1NΣj=1NΣz=0Zj+1logyzj---(4)]]>式(4)中，N为批大小，表示每次训练迭代时的图片数量，且N＜m；I表示每次训练迭代的N张图片集合，s表示每次训练迭代的N张图片集合I的对应的语句描述集合；步骤2.5.2、采用最小批随机梯度下降法对所述损失函数L1(I,s)进行最小化处理，得到所述损失函数L1(I,s)的导数L′1；步骤2.5.3、令所述多模态循环神经网络的参数为θα＝{Wc,We,θσ}，将θα+η1L′1赋值给θα，从而更新θα，用于对所述多模态循环网络的训练，其中，η1表示所述多模态循环神经网络的学习速率；步骤3、将另一幅输入图片Ig输入所述多模态循环神经网络中，得到最终的目标描述语句，并去掉最终目标描述语句中所有停词，将去除停词后的目标描述语句映射为汉语关键词K＝{k1,...,kt,...,kL}，kt表示所述输入图片Ig的第t个汉语关键词，t＝1,2,…,L，L≥1；步骤4、利用长短期记忆网络建立汉语古诗生成模型并进行训练，从而实现图像到汉语古诗的转换，并生成对应的汉语古诗；步骤4.1、定义历史诗句H为第1到第t‑1行诗句，并初始化历史诗句H为零，初始化t＝1；步骤4.2、利用热编码方法将所述输入图片Ig的第t个汉语关键词kt及所述历史诗句H分别映射至向量空间Ψ中，得到第t个汉语关键词kt的向量及所述历史诗句H的向量其中，表示所述输入图片Ig的第t个汉语关键词kt的第d个字符的向量，表示所述历史诗句H中的第λ个字符的向量；利用长短期记忆网络分别将第t个汉语关键词kt的向量和所述历史诗句H的向量编码为向量和步骤4.3、当t＝1且τ＝1时，均值初始化所述输入图片Ig的第t行诗句中第τ‑1个字符的概率分布和第τ‑1个字符的状态向量rτ‑1；步骤4.4、利用式(6)得到所述输入图片Ig的第t行诗句中第τ个字符的概率分布从而得到所述输入图片Ig的第t行诗句中所有字符的概率分布作为汉语古诗生成模型：Yτt=argmaxθβp(Y/rτ,ht-1g,Yτ-1t,utg)---(6)]]>式(6)中，θβ为所设定的参数，rτ为第τ个字符的状态向量，并通过式(7)获得：rτ=f(rτ-1,Yτ-1t,[(utg)T,(ht-1g)T]T)---(7)]]>式(7)中，f()表示长短期记忆网络的内部激活函数；步骤4.5、从所述输入图片Ig的第t行诗句第τ个字符的概率分布中选取概率最大的字符作为所述输入图片Ig的第t行诗句的第τ个字符，从而得到所述输入图片Ig的第t行诗句；步骤4.6、将t+1赋值给t，并返回步骤4.2，直到t＞L为止，从而生成所述输入图片Ig的汉语古诗；步骤4.7、利用如式(8)得到损失函数L2(q)：式(8)中，M为从所述诗集数据集Q中选取的任意一批汉语古诗的大小，表示每次训练迭代时的汉语古诗数量，且M＜n；q表示每次训练迭代的M首汉语古诗集合，表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符输入所述汉语古诗生成模型中得到的模型概率分布，表示任意一批汉语古诗中第ε首汉语古诗第t行诗句的第τ个字符经过热编码处理后得到的期望概率分布；步骤4.8、采用均方根传播算法对所述损失函数L2(q)进行最小化处理，得到所述损失函数L2(q)的导数L2′；将θβ+η2L2′赋值给θβ，从而更新θβ，用于对所述汉语古诗生成模型进行训练，其中，η2表示所述汉语古诗生成模型的学习速率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711064401.3/，转载请声明来源钻瓜专利网。

上一篇：人机协作的客服方法、电子装置及存储介质
下一篇：一种面向非自由谈话式汉语口语的对话行为分析方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于神经网络模型的图像到汉语古诗的转换方法有效

专利文献下载