[发明专利]一种基于图像内容的古诗词生成方法在审

专利信息
申请号: 201710610311.3 申请日: 2017-07-25
公开(公告)号: CN107480132A 公开(公告)日: 2017-12-15
发明(设计)人: 宣琦;李甫宪;张剑;殳欣成;陈壮志;俞山青;陈晋音 申请(专利权)人: 浙江工业大学
主分类号: G06F17/27 分类号: G06F17/27;G06N3/04;G06N5/02
代理公司: 杭州斯可睿专利事务所有限公司33241 代理人: 王利强
地址: 310014 浙江省杭*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 图像 内容 古诗词 生成 方法
【权利要求书】:

1.一种基于图像内容的古诗词生成方法,其特征在于:所述方法包括如下步骤:

S1:基于单次多框目标检测SSD框架对图像内容进行目标检测,得到图像中包含物体的名称;

S2:利用中文词法分析工具THULAC对现有设定数量首唐诗进行分词,得到相应词汇表,利用word2vec工具对词汇表中每一个词进行特征学习,将每一个词映射到向量空间;

S3:将S1中得到的物体名称输入word2vec工具后得到物体名称映射向量,计算其与古诗词向量之间的余弦相似度,设定阈值后选择部分作为该物体对应的主题词;

S4:利用主题词扩展关键词,将关键词输入学习唐诗后得到的RNN模型进行古诗词生成。

2.如权利要求1所述的一种基于图像内容的古诗词生成方法,其特征在于:所述步骤S1中,SSD检测框架以经典目标检测框架为基础,辅以卷积特征层和卷积滤波器结构实现快速检测图像中的目标,给出图像中包括的物体名称。

3.如权利要求1或2所述的一种基于图像内容的古诗词生成方法,其特征在于:所述步骤S2中,利用中文词法分析工具THULAC对设定数量首唐诗进行分词,首先以标点符号作为句子之间的划分,从而对句子进行分词,进而得到词汇表,利用word2vec工具对每一个词汇转化为空间向量。

4.如权利要求1或2所述的一种基于图像内容的古诗词生成方法,其特征在于:所述步骤S3中,将S1中得到的物体名称输入word2vec工具后,得到该物体名称空间向量计算该向量与S2词汇表中的各个词汇向量的余弦相似度:

其中n表示向量维度;

同时设定阈值ε,当且仅当Similarityx≥ε时,保留对应的词作为该物体对应主题词,其余去除。

5.如权利要求1或2所述的一种基于图像内容的古诗词生成方法,其特征在于:所述步骤S4中,操作过程如下:第一步,随机选取一个对应主题词,对主题词进行扩展,生成多个关键词,关键词均来自于ShiXueHanYing诗歌短语分类系统,该系统包含了1016种人工构建的短语聚类,每一个聚类都被一个关键词所标记以描述某个主题,而后在满足音韵模式等限制的基础上产生所有可能的短语结合体,即诗歌第一句。对所有的候选诗句应用基于字符的RNN语言模型进行评分,评分最高作为诗歌第一句。

第二步,基于第一句生成第二句,而后的所有下一句诗歌都基于之前所产生的所有诗句生成;给出所有已生成的诗歌S1:i,i≥1,计算第Si+1句的概率:

P(Si+1|S1:i)=Πj=1m-1P(wj+1|w1:j,S1:i)]]>

其中Si+1=w1,w2,w3,..,wm,且P(wj+1|w1:j,S1:i)是在给出第Si+1句的所有已产生的第1到j个字符w1:j和所有已产生的诗句S1:i的基础上来生成第Si+1句的第j+1个字符wj+1的条件概率;

首先,当前所有行S1:i在经过句子级卷积神经网络CSM后被转换为一系列向量v1:i,记为:

vi=CSM(Si)

然后,循环上下文模型Recurrent Context Model,RCM)将v1:i作为模型的输入从而输出记为:

uij=RCM(v1:i,j)]]>

最后,和Si+1行的前j个字符w1:j作为循环生成模型(Recurrent Generation Model,RGM)的输入计算其中k属于字符集合V,即为第j+1在V上所有字符的概率,记为:

P(wj+1|w1:j,uij)=RGM(w1:j+1,ui1:j)]]>

CSM模型通过顺序合并相邻向量计算出句子的连续表示,在前两层中合并相邻的两个向量,其余层合并相邻的三个向量,给定一个句子S=w1,w2,w3,..,wm,第一层表示为:

T1=[L·e(w1),L·e(w2),…,L·e(wm)]

N1=m

其中,V表示字符集合,L∈Rq×|V|表示字符的嵌入矩阵,它的每一列表示每一个字符的向量,q为隐藏节点个数,e(wi)∈R|V|×1表示wi的one-hot编码,Tl是第l层的句子的表示,Nl是第l层矩阵列的数量;

第l+1层表示为:

T:,jl+1=σ(Σi+1nT:,j+i-1l⊗C:,il,n)]]>

Nl+1=Nl-n+1

1≤j≤Nl+1

其中,Cl,n表示权重矩阵,表示元素点乘,σ为softmax函数;

将前i行的向量作为输入,合并为一个向量,然后输出层把这一个向量解码为多个不同的向量,即每个向量对应第i+1行每一个位置的字符,计算过程如下:

h0=0

hi=σ(M·[vihi-1])]]>

uij=σ(Uj·hi)]]>

1≤j≤m-1

其中,v1,v2,…,vi表示前i行的向量,hi∈Rq×1是前i行的合并表示,通过矩阵M∈Rq×2q获得,矩阵Uj表示用于将hi解码为

RGM模型通过考虑RCM模型输出的向量和当前行已产生字符的one-hot编码来得到下一个字符的概率分布,计算过程如下:

r0=0

rj=σ(R·rj-1+X·e(wj)+H·uij]]>

yj+1=Y·rj

P(wj+1=k|w1:j,uij)=e(yj+1,k)Σk=1|V|e(yj+1,k)]]>

其中,矩阵H∈Rq×q将前i行向量转换为隐藏表示,矩阵X∈Rq×|V|将字符转换为隐藏表示,矩阵R∈Rq×q完成循环转换,矩阵Y∈R|V|×q将隐藏表示解码为字符集中所有字符的权重,rj是RGM模型在第j步的隐藏层,yj+1是RGM模型在第j步的输出,σ为sofmax函数;最后得到第i+1行的概率:

P(Si+1|S1:i)=Πj=1m-1P(wj+1|w1:j,S1:i)]]>

在训练模型过程中,损失函数是预测的字符分布和真实的字符分布的交叉熵,同时加入|L|2正则化项,RGM模型输出层的交叉熵损失反向传播到隐藏层、输入层,然后到RCM模型,最后到CSM模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710610311.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top