[发明专利]一种基于图像内容的古诗词生成方法在审
申请号: | 201710610311.3 | 申请日: | 2017-07-25 |
公开(公告)号: | CN107480132A | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 宣琦;李甫宪;张剑;殳欣成;陈壮志;俞山青;陈晋音 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N5/02 |
代理公司: | 杭州斯可睿专利事务所有限公司33241 | 代理人: | 王利强 |
地址: | 310014 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图像 内容 古诗词 生成 方法 | ||
1.一种基于图像内容的古诗词生成方法,其特征在于:所述方法包括如下步骤:
S1:基于单次多框目标检测SSD框架对图像内容进行目标检测,得到图像中包含物体的名称;
S2:利用中文词法分析工具THULAC对现有设定数量首唐诗进行分词,得到相应词汇表,利用word2vec工具对词汇表中每一个词进行特征学习,将每一个词映射到向量空间;
S3:将S1中得到的物体名称输入word2vec工具后得到物体名称映射向量,计算其与古诗词向量之间的余弦相似度,设定阈值后选择部分作为该物体对应的主题词;
S4:利用主题词扩展关键词,将关键词输入学习唐诗后得到的RNN模型进行古诗词生成。
2.如权利要求1所述的一种基于图像内容的古诗词生成方法,其特征在于:所述步骤S1中,SSD检测框架以经典目标检测框架为基础,辅以卷积特征层和卷积滤波器结构实现快速检测图像中的目标,给出图像中包括的物体名称。
3.如权利要求1或2所述的一种基于图像内容的古诗词生成方法,其特征在于:所述步骤S2中,利用中文词法分析工具THULAC对设定数量首唐诗进行分词,首先以标点符号作为句子之间的划分,从而对句子进行分词,进而得到词汇表,利用word2vec工具对每一个词汇转化为空间向量。
4.如权利要求1或2所述的一种基于图像内容的古诗词生成方法,其特征在于:所述步骤S3中,将S1中得到的物体名称输入word2vec工具后,得到该物体名称空间向量计算该向量与S2词汇表中的各个词汇向量的余弦相似度:
其中n表示向量维度;
同时设定阈值ε,当且仅当Similarityx≥ε时,保留对应的词作为该物体对应主题词,其余去除。
5.如权利要求1或2所述的一种基于图像内容的古诗词生成方法,其特征在于:所述步骤S4中,操作过程如下:第一步,随机选取一个对应主题词,对主题词进行扩展,生成多个关键词,关键词均来自于ShiXueHanYing诗歌短语分类系统,该系统包含了1016种人工构建的短语聚类,每一个聚类都被一个关键词所标记以描述某个主题,而后在满足音韵模式等限制的基础上产生所有可能的短语结合体,即诗歌第一句。对所有的候选诗句应用基于字符的RNN语言模型进行评分,评分最高作为诗歌第一句。
第二步,基于第一句生成第二句,而后的所有下一句诗歌都基于之前所产生的所有诗句生成;给出所有已生成的诗歌S1:i,i≥1,计算第Si+1句的概率:
其中Si+1=w1,w2,w3,..,wm,且P(wj+1|w1:j,S1:i)是在给出第Si+1句的所有已产生的第1到j个字符w1:j和所有已产生的诗句S1:i的基础上来生成第Si+1句的第j+1个字符wj+1的条件概率;
首先,当前所有行S1:i在经过句子级卷积神经网络CSM后被转换为一系列向量v1:i,记为:
vi=CSM(Si)
然后,循环上下文模型Recurrent Context Model,RCM)将v1:i作为模型的输入从而输出记为:
最后,和Si+1行的前j个字符w1:j作为循环生成模型(Recurrent Generation Model,RGM)的输入计算其中k属于字符集合V,即为第j+1在V上所有字符的概率,记为:
CSM模型通过顺序合并相邻向量计算出句子的连续表示,在前两层中合并相邻的两个向量,其余层合并相邻的三个向量,给定一个句子S=w1,w2,w3,..,wm,第一层表示为:
T1=[L·e(w1),L·e(w2),…,L·e(wm)]
N1=m
其中,V表示字符集合,L∈Rq×|V|表示字符的嵌入矩阵,它的每一列表示每一个字符的向量,q为隐藏节点个数,e(wi)∈R|V|×1表示wi的one-hot编码,Tl是第l层的句子的表示,Nl是第l层矩阵列的数量;
第l+1层表示为:
Nl+1=Nl-n+1
1≤j≤Nl+1
其中,Cl,n表示权重矩阵,表示元素点乘,σ为softmax函数;
将前i行的向量作为输入,合并为一个向量,然后输出层把这一个向量解码为多个不同的向量,即每个向量对应第i+1行每一个位置的字符,计算过程如下:
h0=0
1≤j≤m-1
其中,v1,v2,…,vi表示前i行的向量,hi∈Rq×1是前i行的合并表示,通过矩阵M∈Rq×2q获得,矩阵Uj表示用于将hi解码为
RGM模型通过考虑RCM模型输出的向量和当前行已产生字符的one-hot编码来得到下一个字符的概率分布,计算过程如下:
r0=0
yj+1=Y·rj
其中,矩阵H∈Rq×q将前i行向量转换为隐藏表示,矩阵X∈Rq×|V|将字符转换为隐藏表示,矩阵R∈Rq×q完成循环转换,矩阵Y∈R|V|×q将隐藏表示解码为字符集中所有字符的权重,rj是RGM模型在第j步的隐藏层,yj+1是RGM模型在第j步的输出,σ为sofmax函数;最后得到第i+1行的概率:
在训练模型过程中,损失函数是预测的字符分布和真实的字符分布的交叉熵,同时加入|L|2正则化项,RGM模型输出层的交叉熵损失反向传播到隐藏层、输入层,然后到RCM模型,最后到CSM模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710610311.3/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法