[发明专利]一种基于强化学习的语言评价生成方法有效
申请号: | 201910794996.0 | 申请日: | 2019-08-27 |
公开(公告)号: | CN110532555B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 金鑫;周兴晖;吴乐;李晓东 | 申请(专利权)人: | 北京电子科技学院 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 100080*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于强化学习的语言评价方法,此方法利用了CIDEr评价标准(Consensus‑based Image Description Evaluation)进行判断优化学习的策略。本发明借鉴基础的强化学习算法用以训练网络:通过自引导序列算法,使用贪婪搜索的策略,将搜索的最终结果作为强化学习算法中的基线,使得算法生成的结果接近贪婪搜索结果。该方法引入了自引导序列算法,同时也对传统编码器与解码器框架进行了优化,其中用于生成语言评价的解码器单元,使用了带注意力机制的长短期记忆网络。综合这两个改进,此方法在美学评论生成任务中取得了较好的效果。 | ||
搜索关键词: | 一种 基于 强化 学习 语言 评价 生成 方法 | ||
【主权项】:
1.一种基于强化学习的语言评价生成方法,其特征在于,包括以下步骤:/n(1)将输入数据集中的每一类语言评价利用词嵌入Word Embedding技术生成不同属性的Word2Vec向量,其生成结果中,每个词被转为一个词向量,所述数据集包含图像及其对应语言评价;同时对语言评价进行分词提取和词形还原,语言评价词汇数据为英语,根据语言的语态和时态对句子进行相应的词干抽取和词形还原;接下来构造词汇词典,词典中的键为词汇本身,值为词汇在全部语言评价中的出现频次,该步骤需要词典遍历所有的语言评价,找出所有出现过的词汇,并统计各个词汇的出现频次,图像经过卷积操作,得到尺寸较原图更小的图像卷积特征图;/n(2)对步骤(1)中得到的词向量和使用卷积神经网络提取得到的图像卷积特征图和使用卷积神经网络提取到的图像卷积特征图进行线性融合,融合结果为字典,字典中的键为图像特征图,值为图像的五个美学属性对应的评论;图像特征图和图像评论输入到基于递归神经网络的语言生成模块中,用神经网络进行预测处理并生成图像属性评论,输出并得到评论;/n(3)将基于递归神经网络的语言生成模块的单词序列输出,作为强化学习模块的输入,进行语言序列生成的学习过程,语言生成过程中使用的学习算法为行动者评价者学习算法(Actor-Critic);强化学习模块通过决策函数对梯度下降的方向提供指导,对不同的梯度下降方向提供决策,以生成的词汇的回馈作为基线,决定梯度下降的方向;根据语言生成的结果动态调整递归神经网络中的注意力模型参数和其他涉及到语言生成的参数,如词向量长度、长短期记忆网络的个数参数递归神经网络将预测单词的词向量与实际词汇的词向量间的误差,作为回归预测算法的优化损失,并进行反向传递,以达到网络优化的目的;/n(4)从单词序列的输出、动态调整参数到损失反向传导,将上述步骤(1)-(3)作为完整过程反复进行,迭代一定轮数后,生成最终的图像语言评价,图像语言评价包括:用光和用色评价、构图评价、景深和聚焦评价、印象和主题评价、相机技巧评价。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京电子科技学院,未经北京电子科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910794996.0/,转载请声明来源钻瓜专利网。