[发明专利]一种基于神经机器翻译技术的局部引文推荐方法及系统有效
申请号: | 201810994562.0 | 申请日: | 2018-08-27 |
公开(公告)号: | CN109145190B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 赵姝;王鑫;刘洋;陈洁;段震;张燕平 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/216;G06F40/58 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 张景云 |
地址: | 230000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经 机器翻译 技术 局部 引文 推荐 方法 系统 | ||
1.一种基于神经机器翻译技术的局部引文推荐方法,其特征在于,包括以下步骤:
S1、对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;
S2、通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,通过一个嵌入空间使得语义上相似的单词在该空间内距离更近;
S3、基于神经机器翻译技术,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;构建带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架对引文上下文进行语义表征的学习,在理解语义的基础上从候选词表中挖掘解码出种子标题,形成一种以语义内容为衔接的种子标题构造模型;
构建带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架具体为:
编码器由一个双向门控循环单元网络构成,在每一时刻t接收输入序列的第t个词的向量表示并得到隐藏层状态ht,通过注意力机制与输出层的隐藏层状态作用得到输入的每个词的翻译权重,进一步获得最终的上下文向量并送入解码器解码出单词;
编码器GRU单元的公式表示如下:
Gu=sigmod(Wa[ht-1,xt]+bu)
Gr=sigmod(Wr[ht-1,xt]+br)
其中Gu为更新门,Gr为重置门,为更新隐藏层变量,Ct为流向下一时刻的隐藏层变量,ht表示h时刻的隐藏层变量,xt表示t时刻的输入,bu、br、bc表示偏置,sigmod、tanh是激活函数W[u,r,c]是权重参数;
注意力机制解码部分过程如下:
在解码器解码第t个词时,需计算解码器t时刻隐藏层状态st,t-1时刻解码出的单词yt-1,t时刻编码器传入的上下文向量ct,其中解码器t时刻隐藏层状态st可由如下公式得到:
st=g(yt-1,st-1,ct)
其中t时刻传入的上下文变量ct由编码器的隐藏层变量ht和每个编码词汇与该解码词汇的翻译注意力决定,公式如下:
其中是向量类型的注意力,表示编码器第个词对解码器全部词的翻译注意力,可由如下公式得到:
其由示量类型的注意力,表示编码器第个词对解码器第t个词的翻译注意力,可由如下公式得到:
其中vT,W[s,h]为参数权重;
循环以上过程,直到解码出全部的单词,即为种子标题;
S4、将编码器-解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;
S5、依据文章年份,去除发表时间在引文上下文所在文章年份之后的文章,选取相似度符合要求的文章作为推荐列表。
2.根据权利要求1所述的一种基于神经机器翻译技术的局部引文推荐方法,其特征在于,步骤S1具体包括:
提取所有英文的引文上下文并去除无效符号,保留单词数在设定范围内的引文上下文并进行词形还原;统计词频,保留排名前设定名次的词汇,其他词汇以UNK替换,不足设定范围内的单词则扩充PAD,并根据引文上下文提取被引文章标题并进行类似的清洗操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810994562.0/1.html,转载请声明来源钻瓜专利网。