[发明专利]一种基于神经机器翻译技术的局部引文推荐方法及系统有效
申请号: | 201810994562.0 | 申请日: | 2018-08-27 |
公开(公告)号: | CN109145190B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 赵姝;王鑫;刘洋;陈洁;段震;张燕平 | 申请(专利权)人: | 安徽大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F40/216;G06F40/58 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 张景云 |
地址: | 230000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经 机器翻译 技术 局部 引文 推荐 方法 系统 | ||
本发明公开基于神经机器翻译技术的局部引文推荐方法及系统,对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;将编码器‑解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;依据文章年份,选取符合要求的文章作为推荐列表。
技术领域
本发明涉及一种信息检索技术领域,尤其涉及一种基于神经机器翻译的局部引文推荐方法及系统。
背景技术
随着互联网技术的快速发展,每年都会出版大量新的科研文章,如何从海量文献中快速查找出自己需要的文献成了一大难度。局部引文推荐可以帮助在给定一段上下文的前提下,快速构建在语义和内容上智能模型,帮助你快速从海量文献中找到与你的研究领域相关的可供借鉴的文献或者直接为您推荐可供引用的文献,这为你在科研工作中节省了大量寻找相关文献的时间。局部引文推荐在科研工作中起到了不可忽视的作用。
近年来,许多科研工作者对此展开了研究。大体分为两类,一是全局引文推荐,即为独立的文章推荐引文;二是为文章中一段上下文文本推荐引文。所使用研究方法一般有基于文本相似度的方法、基于主题模型的方法、基于翻译模型的方法、基于协同过滤的方法、基于深度学习的方法以及一些其他方法。
神经机器翻译是2014年由谷歌提出的一套编码器-解码器框架,在机器翻译问题上取得了长足的进展。
发明内容
本发明要解决的技术问题为提供一种基于神经机器翻译技术的局部引文推荐方法,来提高引文上下文和引文文章标题的翻译准确性。
一种基于神经机器翻译技术的局部引文推荐方法,包括以下步骤:
S1、对原始数据集进行引文提取、词形还原、词频统计数据清洗操作,得到引文上下文与被引文章标题的平行语料并构建初始待被引文章列表库;
S2、通过词向量模型中的跳字模型结合负采样的方法将引文上下文与被引文章标题中出现的词嵌入到低维语义空间得到词向量,通过一个嵌入空间使得语义上相似的单词在该空间内距离更近;
S3、基于神经机器翻译技术,构建一个带有注意力机制的双向门控循环单元的编码器和门控循环单元的解码器框架,将平行语料中的引文上下文通过词向量模型转换为词向量后作为模型的输入,被引文章标题作为输出来训练模型;
S4、将编码器-解码器框架输出的种子标题与待被引文章列表中的所有文章标题逐条进行余弦相似度计算;
S5、依据文章年份,去除发表时间在引文上下文所在文章年份之后的文章,选取相似度符合要求的文章作为推荐列表。
作为上述技术方案的优选方案,步骤S1具体包括:
提取所有英文的引文上下文并去除无效符号,保留单词数在设定范围内的引文上下文并进行词形还原;统计词频,保留排名前设定名次的词汇,其他词汇以UNK替换,不足设定范围内的单词则扩充PAD,并根据引文上下文提取被引文章标题并进行类似的清洗操作。
作为上述技术方案的优选方案,步骤S2具体包括:
S21、根据词窗口大小将句子划分成多个输入词与输出词相对的形式;
S22、将所有的词转换为相当于词表大小的0-1向量;
S23、构建神经网络,包含一个输入层,隐藏层,输出层;
S24、在跳字模型中加入负采样反向传递误差,词嵌入矩阵处的权重矩阵就是最后得出的词向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810994562.0/2.html,转载请声明来源钻瓜专利网。