[发明专利]一种基于词预测的神经机器翻译方法在审
申请号: | 201710812778.6 | 申请日: | 2017-09-11 |
公开(公告)号: | CN107391501A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 黄书剑;翁荣祥;戴新宇;陈家骏;张建兵 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27;G06N3/04 |
代理公司: | 江苏圣典律师事务所32237 | 代理人: | 胡建华,于瀚文 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 预测 神经 机器翻译 方法 | ||
技术领域
本发明涉及一种基于词预测的神经机器翻译方法。
背景技术
神经机器翻译,近几年来发展十分迅速,取得了很大的进步,已成为机器翻译领域中的研究热点。
虽然神经机器翻译已经有了长足的进步,但目前的机器翻译的实用性和可用性还并不非常高,对于复杂的源语言句子的翻译结果不理想,尤其是不同语系之间的机器翻译的质量更是急需提高。而对于大型在线机器翻译系统,翻译效率至关重要。基于神经网络的结构意味着相比于传统的机器翻译系统需要消耗更大的计算资源,相对而言翻译效率则会降低。如何通过充分利用句子中已有的信息来提高翻译质量和翻译效率已成为一个重要问题。
神经机器翻译系统中,一种非常普遍的方法是基于循环神经网络的端到端神经机器翻译系统,其工作过程如下:输入待翻译的源端句子的词向量序列x,即x=(x1,x2,…,xn)。随之使用有一个循环神经网络构成的编码器将其编码为n个隐层状态h1,h2,…,hn,接着使用解码器加上注意力机制进行解码。首先生成目标端的隐层状态,设有m个,即目标端隐层状态为s1,s2,…,sm。进而通过m个目标端的隐层状态生成目标语言句子y=(y1,y2,…,ym)。目前神经机器翻译系统中,由于只是端到端对句子整体进行序列化建模,而对于具体词汇信息无法充分的利用,从而导致句子中某些词汇翻译不准确,进而可能到导致整句句子翻译错误的弱点,
发明内容
发明目的:本发明针对现有技术的不足,并且为了提高翻译系统的翻译效率,使得大型在线机器翻译系统能够快速的对用户的翻译请求进行响应,提出了一种基于词预测的神经机器翻译方法,可以提高神经机器翻译系统翻译质量和翻译效率。
本发明包括如下步骤:
步骤1,构建基于注意力机制的端到端神经机器翻译系统模型框架,并在编码端与解码端分别加入词预测的模块,之后使用大规模平行语料进行训练;
步骤2,在翻译过程中,对于待翻译的句子,通过编码端词预测机制获取相应缩小的词表,然后进行翻译。
其中,步骤1包括如下步骤:
步骤1-1,使用两个循环神经网络分别作为编码端、解码端,同时使用注意力机制搭建基础的端到端神经机器翻译系统;
步骤1-2,在基础的系统中,分别在编码端和目标端加入预测机制;
步骤1-3,使用预处理完的大规模平行语料对模型进行训练。
步骤1-1包括:
步骤1-1-1,使用一个双向循环神经网络作为翻译系统的编码端,对于源端的句子(x1,x2,…,xn),进行编码,其中x表示源端的一句句子,xn为句子x中的第n个词,句子的长度为n,从左到右的循环神经网络计算方法为:
其中为门控循环单元(Gated Recurrent Unit,GRU)函数,σ(·)为非线性变换,⊙为矩阵元素的乘积;为从左到右的神经网络模型的参数,xi为句子中第i个词,为从左到右的神经网络的第i个隐层状态;为模型计算过程中的中间变量。公式中右箭头表示为从左到右神经网络的参数以及变量。
从右到左的循环神经网络编码器计算方法如下:
其中为GRU函数,σ(·)为非线性变换,⊙为矩阵元素的乘积,tanh(·)为双曲正切函数;为从右到左的神经网络模型的参数,xi为句子x中第i个词,为从右到左的神经网络的第i个隐层状态;为模型计算过程中的中间变量。公式中左箭头表示为从右到左神经网络的参数以及变量;
最后将双向循环神经网络的对应输出进行拼接:
其中,hi为将第i个词编码成的从左到右的隐层状态和从右到左的隐层状态拼接而成的表示。最后得到一组编码表示:(h1,h2,…,hn),hn即第n个编码表示,[;]表示向量的拼接;
步骤1-1-2,使用一个循环神经网络作为翻译系统的解码端,对于目标端的句子,使用解码器进行解码:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710812778.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文本翻译方法、装置及设备
- 下一篇:一种双向多模态递归网络的图像描述方法