[发明专利]一种基于层次结构的神经网络机器翻译模型在审
申请号: | 201710257328.5 | 申请日: | 2017-04-19 |
公开(公告)号: | CN107423290A | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 苏劲松;曾嘉莉;尹永竞 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06N3/02 |
代理公司: | 厦门南强之路专利事务所(普通合伙)35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层次 结构 神经网络 机器翻译 模型 | ||
技术领域
本发明涉及基于深度学习的自然语言处理,尤其是涉及一种基于层次结构的神经网络机器翻译模型。
背景技术
自然语言处理是计算机学科人工智能的一个重要研究方向。它研究如何使得人与计算机之间能够使用自然语言进行有效通信。它是一门融语言学、计算机科学、数学于一体的学科。其中,神经机器翻译是一个很重要的任务。现有的神经网络机器翻译主要包含两个循环神经网络和一个基于注意机制的上下文语义生成模型:使用一个循环神经网络(称为编码器Encoder)来学习输入句子的语义表示,使用另外一个循环神经网络(称为解码器Decoder)结合基于注意机制生成的上下文语义表示来生成译文。具体的结构框架如图1。
本项发明主要涉及到建立一种基于层次结构的神经网络机器翻译模型。近年来,神经机器翻译引起了学术界和工业界广泛的关注,在规模受限词语表[1][2]、注意机制[3][4]、神经机器翻译和传统统计机器翻译的结合[5][6]、语言学知识引入[7]、单语语料使用[9]、多语言神经机器翻译[10]、变分神经机器翻译[11]神经机器翻译模型和训练[12]和模型压缩[13]等方面都有相应的研究发展。
由于以循环神经网络为基础,因此神经网络机器翻译模型面临着两个问题:1)梯度爆炸和梯度消失问题。虽然现有的变种模型能一定程度上解决该类问题,但在长序列进行建模时,长距离上下文信息的建模仍较为困难;2)注意机制计算量较大,并存在对齐发散的问题。在长序列建模时无法准确计算相关的上下文语义表示。因此,现有的基于注意机制的循环神经机器翻译模型仍然存在着不足,如何对长句子序列进行更好的翻译仍是一个值得研究的问题。
参考文献
[1]Jean S,Cho K,Memisevic R,et al.On Using Very Large Target Vocabulary for Neural Machine Translation[C].ACL,2015.
[2]Luong M T,Sutskever I,Le Q V,et al.Addressing the Rare Word Problem in Neural Machine Translation[C].ACL,2015.
[3]Tu Z,Lu Z,Liu Y,et al.Modeling Coverage for Neural Machine Translation[C].ACL,2016.
[4]Cohn T,Cong D V H,Vymolova E,et al.Incorporating Structural Alignment Biases into an Attentional Neural Translation Model[C].NAACL,2016.
[5]He W,He Z,Wu H,et al.Improved Neural Machine Translation with SMT Features[C].AAAI,2016.
[6]Eriguchi A,Hashimoto K,Tsuruoka Y.Tree-to-Sequence Attentional Neural Machine Translation[C].ACL,2016.
[7]Sennrich R,Haddow B,Birch A.Improving Neural Machine Translation Models with Monolingual Data[C].ACL,2016.
[8]Dong D,Wu H,He W,et al.Multi-task learning for multiple language translation[C].ACL,2015.
[9]Zhang B,Xiong D,Su J,et al.Variational Neural Machine Translation[C].EMNLP,2016.
[10]Wang M,Lu Z,Li H,et al.Memory-enhanced Decoder for Neural Machine Translation[C].EMNLP,2016.
[11]Shen S,Cheng Y,He Z,et al.Minimum Risk Training for Neural Machine Translation[C].ACL,2016.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710257328.5/2.html,转载请声明来源钻瓜专利网。