[发明专利]一种基于词与词素混合模型的维汉机器翻译系统在审
申请号: | 202011128812.6 | 申请日: | 2020-10-20 |
公开(公告)号: | CN112183080A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 艾斯卡尔·艾木都拉;伊克萨尼·普尔凯提;李斌 | 申请(专利权)人: | 新疆大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/242;G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 北京方圆嘉禾知识产权代理有限公司 11385 | 代理人: | 程华 |
地址: | 830046 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词素 混合 模型 机器翻译 系统 | ||
本发明公开了一种基于词与词素混合模型的维汉机器翻译系统,所述系统包括编码器、词+词素混合模型和解码单元,所述混合粒度编码器主要以词为翻译单元,但对一些低频词以词素为翻译单元;所述词+词素混合模型对编码器的词进行处理时使用基于词的NMT进行处理,在对对编码器的词素,利用深度LTSM单独在词素层面处理。本发明能从翻译粒度方面出发,对词素和词两个不同粒度的翻译单元进行混合处理,将其作为神经网络机器翻译的混合翻译单元。同时针对词和词素的混合情况提出词+词素混合模型可以在词素层面处理集外词,提高神经网络机器翻译的性能。
技术领域
本发明属于翻译技术领域,涉及一种基于词与词素混合模型的维汉机器翻译系统。
背景技术
神经网络翻译模型(neural machine translation model,NMT)是目前机器翻译中的主流模型,其通过神经网络实现一个端到端(end-to-end)的源语言和目标语言之间的翻译过程。其具体实现方式为通过一个编码器(encoder)对源语言进行一次向量编码,通过解码器(decoder)将向量编码解码成目标语言。同时注意力机制(attention)的引入给神经网络机器翻译的性能带来了一个质的提升。目前国际上顶级机器翻译比赛WMT中,神经网络翻译模型得到了广泛的应用。
目前,由于维汉相关翻译语料库的匮乏以及维吾尔语本身形态结构的复杂性,导致神经网络翻译模型在维汉机器翻译中的研究相比与英汉机器翻译中研究存在一定程度的滞后。其原因为英汉的语料规模在亿级的层次,而维汉语料仅仅在几十万级的层次。神经网络机器翻译模型的参数量多,语料匮乏的情况下会导致翻译效果达不到目标结果。同时维吾尔语属于黏着语,是一种形态变化丰富的语言。理论上有无限词表,并且神经网络翻译模型中词表的大小的限制也会产生OOV问题。
近年来也有学者不断对维汉机器翻译作出自己的贡献,从不同的角度对维汉机器翻译进行研究与发展。其中哈里旦木等人(2017)利用不同的神经网络机器翻译方法对维汉机器翻译进行对比分析,对维-汉机器翻译研究的工作有非常好的参考意义。张金超等人(2017)提出基于多编码器多解码器的大规模维汉神经网络机器翻译模型,在翻译粒度层面维吾尔语使用字节对编码,汉语端使用字单元,得到一个很好的翻译系统。张胜刚等人(2019)提出翻译单元上将基于词的翻译单元替换为基于词和亚词的混合翻译单元,从而提高翻译质量。对黏着语言机器翻译有一定的参考价值。张文等人(2018)提出的基于简单循环单元的深层神经网络机器翻译模型,利用简单循环网络(simple recurrent unit,SRU)代替传统的基于门控循环单元(gated recurrent unit,GRU),有效的解决模型在训练的过程中由于梯度消失从而导致翻译性能下降的情况。
发明内容
本发明的目的在于提供一种基于词与词素混合模型的维汉机器翻译系统,对不同形态的维文进行维汉机器翻译试验,从中得到最适合维汉机器翻译的维文形态。针对维文的组成形式,我们利用词与词素作为维汉机器翻译中的翻译单元。从翻译粒度方面和模型方面对神经网络翻译模型进行一定优化,提出了混合词素与词的维汉神经网络机器翻译。其效果在一定程度上可以解决由于维吾尔语的黏着语特性而导致的翻译性能低下的问题。
其技术方案如下:
一种基于词与词素混合模型的维汉机器翻译系统,包括混合粒度编码器、词+词素混合模型和解码单元,所述混合粒度编码器主要以词为翻译单元,但对一些低频词以词素为翻译单元;所述词+词素混合模型对编码器的词进行处理时使用基于词的NMT进行处理,在对编码器的词素进行处理时,利用深度LTSM单独在词素层面处理低频词。进一步,解码单元是汉语词级为解码单元,因此损失函数还是常规的交叉熵损失函数,如式(1)所示。
J=∑(x,y)∈D-logp(y|x) (1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011128812.6/2.html,转载请声明来源钻瓜专利网。