[发明专利]基于枢轴的汉越联合训练神经机器翻译方法有效
申请号: | 202011020199.6 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112257460B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 高盛祥;张磊;余正涛;王振晗;朱俊国;刘畅 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/295;G06F40/284;G06F40/205;G06F16/951 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 枢轴 联合 训练 神经 机器翻译 方法 | ||
本发明涉及基于枢轴的汉越联合训练神经机器翻译方法,属于自然语言处理技术领域。本发明包括步骤:所述方法首先利用汉越平行语料训练翻译模型得到汉语和越南语的词向量表征;其次以英语作为枢轴语言对汉语‑英语,英语‑越南语翻译模型进行联合训练,再将汉语‑英语、英语‑越南语翻译模型的汉语、越南语的向量表示与汉越模型得到的汉语、越南语的向量表示计算优化从而进行汉越联合训练。本发明将汉越平行语料与汉英,英越平行语料结合起来进行联合训练,充分利用了英语枢轴语料提升了汉越机器翻译性能,从而解决了汉越平行语料缺失导致翻译模型性能不佳的问题。
技术领域
本发明涉及基于枢轴的汉越联合训练神经机器翻译方法,属于自然语言处理技术领域。
背景技术
机器翻译是用来进行大规模语言翻译的有效工具近年来,中国与越南的交流与合作越来越密切,而机器翻译是跨语言信息交流较为有效的方式,因此研究汉越机器翻译有着非常重要的应用价值。
神经机器翻译是2014年提出的一种机器翻译方法,目前主流的神经机器翻译模型都采用编码器-解码器的架构。神经机器翻译在拥有大规模平行语料的语言对上已经取得了良好的翻译性能,但在低资源的场景下,神经机器翻译的翻译质量低于统计机器翻译。所以在汉越这种低资源语言对上,它受到汉越平行语料库的规模与质量的影响,导致汉越机器翻译性能不佳。
为了缓解汉越机器翻译面临的资源稀缺问题,目前解决思路侧重于利用枢轴语言来改善低资源机器翻译的性能。其主要方法分成以下三类:第一类是将源语言数据通过枢轴语言的加入,间接地通过两步翻译生成源语言-目标语言的平行语料能;第二类是通过枢轴语言间接的训练源语言-目标语言的机器翻译模型。为减小利用枢轴语言翻译过程中的翻译误差提出了利用源-枢轴语言和枢轴-目标语言的平行语料的三种预训练方法从而,提升了低资源的神经机器翻译性能;第三类是使用枢轴语料进行联合训练。
以上方法训练所得到的神经机器翻译模型均能提升低资源下的机器翻译任务性能,但是采用枢轴语言进行机器翻译训练过程中,源语言-枢轴语言,枢轴语言-目标语言的模型训练过程中会因为多语言输入而产生噪声。汉越神经机器翻译是一种典型的低资源场景下的神经机器翻译,其训练语料稀缺,但是却存在大量汉英,英越平行语料,所以汉越神经机器翻译适用于枢轴的方法。为了提升汉越神经机器翻译性能并且利用到小规模的汉越平行语料,我们提出了基于枢轴的汉越联合训练神经机器翻译,其基本思想是,先使用小规模的汉越平行语料训练神经机器翻译模型来得到汉越词语在语义空间上的表示信息,再将其与英语作为枢轴语言的汉语-英语,英语-越南语翻译模型进行联合训练。在联合训练中汉语-英语,英语-越南语翻译模型的汉语,越南语的向量表示与汉越模型得到的汉语,越南语的向量表示计算优化,提升低资源场景下汉越机器翻译的效果。
发明内容
本发明提供了基于枢轴的汉越联合训练神经机器翻译方法,以用于解决明在低资源的场景下神经机器翻译的翻译质量低于统计机器翻译问题;解决了在汉越这种低资源语言对上,受到汉越平行语料库的规模与质量的影响,导致汉越机器翻译性能不佳的问题。
本发明的技术方案是:基于枢轴的汉越联合训练神经机器翻译方法,所述方法首先利用汉越平行语料训练翻译模型得到汉语和越南语的词向量表征;其次以英语作为枢轴语言对汉语-英语,英语-越南语翻译模型进行联合训练,再将汉语-英语、英语-越南语翻译模型的汉语、越南语的向量表示与汉越模型得到的汉语、越南语的向量表示计算优化从而进行汉越联合训练。
作为本发明的优选方案,所述方法的具体步骤如下:
Step1、获取汉、英、越单语语料,再经过过滤、去噪音、去除停用词、命名实体识别和标注、分词预处理后,分别构建汉英平行语料、英越平行语料和汉越平行语料;
Step2、基于枢轴的神经机器翻译,融入注意力机制的神经机器翻译先将源语言句子编码为向量序列,然后在解码生成目标语言;利用存在的源语言-枢轴语言和枢轴语言-目标语言的平行语料库,分别训练源语言到枢轴语言和枢轴语言到目标语言的翻译模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011020199.6/2.html,转载请声明来源钻瓜专利网。