[发明专利]一种机器翻译引擎的构建方法、装置和设备在审
| 申请号: | 202010187479.X | 申请日: | 2020-03-17 |
| 公开(公告)号: | CN113408257A | 公开(公告)日: | 2021-09-17 |
| 发明(设计)人: | 程善伯;于恒;骆卫华 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 北京思格颂知识产权代理有限公司 11635 | 代理人: | 王申 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 机器翻译 引擎 构建 方法 装置 设备 | ||
本发明公开一种机器翻译引擎的构建方法、装置和设备。其中,该方法包括:基于源端单语样本对语言模型进行训练得到源端语言模型和基于目标端单语样本对语言模型进行训练得到目标端语言模型,从而分别完成针对源端语言模型和目标端语言模型多任务训练学习,且通过语言模型强大的学习能力,结合单语样本中上下文知识,把大量的无标注的自然语言文本利用起来。然后分别将基础翻译模型的编码器与源端语言模型融合为机器翻译引擎的编码器,将基础翻译模型的解码器与目标端语言模型融合为机器翻译引擎的解码器,使得在垂直领域中大量的单语数据应用到翻译模型之中,不仅使大量的单语数据得到了有效的利用,而且强化了机器翻译引擎的编码器和解码器。
技术领域
本发明涉及机器翻译技术领域,特别涉及一种机器翻译引擎的构建方法、装置和设备。
背景技术
随着计算机计算能力的提升和多语言信息的爆发式增长,机器翻译在如今的翻译领域扮演着重要角色,实时为普通用户提供着便捷的翻译服务。现有的机器翻译(尤其是神经机器翻译)方法是通过大量的平行双语句对来进行模型训练的,且机器翻译训练所需要的双语数据一般都在千万级别。
垂直领域也可以称为细分领域,是指对产业做进一步纵向细分而成的领域,例如:汽车领域相对于机械领域而言是进一步细分的垂直领域,而SUV汽车领域相对于汽车领域而言是又进一步细分的垂直领域。然而在垂直领域中通过人工翻译获取的平行双语句对很少,难以获得大量高质量的平行双语句对,也就不足以训练出满足需要的翻译模型。
现有的在垂直领域中构建翻译模型方法是:首先使用现有的平行双语句对(粒度粗的语料)进行训练得到基础翻译模型;再使用机器翻译得到伪平行语料,将一端是细分语料一端是伪语料组成的平行双语句对(粒度细的语料)输入到基础翻译模型中进行训练,得到最终的翻译模型。
通过现有方式得到的上述翻译模型,因为伪语料是利用Back translation(回译也被称作“逆译”、“返译”等,是相对顺译(forward translation)而言的,是一种利用反向翻译引擎生成伪平行语料的技术)生成的,并不是真正由人工翻译得到的“真正的”语料,因此准确性无法保证,容易造成翻译模型的性能低,且在对垂直领域进行翻译时翻译结果往往不能达到人们的期望。
发明内容
鉴于现有技术中存在的技术缺陷和技术弊端,本发明实施例提供克服上述问题或者至少部分地解决上述问题的一种机器翻译引擎的构建方法、装置和设备。
作为本发明实施例的第一方面,涉及一种机器翻译引擎的构建方法,可以包括:
基于双语句对样本对神经网络翻译模型的编码器和解码器进行训练得到基础翻译模型;
基于源端单语样本对语言模型进行训练得到源端语言模型,基于目标端单语样本对语言模型进行训练得到目标端语言模型;
将所述基础翻译模型的编码器与所述源端语言模型融合为所述机器翻译引擎的编码器,将所述基础翻译模型的解码器与所述目标端语言模型融合为所述机器翻译引擎的解码器。
可选的,所述将所述基础翻译模型的编码器与所述源端语言模型融合为所述机器翻译引擎的编码器包括:
基于所述基础翻译模型的编码器与所述源端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。
可选的,所述将所述基础翻译模型的解码器与所述目标端语言模型融合为所述机器翻译引擎的解码器包括:
基于所述基础翻译模型的解码器与所述目标端语言模型之间的具有相同功能的模型参数和模型节点进行所述融合。
作为本发明实施例的第二方面,涉及第二种机器翻译引擎的构建方法,可以包括:
基于双语句对样本对神经网络翻译模型的编码器和解码器进行训练得到基础翻译模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010187479.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:GPF再生优化方法及GPF再生机会评估系统
- 下一篇:一种风口结构





