[发明专利]一种基于翻译模板的神经机器翻译方法有效
| 申请号: | 202110796282.0 | 申请日: | 2021-07-14 |
| 公开(公告)号: | CN113408307B | 公开(公告)日: | 2022-06-14 |
| 发明(设计)人: | 冯冲;尚伟 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/47;G06F40/44;G06F16/33;G06N3/04;G06N3/08 |
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 翻译 模板 神经 机器翻译 方法 | ||
本发明涉及一种基于翻译模板的神经机器翻译方法,属于自然语言处理中的机器翻译技术领域。本方法通过引入匹配到的高相似翻译模板,引导和约束模型的解码过程,从而提高了译文质量。首先,构建翻译模板库和对应的模板匹配算法。然后,构建基于模板的神经机器翻译模型。之后,利用两阶段的训练策略将翻译模板引入模型中,并不断迭代更新构建的模型参数,指导训练过程。最后,利用训练完成的神经机器翻译模型,对匹配到高相似翻译模板的句子进行分别翻译。对比现有技术,本方法简化了翻译模板的构建过程,更专注于提高部分能匹配到高相似翻译模板的句子,而不是全部语句的翻译效果,利用匹配到的高相似的翻译模板提高了译文质量。
技术领域
本发明涉及一种在神经机器翻译中构建翻译模板库,并且将翻译模板引入神经机器翻译优化器对应翻译性能的技术,具体涉及一种基于翻译模板的神经机器翻译方法,属于自然语言处理中的机器翻译技术领域。
背景技术
目前,神经机器翻译由于在多种自然语言上相比传统的统计机器翻译更加优越,在工业领域、各大公司如谷歌、有道、百度等,都已成功部署以神经机器翻译为基础的翻译服务。这些方便快捷的翻译服务被人们广泛使用。
但是,神经机器翻译主要是通过双语平行语料数据的训练来获得源语言和目标语言的语言特征知识以及两者之间的对应关系,因此,神经机器翻译对训练数据具有很大的依赖性。当训练语料数据中不包括某些特征信息或者仅包含较少的特征信息,模型将很难学习到其对应的知识,从而导致模型不能捕获到这部分信息。在对包含该部分知识的待翻译句子进行翻译时,神经机器翻译会产生质量较差的译文。
在计算机辅助翻译场景中,人类译员接收由机器翻译模型生成的翻译,首先会查看翻译是否存在错误并进行必要的纠正,然后对翻译错误进行译后编辑以确保最终的翻译质量。衡量审阅和译后编辑时间,是量化人类译员工作量的最直接有效的方法。当使用传统的神经机器翻译方法时,人类译员不了解译文质量,这意味人类译员必须要花费同等的工作量来审阅每个译文。在这种情况下,只研究如何提高整个测试集的翻译性能,仅仅可以减少译后编辑时间。
在现实场景中,存在很多已有的翻译知识,如固定的翻译句式、固有的翻译搭配以及专业领域的双语词典。这些经过人类语言专家的归纳总结的翻译知识是完全正确的,人类译员可以直接使用这些固定的翻译知识来辅助翻译工作。因此,利用外部知识提高机器翻译模型的译文质量具有很高的研究价值。总体来说,大部分研究工作主要集中在利用双语词典以及双语翻译实例进行解码约束或者进行数据增强,但是针对将翻译模板作为外部知识融入神经机器翻译中的研究相对较少。翻译模板保留了句子的句法结构信息以及部分目标词。在知识粒度方面,模板介于翻译规则和翻译实例之间。相比于翻译实例,翻译模板具有更高的抽象度,从而具有更高的匹配率。相比于翻译规则,翻译模板包含更多的词汇信息。
综上所述,如果能够构建适用于神经机器翻译的高质量翻译模板库,并将翻译模板知识引入到神经机器翻译中,则可以获得高质量的译文。
但是,目前尚未见到针对将翻译模板引入神经机器翻译较为完善的机器翻译系统或相关技术公开。
发明内容
本发明的目的是为了解决现有的机器翻译系统受限于语料库规模以及质量,导致产生的译文质量差的技术问题,创造性地提出一种基于翻译模板的神经机器翻译方法。本方法通过引入匹配到的高相似翻译模板,引导和约束模型的解码过程,从而提高了译文质量。
本发明的创新点在于:首先,构建翻译模板库和对应的模板匹配算法。然后,构建基于模板的神经机器翻译模型。之后,利用两阶段的训练策略将翻译模板引入模型中,并不断迭代更新构建的模型参数,指导训练过程。最后,利用训练完成的神经机器翻译模型,对匹配到高相似翻译模板的句子进行分别翻译。
为实现上述目的,本发明采用以下技术方案。
一种基于翻译模板的神经机器翻译方法,包括以下步骤:
步骤1:基于最长名词短语的翻译模板构建方法,构建翻译模板库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110796282.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多峰频谱中矢量拟合的方法
- 下一篇:平板拖把挤水方法





