[发明专利]一种基于拼接的集成式自动译后编辑系统及方法有效
申请号: | 201710492040.6 | 申请日: | 2017-06-26 |
公开(公告)号: | CN107301174B | 公开(公告)日: | 2019-12-24 |
发明(设计)人: | 黄河燕;曹倩雯;郭宇航 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06N3/08 |
代理公司: | 11639 北京理工正阳知识产权代理事务所(普通合伙) | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 拼接 集成 自动 编辑 系统 方法 | ||
本发明公开了一种基于拼接的集成式自动译后编辑系统与方法,属于计算机自然语言处理及机器翻译技术领域。包括本系统,又包括训练模块与解码模块;本方法分为训练过程与解码过程。训练过程建立在传统的神经网络机器翻译模型基础之上,源语料用训练原文与多种机器翻译系统的译文以一定顺序在语句级别拼接后生成的训练语料做替换,输出译后编辑系统;解码过程以训练过程输出的系统、翻译原文与机器翻译译文按照相同顺序拼接生成的翻译语料作为输入,输出经过本系统校正的译后编辑译文。本发明的优势在于以较低的代价集成了翻译原文与多种机器翻译结果,既提供了完整的语义支持,也体现多种机器翻译系统的优势,从而提高了整体翻译质量。
技术领域
本发明涉及一种基于拼接的集成式自动译后编辑系统及方法,属于计算机应用、自然语言处理及机器翻译技术领域。
技术背景
近年来,随着全球化浪潮的推进,国际交流日益频繁,各行各业对翻译服务的需求都更加迫切。人工翻译的成本代价较大,且不能满足实时翻译需求,而机器翻译以其高效和便捷的优势在工业界和日常生活中逐渐被广泛地应用。一大批优秀的机器翻译产品为工业及生活提供了便利,如:谷歌翻译,百度翻译,有道翻译官等。这些翻译平台都各有所长,也有各自的局限,因此,其翻译结果有共性错误,也有个性化的错误。
译后编辑过程是为了解决这些各种类型的机器翻译错误,得到能够还原出翻译原文含义的流畅译文。现有的译后编辑方法利用神经网络机器翻译模型,善于生成流畅度较高的语句,能够在一定程度上改善机器翻译译文的语序问题,但是现有的这些方法大多只利用了一种机器翻译译文作为训练的输入语料,不仅解决的翻译错误非常有限,还难以恢复翻译原文的原始含义。现有的小部分译后编辑方法虽然加入了翻译原文或其它机器翻译译文的信息,但是需要训练单独的模块,训练代价较高。
发明内容
本发明的目的是为了解决译后编辑过程只能对共性的翻译错误进行建模,并且得到的译文不能准确还原出原始含义的问题,提出一种基于拼接的集成式自动译后编辑系统及方法。
一种基于拼接的集成式自动译后编辑系统及方法包括一种基于拼接的集成式自动译后编辑系统,称为本系统,及一种基于拼接的集成式自动译后编辑方法,简称为本方法;
其中,集成指可用多种不同源语言的组合作为译后编辑的输入,包括多种不同的机器翻译译文与翻译原文;
本系统能够使得翻译原文与多种不同的机器翻译译文在译后编辑过程中相互影响,以翻译原文验证信息量的完备性,以多种机器翻译译文验证翻译错误的完备性,提高翻译的忠实度,进而提高译后编辑结果的整体质量;
本系统包括训练模块与解码模块;
各模块的功能如下:
训练模块的功能是训练基于拼接的集成式自动译后编辑系统,即本系统基于神经网络翻译模型输出已训练模型;此已训练模型又称为译后编辑系统模型;
解码模块的功能是利用训练模块输出的译后编辑系统模型进行解码;
各模块之间的连接关系如下:
训练模块与解码模块相连,具体通过训练模块输出的已训练模型,即译后编辑系统模型相连。
为实现上述目的,本发明所采用的技术方案如下:
定义1:设置一个常数K,代表本方法中的机器翻译系统,称为 MachineTranslation系统,即MT系统,MT系统共有K个,具体记作:MT1,MT2,MT3,…,MTK;
定义2:设置一个常数N,代表本方法中用于训练模块的训练原文和参考译文的语料,训练原文语料和参考译文语料均假设有N句;
定义3:设置一个常数M,代表本方法中用于解码模块的翻译原文语料假设有M句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710492040.6/2.html,转载请声明来源钻瓜专利网。