[发明专利]一种基于拼接的集成式自动译后编辑系统及方法有效
申请号: | 201710492040.6 | 申请日: | 2017-06-26 |
公开(公告)号: | CN107301174B | 公开(公告)日: | 2019-12-24 |
发明(设计)人: | 黄河燕;曹倩雯;郭宇航 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06N3/08 |
代理公司: | 11639 北京理工正阳知识产权代理事务所(普通合伙) | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 拼接 集成 自动 编辑 系统 方法 | ||
1.一种基于拼接的集成式自动译后编辑系统,其特征在于:集成指可用多种不同源语言的组合作为译后编辑的输入,包括多种不同的机器翻译译文与翻译原文;
所述系统能够使得翻译原文与多种不同的机器翻译译文在译后编辑过程中相互影响,以翻译原文验证信息量的完备性,以多种机器翻译译文验证翻译错误的完备性,提高翻译的忠实度,进而提高译后编辑结果的整体质量;
所述系统包括训练模块与解码模块;
各模块的功能如下:
训练模块的功能是训练基于拼接的集成式自动译后编辑系统,即本系统基于神经网络翻译模型输出已训练模型;此已训练模型又称为译后编辑系统模型;
解码模块的功能是利用训练模块输出的译后编辑系统模型进行解码;
各模块之间的连接关系如下:
训练模块与解码模块相连,具体通过训练模块输出的已训练模型,即译后编辑系统模型相连;
为实现上述目的,所采用的技术方案如下:
定义1:设置一个常数K,代表机器翻译系统,称为Machine Translation系统,即MT系统,MT系统共有K个,具体记作:MT1,MT2,MT3,…,MTK;
定义2:设置一个常数N,代表用于训练模块的训练原文和参考译文的语料,训练原文语料和参考译文语料均假设有N句;
定义3:设置一个常数M,代表用于解码模块的翻译原文语料假设有M句。
2.根据权利要求1所述的一种基于拼接的集成式自动译后编辑系统所依托的编辑方法,其特征在于:所述方法包括训练模块的训练过程及解码模块的解码过程两部分,其中训练模块完成对基于拼接的集成式自动译后编辑系统的训练,输出已训练模型;解码过程利用训练过程输出的已训练模型进行解码;
训练模块的训练过程,具体为:
步骤一、搜集本系统训练过程所需要的各语料,并对其中的训练原文语料经K个MT系统进行翻译,得出K个机器翻译译文语料;
其中,各语料主要包括训练原文语料和参考译文语料;其中,训练原文语料和参考译文语料为双语平行语料;
训练原文语料,记为:{source1,source2,…,sourceN},
参考译文语料,记为{ref1,ref2,…,refN},为训练模块的目标语料;
步骤二、对步骤一中的训练原文以及步骤一输出的K个机器翻译译文语料按一定顺序进行语句级别的拼接组合,输出训练拼接语料,作为训练模块的源语料;
步骤三、用步骤二得到的训练模块的源语料与步骤一的目标语料基于神经网络翻译模型训练本系统,输出译后编辑系统模型;
至此,从步骤一到步骤三,完成了本方法中训练模块的训练过程;
步骤四、设置本系统的解码过程中需要的各语料;
其中,解码过程中需要的各语料主要包括翻译原文语料和机器翻译译文语料,机器翻译译文语料由翻译原文语料经K个MT系统翻译得到;
步骤五、对步骤四的翻译原文与其对应的K个机器翻译译文语料按照与训练过程相同的拼接顺序进行语句级别的拼接组合,输出翻译拼接语料,作为解码模块的输入;
步骤六、将步骤五输出的翻译拼接语料输入到步骤三输出的译后编辑系统模型,输出译后编辑译文;
至此,从步骤四到步骤六,完成了本方法中解码模块的解码过程;
从步骤一到步骤六,完成了一种基于拼接的集成式自动译后编辑方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710492040.6/1.html,转载请声明来源钻瓜专利网。