[发明专利]译文后编辑方法、装置、电子设备和存储介质在审

专利信息
申请号: 202011186869.1 申请日: 2020-10-29
公开(公告)号: CN112287696A 公开(公告)日: 2021-01-29
发明(设计)人: 张睦 申请(专利权)人: 语联网(武汉)信息技术有限公司
主分类号: G06F40/58 分类号: G06F40/58;G06F40/166
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 程琛
地址: 430206 湖北省武汉市东湖新技术开*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 译文 编辑 方法 装置 电子设备 存储 介质
【说明书】:

发明实施例提供一种译文后编辑方法和装置,其中方法包括:确定待编辑的机器翻译译文文本;将机器翻译译文文本及其对应的原文文本输入至后编辑模型,得到后编辑模型输出的后编辑译文文本;其中,后编辑模型是基于样本微调原文文本及其样本微调后编辑译文文本,以及样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到的;预训练后编辑模型是基于样本预训练原文文本及其样本预训练后编辑译文文本,以及样本预训练原文文本的模拟译文文本训练得到的。本发明实施例提供的方法和装置,通过预训练加微调的方式,以及错误模拟以合成译文数据的方式,提高了后编辑模型的训练效率和训练效果,提高了后编辑的准确性。

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种译文后编辑方法、装置、电子设备和存储介质。

背景技术

后编辑是指给定待翻译的原文,调取其对应的机器翻译结果,然后译员在此基础上进行修改和润色,进而提升翻译的质量。其中,机器翻译结果可以为译员提供一个翻译结果作为参考,以免译员从头开始进行翻译,从而减少译员的工作负担。

在实际工作中,当机器翻译结果与期望的翻译结果差距较大时,后编辑模式会导致译员需要做很多修改编辑,反而进一步增加了译员的工作负担。例如,当机器翻译模型处理一些资源有限且面向某些专业领域的待翻译原文时,效果较差,得出的机器翻译结果也与正确翻译结果相差较远。或者机器翻译模型对于实体词,如人名、地名或机构名等,或是对数词进行了错误翻译时,得出的机器翻译结果准确性也欠佳。又或者机器翻译模型无法合理的处理长句子的翻译时,同样会造成机器翻译结果准确性不足,需要大量的后编辑工作。因此,自动后编辑模型在当前的辅助翻译中扮演着越来越重要的角色。该后编辑模型可以基于输入的待翻译原文和机器翻译的译文,对机器翻译的译文自动进行后编辑,实现译文错误的更正,并输出后编辑的译文,通过更进一步减少输出的译文与译员所期望的译文之间的差距,进一步减少了译员的工作量。

然而,现有的后编辑模型训练方法,需要数量众多的三元平行语料,即原文、机器翻译译文,和后编辑译文组成的三元组。而这些三元组训练数据较难获取且需要大量的人工标注成本,导致后编辑模型的训练效果欠佳、训练效率不高,进而造成译文后编辑的准确性欠佳。

发明内容

本发明实施例提供一种译文后编辑方法、装置、电子设备和存储介质,用以解决现有技术中后编辑模型训练效果欠佳、训练效率不高,译文后编辑的准确性欠佳的缺陷。

本发明实施例提供一种译文后编辑方法,包括:

确定待编辑的机器翻译译文文本;

将所述机器翻译译文文本及其对应的原文文本输入至后编辑模型,得到所述后编辑模型输出的后编辑译文文本;

其中,所述后编辑模型是基于样本微调原文文本及其样本微调后编辑译文文本,以及所述样本微调原文文本的样本机器翻译译文文本,对预训练后编辑模型进行微调后得到的;

所述预训练后编辑模型是基于样本预训练原文文本及其样本预训练后编辑译文文本,以及所述样本预训练原文文本的模拟译文文本训练得到的。

根据本发明一个实施例的译文后编辑方法,所述样本机器翻译译文文本对应长句翻译错误、实体名翻译错误以及领域翻译错误中的至少一种错误类型。

根据本发明一个实施例的译文后编辑方法,所述样本机器翻译译文文本是基于以下至少一种方式确定的:

应用第一机器翻译模型对所述样本微调原文文本进行翻译,得到长句翻译错误类型的样本机器翻译译文文本;所述第一机器翻译模型是基于第一样本翻译原文文本及其第一样本翻译译文文本训练得到的,所述样本微调原文文本为长句,所述第一样本翻译原文文本为短句;

对所述样本微调后编辑译文文本中的实体名进行随机修改,得到实体名翻译错误类型的样本机器翻译译文文本;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011186869.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top