[发明专利]一种基于翻译记忆库的神经机器翻译方法在审

专利信息
申请号: 202110661294.2 申请日: 2021-06-15
公开(公告)号: CN113343717A 公开(公告)日: 2021-09-03
发明(设计)人: 杜权;杨迪 申请(专利权)人: 沈阳雅译网络技术有限公司
主分类号: G06F40/58 分类号: G06F40/58;G06N3/04;G06N3/08
代理公司: 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 代理人: 李晓光
地址: 110004 辽宁省沈阳市*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 翻译 记忆 神经 机器翻译 方法
【说明书】:

发明公开一种基于翻译记忆库的神经机器翻译方法,步骤为:从含有外文数据的网络中爬取海量双语数据;对双语数据进行预处理,得到处理后的双语数据;将一半双语数据存储为翻译记忆库基础数据,另一半使用搜索技术找到翻译记忆库中与训练语料中每个句子最相似的句子;将训练语料数据和翻译记忆库数据一起输入到神经网络模型中开始训练模型;导入用户自定义的数据到翻译记忆库中;对用户实时输入的文本搜索找到翻译记忆库中与该文本最相似的句子,输入到机器翻译模型中,在解码端使用门控机制指导模型翻译;将用户输入的句子和修订后的结果存入翻译记忆库。本发明应用先进的神经机器翻译技术,翻译效果优越,满足不同用户对翻译译文的高质量要求。

技术领域

本发明涉及一种神经机器翻译方法,具体为基于翻译记忆库的神经机器翻译方法。

背景技术

机器翻译是利用计算机将一种自然语言转换为另一种自然语言的过程。随着互联网的飞速发展,机器翻译在经济、文化交流、政治等各个方面起到越来越重要的作用,这也体现了机器翻译的实用价值。机器翻译的最大优点是速度快,只需输入一段文字即可看到结果。而现在很多软件也实现了整段文字和整篇文章的翻译,这种速度是人力所无法比拟的。

神经机器翻译(Neural Machine Translation,NMT)是一种基于深度学习的机器翻译方法,它在大规模并行语料库存在的情况下提供了最先进的翻译性能。神经机器翻译允许翻译系统的端到端训练,而不需要处理词对齐、翻译规则和复杂的解码算法,这些是统计机器翻译(SMT)系统的特征。神经机器翻译依赖于深入学习来训练翻译模型。

翻译记忆库是一个数据库,存储以前翻译过的句子、段落或文本句段。翻译记忆库中的每个条目或每个句段均包含源文及其翻译。译者首先提供一段来源文字(即要拿来被翻译的文字)给翻译记忆库,程式会先分析这段文字,试着在数据库里找寻既有的翻译区段是否与过去曾经翻译过的文字相符。如果找到相符的旧有翻译(legacy translationpairs),则会呈现出来给译者检阅。译者可以选择接受旧有的翻译、拒绝、或是加以修改。若加以修改,则修改的版本也会被记录并存进数据库里。这意味着以前翻译过的句子、段落或文本句段再也不需要重新翻译。某些翻译记忆库系统只会搜寻100%相符的文字,也就是说这只会将新的来源文字与数据库内做精确的比对,只有完全相符的资料才会被提出。也有其他的系统会使用模糊比对原理来找寻相似的区段,并且会用特别的标记呈现给译者使其易于辨认。有一点很重要的是一般的翻译记忆系统只会从其数据库里搜寻来源语言,完全无相似的文字区段将必须由译者手动的翻译,这些新翻译的文字区段会被存进数据库里,则未来的翻译将有可能因为来源文字重复出现而可以马上被采用。

发明内容

针对现有技术中翻译记忆库只能应用在重复度较高的文本上等不足,本发明要解决的技术问题是提供一种基于翻译记忆库的神经机器翻译方法,利用海量的真实语料,使用先进的神经机器翻译技术,配合翻译记忆库的信息,把重复度较低的文本进行机器翻译,达到用户对翻译结果的高质量要求。

为解决上述技术问题,本发明采用的技术方案是:

本发明提供一种基于翻译记忆库的神经机器翻译方法,包括以下步骤:

1)通过网络爬虫技术从含有外文数据的网络中爬取海量双语数据;

2)对双语数据进行清洗过滤、分词、子词切分预处理,得到处理后的双语数据;

3)将一半处理后的双语数据存储为翻译记忆库基础数据,另一半作为训练语料,使用搜索技术找到翻译记忆库中与训练语料中每个句子最相似的句子;

4)将训练语料数据和翻译记忆库数据一起输入到神经网络模型中开始训练模型至模型收敛;

5)导入用户自定义的数据到翻译记忆库中,形成更符合用户习惯的自定义翻译记忆库;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110661294.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top