[发明专利]一种基于词袋多目标学习的后缀翻译方法有效
申请号: | 202010063184.1 | 申请日: | 2020-01-20 |
公开(公告)号: | CN111274827B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 张学强;董晓飞;曹峰;石霖;孙明俊 | 申请(专利权)人: | 南京新一代人工智能研究院有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/295;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
地址: | 210046 江苏省南京市栖霞*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多目标 学习 后缀 翻译 方法 | ||
本发明公开一种基于词袋多目标学习的后缀翻译方法,它通过后缀方法和词袋方法的融合将预翻译或查词典得到低频词的目标译文输入到神经网络翻译模型中进行有效学习,达到同时学习低频词翻译和文本翻译的目的。本发明的翻译方法,以后缀的形式将其置于句末,在给定翻译提示的前提下保持原有双语句对的通顺流畅;与此同时,将目标译文置于词袋能够在允许低频词译文换序的前提下进行子目标学习。本发明将后缀和词袋的两种方法的优势结合起来,以达到针对低频词进行增强学习的目的。其中,后缀方法能够以软机制的形式将低频词目标译文作为交互提示输入给翻译模型,词袋方法则通过子任务学习,对输出译文中不含有提示信息的部分进行有效惩罚。
技术领域
本发明涉及机器翻译领域,特别面向神经机器翻译系统中的领域术语、专有名词和命名实体等低频词转换任务。通过将低频词目标译文置于句末作为交互翻译提示,再用词袋模型对其设定子学习目标两个增强学习阶段,从而提升低频词乃至全句的译文质量。
背景技术
目前主流的基于语料库的机器翻译方法的核心思想是从大规模语料库中学习双语转换知识,导致在语料库中频次较低甚至从未出现的领域术语、专有名词和命名实体等低频词难以得到有效翻译。除此之外,由于上述低频词对应的目标译文通常固定单一,进一步加大了统计模型对低频词的翻译困难。尤其在当前性能最优的神经机器翻译方法中词表受限、建模过程依赖向量表征,低频词翻译问题愈发受到学术界和工业界的重视。
机器翻译成为不同语言种族群体相互交流通信面临的一个重要研究课题。低频词翻译效果的优劣,直接影响到机器翻译技术和应用能否顺利走向实用化、产业化。传统的低频词处理方法主要存在两种形式:第一,以字节对编码(BPE) 为代表的子词切分方法,通过将词进一步切分为子词,以达到减少建模单元的目的。第二,将低频词转换为通配符,翻译后再用目标低频词置换通配符,形成最终完整译文。前者难以限定低频词翻译译文,不利于领域定制和优化;后者破坏了原始双语句对,导致目标译文不够通顺流畅。
纵观机器翻译的发展史,从基于规则的机器翻译到基于统计的机器翻译,再到基于深度学习的机器翻译,低频词翻译始终是一个亟待解决的问题。正如前文所述,对低频词的处理衍生出两大类别:一是以子词切分为基础,通过对大规模语料中子词的出现频率进行计数来生成粒度更小的子词单元,该类别的典型方法是字节对编码(BPE)。二是从替换角度出发,采用通配符表示句中的名词或名词短语后再进行翻译,译文后编辑过程中再用目标低频词置换特殊标识,该类别的典型方法是通配符替换翻译法。
基于子词的低频词翻译方法:该类方法以计数模型为基础,在神经机器翻译限定词表大小的前提下,选择频率较高的N个词、子词或字作为建模单元。其余词或短语采用上述建模单元进行组合表示。主要存在以下两种典型方法:
方法一:字模型建模
字模型是一种以字为建模单元的模型。在自然语言中,越是上层的单元越是具有丰富多样的表达形式,越是底层的单元则形式相对单一。如同数学中点动成线、线动成面、面动成体,自然语言中字构成词、词构成短语、短语构成句子。据统计,汉字的总数虽然超过8万,但常用的汉字大约只有3500个,且足以组合出成千上万个词或短语。因此,该方法常用于严格限制建模单元数量的机器翻译领域。在端到端神经机器翻译中,其效果整体优于以词为单位的建模方式,一度得到广泛的应用。
方法二:字节对编码
字节对编码是Gage等人于1994年提出的一种数据压缩方法,其主旨思想是递归地采用一个单一的、未使用过的字节来表示句子序列中共现频次最高的字节对。类似地,将该方法应用在中文子词切分中的做法就是将中文句子中共现频次较高的前N对汉字作为建模单元。例如,对于“机器人”一词而言,“机”和“器”通常在大规模语料库中共现的频次较高,而“机”、“器”和“人”三个字同时共现的频次可能相对较低。此时,字节对编码方法就会将“机器人”切分为子词“机器”和“人”,分别作为两个不同的建模单元。在端到端神经机器翻译中,这种字词联合建模方式的效果通常优于单一的以字或词为单元的建模方式。
基于替换的低频词翻译方法:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京新一代人工智能研究院有限公司,未经南京新一代人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010063184.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:对疑似词进行处理的方法和装置
- 下一篇:一种仿真培训业务数据的处理方法及系统