[发明专利]带有复制机制的神经机器翻译方法有效
申请号: | 201711441339.5 | 申请日: | 2017-12-27 |
公开(公告)号: | CN108132932B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 熊德意;邝少辉 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 冯瑞;杨慧林 |
地址: | 215104 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 带有 复制 机制 神经 机器翻译 方法 | ||
本发明涉及一种带有复制机制的神经机器翻译方法,应用在基于注意力机制且采用encoder‑decoder框架的NMT模型,包括:在原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;把原始训练语句中的源语言中需要指定翻译的源短语替换为原始训练语句中的目标语言中对应的目标短语;对上述处理过的原始训练语句进行NMT系统的训练;在待翻译的源语句中,标记出需要指定翻译的短语。上述带有复制机制的神经机器翻译方法,可以很好翻译特定的短语,如人名,地名,机构名,品牌词等,可以和任何的语料处理技术兼容,进一步提升翻译效果,不需要更改NMT系统结构,可以方便的应用在任何NMT系统上面。
技术领域
本发明涉及的神经机器翻译,特别是涉及带有复制机制的神经机器翻译方法。
背景技术
随着计算机计算能力的提高以及大数据的应用,深度学习取得进一步的应用。基于深度学习的Neural Machine Translation越来越受到人们的关注。在NMT领域中,最常用的一种翻译模型是带有注意力机制(attention-based)的encoder-decoder模型。其主要思想是将待翻译的源语句(在下文中统称为‘源语句’)经过编码器(encoder)编码成为一个向量表示,然后利用解码器(decoder)对源语句的向量表示进行解码,翻译成为其对应的译文(在下文中统称为‘目标语句’)。事实上,这种encoder-decoder框架是深度学习的核心思想,同样的,encoder-decoder框架也是NMT系统常用的一个基本架构。目前主流的NMT系统,encoder和decoder都利用RNN(recurrent neural networks),RNN在处理时序信息时有着得天独厚的优势,它能够处理任意长度的输入并将其转换成为一个固定维度的向量。
encoder-decoder框架,在构建翻译模型时,会首先根据训练语料来形成源端和目标端词表。由于计算能力限制,词表大小我们会进行限制(例如源语言词表中含有30000个单词),不在词表中的单词,我们统一用特殊符号“UNK”代替。这导致NMT的译文会出现一个严重的问题:当待翻译的源语句中含有不在词表中的单词时,在译文中会生成UNK,造成译文可读性不高,尤其是训练语料中没有出现的人名,地名,品牌词等都翻译不出来。这个问题,可以归结为“未登录词”问题。随后的论文中,提出了bpe方法,来将单词的拆分,形成子单词级别的词表,这种方法可以保证所有的单词都可以出现在词表中,避免译文中生成UNK。
传统技术存在以下技术问题:
虽然译文中UNK不会出现,但是NMT系统在基于源语句生成目标语言语句时,是单词级别的生成,是一个单词接着一个单词生成。这种生成模式,在翻译既定短语时候,会导致生成译文的不一致。例如,我们在翻译一些专有名词如“世贸组织”,“小儿麻痹症”,人名如“金泽一郎”,电商领域的品牌词如“施华洛世奇”,NMT系统给出的译文,往往和人民认可的译文不一致。比如在电商领域,品牌词翻译错误,是商家坚决不能接受的。这也是NMT系统需要解决的一个重要问题。
发明内容
鉴于NMT系统不能很好地翻译特定单词,短语,品牌词等,为了解决这一问题,我们提出了一个带有复制机制的神经机器翻译方法,这个方法可以应用在任何NMT结构上,实现指定单词和短语的复制。比如当一文中出现品牌词“施华洛世奇”时,我们的方法能够将“施华洛世奇”的译文“Swarovski”完整的复制到NMT生成的译文中,保证翻译的一致性和准确性。同时我们的方法完全独立于NMT系统,可以应用在任何结构的NMT模型上面。
一种带有复制机制的神经机器翻译方法,应用在基于注意力机制且采用encoder-decoder框架的NMT模型,包括:
在原始训练语句的源语言和目标语言中,标记出需要指定翻译的源短语和对应的目标短语;
把原始训练语句中的源语言中需要指定翻译的源短语替换为原始训练语句中的目标语言中对应的目标短语;
对上述处理过的原始训练语句进行NMT系统的训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711441339.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本语义匹配的方法及装置
- 下一篇:一种跨语言分析报告的生成方法