[发明专利]基于领域特定子层隐变量的多领域自适应神经机器翻译方法在审
申请号: | 202210823703.9 | 申请日: | 2022-07-14 |
公开(公告)号: | CN115204196A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 余正涛;文永华;黄双宏;徐金磊 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 领域 定子 变量 自适应 神经 机器翻译 方法 | ||
本发明提出基于领域特定子层隐变量的多领域自适应神经机器翻译方法。领域适应可以有效解决特定领域翻译性能差的问题,现有方法通常依靠混合多个领域数据来获得单个通用的多领域神经机器翻译模型。然而,大规模通用领域数据与多个特定领域数据的混合会造成最终模型灾难性遗忘、域间参数干扰的问题,从而导致性能下降以及通用领域模型容量不足的矛盾。因此本发明使用Gumbel‑Softmax重新参数化技巧同时学习模型参数和隐变量,获得的模型能学习特定领域的知识,并通过隐变量共享通用领域知识。实验结果表明,在多领域神经机器翻译中,本发明在英德和中英多领域神经机器翻译中比基线模型分别平均提高了3.2和1.68BLEU值。
技术领域
本发明涉及基于领域特定子层隐变量的多领域自适应神经机器翻译方法,属于自然语言处理技术领域。
背景技术
神经机器翻译是依靠深度学习,使用端到端的方法将源语言翻译成目标语言。其中,领域神经机器翻译是重要的研究方向之一。在当前神经机器翻译模型中,翻译通用领域的效果往往较好,但在翻译一些具有不同风格或词汇的新领域文本时通常表现不佳,这被称为灾难性遗忘问题。不仅如此,可用于训练的通用领域数据量远大于特定领域数据量,这点在中英数据上表现尤为明显。为此,本发明使Transformer Base和Big模型对中英数据上的每个域进行预实验。表1中的实验结果表明通用领域比特定领域需要更多的模型参数才能达到相同的翻译性能,反映了通用领域模型容量不足和特定领域模型参数冗余之间的矛盾。此外,由于领域转移造成的模型参数干扰问题在多领域神经机器翻译方面也屡见不鲜。
表1各领域在中英数据集上的预实验结果
通用领域 论文 口语 教育 Transformer 18.68 14.38 15.22 15.43 Transformer-big 20.74 14.59 15.22 15.73
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210823703.9/2.html,转载请声明来源钻瓜专利网。