[发明专利]一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训练系统有效

专利信息
申请号: 202010386920.7 申请日: 2020-05-09
公开(公告)号: CN111581988B 公开(公告)日: 2022-04-29
发明(设计)人: 赵洲;路伊琳;刘静林 申请(专利权)人: 浙江大学
主分类号: G06F40/58 分类号: G06F40/58;G06N20/00
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 郑海峰
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 任务 层面 课程 学习 回归 机器翻译 模型 训练 方法 系统
【说明书】:

发明公开了一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训练系统,属于非自回归机器翻译领域。本发明中,首先建立基于Transformer的机器翻译模型,将所述Transformer模型解码器中的多头自注意力机制替换为causal‑k自注意力机制,获得TCL‑NAT模型,然后通过调整causal‑k自注意力机制中的参数k,将训练过程依次划分为AT训练阶段(k=1),SAT训练阶段(1kN)和NAT训练阶段(k=N),并在SAT训练阶段引入任务窗口的概念,在同一阶段同时训练多个并行度不同的任务,从而使模型能够平稳地从一个训练阶段过渡到另一个训练阶段,有效提高了非自回归机器翻译模型的准确率。

技术领域

本发明涉及非自回归机器翻译领域,尤其涉及一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训练系统。

背景技术

近年来,神经机器翻译(NMT)快速发展。通常,NMT采取编码器-解码器框架,目前解码器生成目标语句的主流方法为自回归方法,自回归方法的特点是当前单词的生成依赖于于之前单词的预测结果和来自编码器的源上下文。虽然采用自回归方式的NMT的精确性达到了人类的水平,但由于自回归方式必须逐词翻译,即在推理过程中,后面的单词一定要等前面所有单词都推理出来才能进行推理,在句子较长时,这种方法也伴随有较高的推理延迟。因此,非自回归翻译(NAT)提出了并行生成目标单词的方法,可以大大加快推理过程。

对于非自回归方法,每个单词的预测不再参照于前面的单词,因此NAT的准确性低于自回归翻译(AT),采用传统的NAT训练方法较难训练,且最终得到的NAT模型翻译准确率较低。目前已有研究表明,并行度较小的任务(即并行生成单词数量较少的任务)训练得到的模型准确性较高。因此,如果可以将模型从AT转移到NAT,就可以有效提高NAT模型的准确性。

由于AT和NAT是两个相差甚远的任务,因此在AT训练后直接转移到NAT训练是不可行的,需要探究一种将模型训练从AT平稳转移到NAT的训练方法,提升最终的模型准确性。

发明内容

为了解决现有的非自回归机器翻译模型准确率较低的问题,本发明从模型的训练方法着手,提出了一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训练系统,本发明采用任务层面的课程式学习方法,将模型从AT逐步转移到NAT。

课程式学习指模仿人类从易到难的学习过程,将训练实例按照从简单到困难的顺序提供给模型,本发明采用的任务层面的课程式学习指的是将翻译任务从较容易的训练任务(AT),转移到中间任务,即半自回归翻译(SAT),再转移到较困难的训练任务(NAT)。

为了实现上述目的,本发明采用如下技术方案:

一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法,所述方法包括:

步骤1:建立机器翻译模型,包括编码器和解码器,所述的编码器采用Transformer模型中的编码器,所述的解码器通过将Transformer模型中的解码器中多头自注意力机制替换为causal-k自注意力机制得到,所述的causal-k自注意力机制通过参数k来调整每次迭代并行产生的单词数量;

步骤2:获取源语句训练集,所述的源语句训练集标注有参考翻译结果语句;

步骤3:将训练过程预先划分为三个阶段:当k=1时,为AT训练阶段;当1kN 时,为SAT训练阶段,N用于表示源语句的参考翻译结果语句的长度;当k=N时,为 NAT训练阶段;并设定每一个训练阶段停止训练的条件;

步骤4:设计pacing函数,使得k=f(i)∈{2,4,8,16},其中f(i)表示pacing函数,i表示SAT训练阶段的第i次迭代;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010386920.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top