[发明专利]一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训练系统有效
| 申请号: | 202010386920.7 | 申请日: | 2020-05-09 |
| 公开(公告)号: | CN111581988B | 公开(公告)日: | 2022-04-29 |
| 发明(设计)人: | 赵洲;路伊琳;刘静林 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N20/00 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 任务 层面 课程 学习 回归 机器翻译 模型 训练 方法 系统 | ||
1.一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法,其特征在于,所述方法包括:
步骤1:建立机器翻译模型,包括编码器和解码器,所述的编码器采用Transformer模型中的编码器,所述的解码器通过将Transformer模型中的解码器中多头自注意力机制替换为causal-k自注意力机制得到,所述的causal-k自注意力机制通过参数k来调整每次迭代并行产生的单词数量;
步骤2:获取源语句训练集,所述的源语句训练集标注有参考翻译结果语句;
步骤3:将训练过程预先划分为三个阶段:当k=1时,为AT训练阶段;当1<k<N时,为SAT训练阶段,N用于表示源语句中参考翻译结果语句的长度;当k=N时,为NAT训练阶段;并设定每一个训练阶段停止训练的条件;
步骤4:设计pacing函数,使得k=f(i)∈{2,4,8,16},其中f(i)表示pacing函数,i表示SAT训练阶段的第i次迭代;
步骤5:依次将causal-k自注意力机制中的参数k设置为k=1、k=f(i)、k=N,采用步骤2中的源语句训练集对步骤1建立的机器翻译模型分别进行AT训练阶段、SAT训练阶段和NAT训练阶段的训练,最终得到训练好的非自回归机器翻译模型;具体为:
步骤5.1:设定k=1,进入AT训练阶段,所述的AT训练阶段训练一个样本的过程为:
从源语句训练集中获取一个源语句(x1,...,xM),源语句的参考翻译结果语句为(y1,...,yN),其中xi表示源语句中的第i个单词,M表示源语句中单词的数量,yi表示源语句标注的参考翻译结果语句中第i个单词,N表示参考翻译结果语句的长度;将源语句(x1,...,xM)作为编码器的输入,将编码器输出和(x1,y1,...,yN-1)作为解码器的输入,得到源语句(x1,...,xM)的样本翻译结果;
每次完成一个训练批次后,根据参考翻译结果对模型参数进行调整,完成AT训练阶段的单次迭代训练;重复所述AT训练阶段的单次迭代训练过程,直至得到训练好的AT模型作为初始模型;
步骤5.2:进入SAT训练阶段,首先设计pacing函数用于调整causal-k自注意力机制中的参数k,公式为:
其中,i表示SAT训练阶段的迭代次数,fexp(i)表示pacing函数,SSAT表示SAT训练阶段的预设迭代次数,表示向下取整;
SAT训练阶段训练一个样本的过程为:
从源语句训练集中获取一个源语句(x1,...,xM),源语句的参考翻译结果语句为(y1,...,yN),其中xi表示源语句中的第i个单词,M表示源语句中单词的数量,yi表示源语句标注的参考翻译结果语句中第i个单词,N表示参考翻译结果语句的长度;在SAT训练阶段的第i次迭代时,计算k=fexp(i),将源语句(x1,...,xM)作为编码器的输入,将编码器输出和(x1,...,xk,y1,...,yN-k)作为解码器的输入,得到源语句(x1,...,xM)的样本翻译结果;
每次完成一个训练批次后,根据参考翻译结果对模型参数进行调整,完成SAT训练阶段的第i次迭代训练;重复SAT训练阶段的单次迭代过程,直至i=SSAT;
步骤5.3:设定k=N,进入NAT训练阶段,所述的NAT训练阶段训练一个样本的过程为:
从源语句训练集中获取一个源语句(x1,...,xM),其中xi表示源语句中的第i个单词,M表示源语句中单词的数量;将所述的源语句(x1,...,xM)作为编码器的输入,将编码器输出和源语句(x1,...,xM)作为解码器的输入,得到源语句(x1,...,xM)的样本翻译结果;
每次完成一个训练批次后,根据参考翻译结果对模型参数进行调整,完成NAT训练阶段的单次迭代训练;重复所述NAT训练阶段的单次迭代训练过程,直至得到训练好的NAT模型作为最终的非自回归机器翻译模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010386920.7/1.html,转载请声明来源钻瓜专利网。





