[发明专利]一种基于多套语料库的机器翻译模型蒸馏方法在审

申请号：	202211341973.2	申请日：	2022-10-31
公开（公告）号：	CN115392269A	公开（公告）日：	2022-11-25
发明（设计）人：	朱胜;褚佳文;何国华	申请（专利权）人：	南京万得资讯科技有限公司
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/242;G06K9/62
代理公司：	上海申汇专利代理有限公司 31001	代理人：	翁若莹;柏子雵
地址：	210019 江苏省***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语料库机器翻译模型蒸馏方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，包括以下步骤：

步骤1、用组成的语料库训练教师模型，其中，是待翻译序列，长度为I，是s中第i个词，是翻译的目标序列；

步骤2、蒸馏系统的教师模型使用BeamSearch算法翻译待翻译序列s，得到输出结果；

步骤3、用创建一套新的语料库；

步骤4、将用组成的语料库输入蒸馏系统的学生模型，在学生模型中计算损失；

步骤5、将用创建的语料库分别输入教师模型以及学生模型，在教师模型中获取Soft-Target，在学生模型中获取当前输入条件下的词典中各词的出现概率，然后基于Soft-Target以及学生模型获取的出现概率计算损失；

步骤6、基于步骤4获得的损失以及步骤5获得的损失计算得到总损失，然后完成误差的反向传播，其中，教师模型不参与反向传播；

步骤7、完成学生模型的训练后，用学生模型单独作为机器翻译器进行部署，由机器翻译器对实时输入的语料进行推理和翻译，从而获得翻译后的语料。

2.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，步骤4中，所述损失的计算方法是：

式中：是所有可能的翻译序列的集合，是翻译输出序列，长度为J，是中第个词，在集合中取值；是指示函数，表示当翻译输出序列与翻译目标序列相同时，函数输出1，否则输出0；表示在输入待翻译序列s的条件下，获得翻译序列的概率；表示如果词典V中的第k个词与翻译目标序列的第个词相同则输出1，否则输出0；表示在输入待翻译序列s，翻译序列的前个词已经按前述BeamSearch算法选定的条件下，学生模型在第个时间步长的输出为字典V中的第k个词的概率。

3.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，步骤5中，所述损失的计算方法是：

式中，表示在输入待翻译序列s，翻译序列的前个词与的前个词相同的条件下教师模型在第个时间步长的输出为字典V中的第k个词的概率；表示在输入待翻译序列s，翻译序列的前个词与的前个词相同的条件下学生模型在第个时间步长的输出为字典V中的第k个词的概率。

4.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，所述总损失为所述损失和所述损失的线性组合。

5.如权利要求4所述的一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，步骤6中，所述总损失，其中。

6.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，步骤1中，用组成的语料库训练N个教师模型，N≥2；

步骤2中，N个教师模型均使用BeamSearch算法翻译待翻译序列s，得到N个输出结果；

步骤3中，用创建N套新的语料库；

步骤5中，分别用创建的N套语料库分别输入同一学生模型，在与当前一套语料库对应的教师模型中获取Soft-Target，并且在相对应的学生模型中获取当前输入条件下的词典中各词的出现概率后，计算获得与每个教师模型所对应的损失，则最终得到的损失，其中，L’_KDⁿ表示与第n个教师模型对应的损失。

7.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法，其特征在于，步骤2中、教师模型使用的BeamSearch算法所设置的K值较大；

在所述步骤3之后，且在所述步骤4之前还包括以下步骤：

a）教师模型使用K值设置较小的BeamSearch算法翻译s，得到翻译质量相对较差的翻译结果；

b）用创建一套新的语料库；