[发明专利]一种基于多套语料库的机器翻译模型蒸馏方法在审

专利信息
申请号: 202211341973.2 申请日: 2022-10-31
公开(公告)号: CN115392269A 公开(公告)日: 2022-11-25
发明(设计)人: 朱胜;褚佳文;何国华 申请(专利权)人: 南京万得资讯科技有限公司
主分类号: G06F40/58 分类号: G06F40/58;G06F40/242;G06K9/62
代理公司: 上海申汇专利代理有限公司 31001 代理人: 翁若莹;柏子雵
地址: 210019 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 语料库 机器翻译 模型 蒸馏 方法
【权利要求书】:

1.一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,包括以下步骤:

步骤1、用组成的语料库训练教师模型,其中,是待翻译序列,长度为I,是s中第i个词,是翻译的目标序列;

步骤2、蒸馏系统的教师模型使用BeamSearch算法翻译待翻译序列s,得到输出结果;

步骤3、用创建一套新的语料库;

步骤4、将用组成的语料库输入蒸馏系统的学生模型,在学生模型中计算损失;

步骤5、将用创建的语料库分别输入教师模型以及学生模型,在教师模型中获取Soft-Target,在学生模型中获取当前输入条件下的词典中各词的出现概率,然后基于Soft-Target以及学生模型获取的出现概率计算损失;

步骤6、基于步骤4获得的损失以及步骤5获得的损失计算得到总损失,然后完成误差的反向传播,其中,教师模型不参与反向传播;

步骤7、完成学生模型的训练后,用学生模型单独作为机器翻译器进行部署,由机器翻译器对实时输入的语料进行推理和翻译,从而获得翻译后的语料。

2.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,步骤4中,所述损失的计算方法是:

式中:是所有可能的翻译序列的集合,是翻译输出序列,长度为J,是中第个词,在集合中取值;是指示函数,表示当翻译输出序列与翻译目标序列相同时,函数输出1,否则输出0;表示在输入待翻译序列s的条件下,获得翻译序列的概率;表示如果词典V中的第k个词与翻译目标序列的第个词相同则输出1,否则输出0;表示在输入待翻译序列s,翻译序列的前个词已经按前述BeamSearch算法选定的条件下,学生模型在第个时间步长的输出为字典V中的第k个词的概率。

3.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,步骤5中,所述损失的计算方法是:

式中,表示在输入待翻译序列s,翻译序列的前个词与的前个词相同的条件下教师模型在第个时间步长的输出为字典V中的第k个词的概率;表示在输入待翻译序列s,翻译序列的前个词与的前个词相同的条件下学生模型在第个时间步长的输出为字典V中的第k个词的概率。

4.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,所述总损失为所述损失和所述损失的线性组合。

5.如权利要求4所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,步骤6中,所述总损失,其中。

6.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,步骤1中,用组成的语料库训练N个教师模型,N≥2;

步骤2中,N个教师模型均使用BeamSearch算法翻译待翻译序列s,得到N个输出结果;

步骤3中,用创建N套新的语料库;

步骤5中,分别用创建的N套语料库分别输入同一学生模型,在与当前一套语料库对应的教师模型中获取Soft-Target,并且在相对应的学生模型中获取当前输入条件下的词典中各词的出现概率后,计算获得与每个教师模型所对应的损失,则最终得到的损失,其中,L’KDn表示与第n个教师模型对应的损失。

7.如权利要求1所述的一种基于多套语料库的机器翻译模型蒸馏方法,其特征在于,步骤2中、教师模型使用的BeamSearch算法所设置的K值较大;

在所述步骤3之后,且在所述步骤4之前还包括以下步骤:

a)教师模型使用K值设置较小的BeamSearch算法翻译s,得到翻译质量相对较差的翻译结果;

b)用创建一套新的语料库;

c)用创建的语料库直接训练蒸馏系统的学生模型,将完成训练后的学生模型纳入到蒸馏系统中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京万得资讯科技有限公司,未经南京万得资讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211341973.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top