[发明专利]一种多任务模型蒸馏方法、系统、介质及电子终端在审
申请号: | 202111009408.1 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113706347A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 何哲宇 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06Q50/20 | 分类号: | G06Q50/20;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海汉之律师事务所 31378 | 代理人: | 冯华 |
地址: | 518066 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 任务 模型 蒸馏 方法 系统 介质 电子 终端 | ||
1.一种多任务模型蒸馏方法,其特征在于,包括:
当按照预设的任务训练顺序对多任务模型进行多个任务的一次轮换训练时,冻结多任务模型的中间参数层,保留嵌入层、以及多个与任务相对应的分类层,所述多任务模型的中间参数层包括多个第一子层,所述冻结多任务模型的中间参数层的步骤包括:冻结多任务模型的中间参数层中的全部参数或部分参数,所述部分参数包括从靠近所述嵌入层的第一子层开始,多个连续的第一子层的参数;
将经过多任务轮换训练的嵌入层、冻结的中间参数层以及与任务对应的任一分类层作为教师模型,利用所述教师模型,进行模型蒸馏,获取多个蒸馏后的学生模型;
根据所述任务训练顺序,对多个蒸馏后的学生模型进行二次轮换训练,获取经过二次轮换训练的学生模型;
根据经过二次轮换训练的学生模型,确定最终模型。
2.根据权利要求1所述的多任务模型蒸馏方法,其特征在于,对多个蒸馏后的学生模型进行二次轮换训练的步骤包括:
对蒸馏后的学生模型的中间参数层进行冻结,所述对蒸馏后的学生模型的中间参数层进行冻结的步骤包括:对蒸馏后的学生模型的中间参数层中的全部参数或部分参数进行冻结,所述蒸馏后的学生模型的中间参数层包括多个第二子层,所述部分参数包括从靠近蒸馏后的学生模型的嵌入层的第二子层开始,多个连续的第二子层的参数;
并且,保留蒸馏后的学生模型的嵌入层、以及对应的分类层,进而获取经过二次轮换训练的学生模型。
3.根据权利要求1所述的多任务模型蒸馏方法,其特征在于,冻结多任务模型的中间参数层中的全部参数或部分参数的步骤包括:
根据预先设置的第一冻结层数,从靠近多任务模型的嵌入层的第一子层开始,获取第一待冻结子层;
根据所述第一待冻结子层,确定第一待冻结参数;
对所述第一待冻结参数进行冻结。
4.根据权利要求2所述的多任务模型蒸馏方法,其特征在于,对蒸馏后的学生模型的中间参数层中的全部参数或部分参数进行冻结的步骤包括:
根据预先设置的第二冻结层数,从靠近蒸馏后的学生模型的嵌入层的第二子层开始,获取第二待冻结子层;
根据所述第二待冻结子层,确定第二待冻结参数;
对所述第二待冻结参数进行冻结。
5.根据权利要求3所述的多任务模型蒸馏方法,其特征在于,对所述第一待冻结参数进行冻结的步骤包括:
根据预先设置的冻结属性,对所述第一待冻结参数的参数属性进行更新;
在所述多任务模型的优化器中加入参数过滤器;
一次轮换训练过程中,所述参数过滤器根据更新后的第一待冻结参数的参数属性,对所述第一待冻结参数进行过滤,完成对所述第一待冻结参数的冻结。
6.根据权利要求1所述的多任务模型蒸馏方法,其特征在于,利用所述教师模型,进行模型蒸馏的步骤包括:
采集训练数据集,所述训练数据集包括:多个训练样本,以及与所述训练样本相对应的预测标签;
将所述训练数据集中的训练样本分别输入所述教师模型和获取的学生模型进行预测,获取教师预测结果和学生预测结果;
根据所述教师预测结果和预设的第一损失函数,获取教师模型的第一损失;
根据所述学生预测结果和预设的第二损失函数,获取学生模型的第二损失;
根据所述第一损失、第二损失和预设的权值,获取第三损失,利用所述第三损失,对所述学生模型进行训练与优化,获取蒸馏后的学生模型。
7.根据权利要求1所述的多任务模型蒸馏方法,其特征在于,根据经过二次轮换训练的学生模型,确定最终模型的步骤包括:
根据预设的组合规则,将经过二次轮换训练的多个学生模型的嵌入层、中间参数层和分类层,进行组合,获取最终模型,多个嵌入层与多个中间参数层相对应,多个中间参数层与多个分类层相对应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111009408.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种熔融钢渣渣处理过程中余热回收的方法
- 下一篇:一种阵列贴片式无线电引信