[发明专利]一种多任务模型蒸馏方法、系统、介质及电子终端在审
申请号: | 202111009408.1 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113706347A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 何哲宇 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06Q50/20 | 分类号: | G06Q50/20;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海汉之律师事务所 31378 | 代理人: | 冯华 |
地址: | 518066 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 任务 模型 蒸馏 方法 系统 介质 电子 终端 | ||
本发明涉及人工智能技术领域,尤其涉及一种多任务模型蒸馏方法、系统、介质及电子终端,方法包括:当按照预设的任务训练顺序对多任务模型进行多个任务的一次轮换训练时,冻结多任务模型的中间参数层,保留嵌入层、以及多个与任务相对应的分类层,多任务模型的中间参数层包括多个第一子层,冻结多任务模型的中间参数层的步骤包括:冻结多任务模型的中间参数层中的全部参数或部分参数;将经过多任务轮换训练的嵌入层、冻结的中间参数层以及与任务对应的任一分类层作为教师模型,利用教师模型,进行模型蒸馏,获取多个蒸馏后的学生模型,对多个蒸馏后的学生模型进行二次轮换训练,进而确定最终模型,避免多任务之间产生对抗。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种多任务模型蒸馏方法、系统、介质及电子终端。
背景技术
由于Transformer-based(基于Transformer)的新一代算法模型往往需要消耗大量的算力与运算时间,这对需要控制时间与经济成本的一些应用是无法接受的,Transformer为基于注意力机制的编码器-解码器(Encoder-Decoder)结构。因此,模型蒸馏(model distillation)作为一种压缩模型的技术应运而生,即通过设计teacher-student这样的模型训练框架,使得小参数量的模型在大参数量模型的“监督”下得到近似于大模型的表现,teacher-student指模型蒸馏过程中教师模型和学生模型组成的模型训练架构。除此之外,多任务模型的设计同样可以压缩模型的大小。所以,很容易让人联想到,在多任务模型的基础上进行蒸馏,实现对模型的进一步压缩。
然而,在实际处理过程中,多任务模型的训练数据通常是不均衡的,甚至是跨领域的语料,又由于下游任务标签集的不同,在多任务模型的蒸馏过程中,多个任务之间会产生对抗,不能达到互相促进的训练效果。
发明内容
本发明提供一种多任务模型蒸馏方法、系统、介质及电子终端,以解决现有技术中由于多任务模型的训练数据不均衡,导致在模型蒸馏过程中多任务之间容易产生对抗,不能较好地达到相互促进的训练效果,且蒸馏后的多任务模型精确度较低的问题。
本发明提供的多任务模型蒸馏方法,包括:
当按照预设的任务训练顺序对多任务模型进行多个任务的一次轮换训练时,冻结多任务模型的中间参数层,保留嵌入层、以及多个与任务相对应的分类层,所述多任务模型的中间参数层包括多个第一子层,所述冻结多任务模型的中间参数层的步骤包括:冻结多任务模型的中间参数层中的全部参数或部分参数,所述部分参数包括从靠近所述嵌入层的第一子层开始,多个连续的第一子层的参数;
将经过多任务轮换训练的嵌入层、冻结的中间参数层以及与任务对应的任一分类层作为教师模型,利用所述教师模型,进行模型蒸馏,获取多个蒸馏后的学生模型;
根据所述任务训练顺序,对多个蒸馏后的学生模型进行二次轮换训练,获取经过二次轮换训练的学生模型;
根据经过二次轮换训练的学生模型,确定最终模型。
可选的,对多个蒸馏后的学生模型进行二次轮换训练的步骤包括:
对蒸馏后的学生模型的中间参数层进行冻结,所述对蒸馏后的学生模型的中间参数层进行冻结的步骤包括:对蒸馏后的学生模型的中间参数层中的全部参数或部分参数进行冻结,所述蒸馏后的学生模型的中间参数层包括多个第二子层,所述部分参数包括自靠近蒸馏后的学生模型的嵌入层的第二子层起,多个连续的第二子层的参数;
并且,保留蒸馏后的学生模型的嵌入层、以及对应的分类层,进而获取经过二次轮换训练的学生模型。
可选的,冻结多任务模型的中间参数层中的全部参数或部分参数的步骤包括:
根据预先设置的第一冻结层数,从靠近多任务模型的嵌入层的第一子层开始,获取第一待冻结子层;
根据所述第一待冻结子层,确定第一待冻结参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111009408.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种熔融钢渣渣处理过程中余热回收的方法
- 下一篇:一种阵列贴片式无线电引信