[发明专利]基于知识蒸馏的预训练语言模型的压缩方法及平台有效
申请号: | 202010910566.3 | 申请日: | 2020-09-02 |
公开(公告)号: | CN111767711B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 王宏升;单海军;鲍虎军 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06K9/62;G06N5/02;G06N20/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 蒸馏 训练 语言 模型 压缩 方法 平台 | ||
本发明公开了一种基于知识蒸馏的预训练语言模型的压缩方法及平台,该方法首先设计一种普适的特征迁移的知识蒸馏策略,在教师模型的知识蒸馏到学生模型的过程中,将学生模型每一层的特征映射逼近教师的特征,重点关注小样本在教师模型中间层特征表达能力,并利用这些特征指导学生模型;然后利用教师模型的自注意力分布具有检测词语之间语义和句法的能力构建一种基于自注意力交叉知识蒸馏方法;最后为了提升学习模型训练前期的学习质量和训练后期的泛化能力,设计了一种基于伯努利概率分布的线性迁移策略逐渐完成从教师到学生的特征映射和自注意分布的知识迁移。通过本发明,将面向多任务的预训练语言模型进行自动压缩,提高语言模型的压缩效率。
技术领域
本发明属于面向多任务的预训练语言模型自动压缩领域,尤其涉及一种基于知识蒸馏的预训练语言模型的压缩方法及平台。
背景技术
随着智能设备的普及,大规模语言模型在智能手机、可穿戴设备等嵌入式设备上的应用越来越常见,然而深度学习网络规模却在不断增大,计算复杂度随之增高,严重限制了其在手机等智能设备上的应用,如今的应对方法还是单向地从教师模型的知识蒸馏到学生模型的压缩方法,但是小样本在大规模语言模型压缩过程中难泛化的问题依然存在。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于知识蒸馏的预训练语言模型的压缩方法及平台。本发明基于知识蒸馏的预训练语言模型压缩,设计一个与任务无关的小模型去学习一个大模型的表达能力,压缩出某一类任务通用的架构,充分利用已压缩好的模型架构,提高模型压缩效率。具体地,通过特征映射知识蒸馏模块、自注意力交叉知识蒸馏和基于伯努利概率分布的线性迁移策略,实现了教师模型和学生模型在训练过程中渐进式地相互学习,从而提高了小样本情况下学生模型训练前期的学习质量和训练后期的泛化能力。
本发明的目的是通过以下技术方案来实现的:一种基于知识蒸馏的预训练语言模型的压缩方法,该方法对BERT模型进行压缩,包括特征映射知识蒸馏模块、自注意力交叉知识蒸馏模块和基于伯努利概率分布的线性学习模块;其中,原始的模型为教师模型,压缩后的模型为学生模型;特征映射知识蒸馏模块基于一种特征迁移的知识蒸馏策略,在教师模型的知识蒸馏到学生模型的过程中,将学生模型每一层的特征映射逼近教师模型的特征映射,学生模型关注教师模型的中间层特征,并利用这些中间层特征指导学生模型;自注意力交叉知识蒸馏模块通过交叉连接教师模型和学生模型的自注意力模块,通过在网络自注意层上进行凸组合交叉连接的方式,实现教师模型和学生模型的深度相互学习;基于伯努利概率分布的线性学习模块逐渐完成从教师模型到学生模型的特征映射和自注意分布的知识迁移。
进一步地,所述特征映射知识蒸馏模块中增加层间归一化以稳定层间训练损失;训练学生网络时,最小化特征图转换中均值和方差两个统计差异。
进一步地,所述自注意力交叉知识蒸馏模块的迁移目标函数是最小化学生模型和教师模型的注意力分布之间的相对熵。
进一步地,所述自注意力交叉知识蒸馏模块包括以下三个阶段:
第一阶段:教师网络的自注意力单元输入学生网络,并最小化迁移目标函数,具体地,将教师网络的自注意力单元当作基本真值,在网络自注意力单元位置输入学生网络,学生网络接受正确的监督信号以对后续层进行训练,避免估计误差过大并传播的现象;
第二阶段:学生网络的自注意力单元输入教师网络,并最小化迁移目标函数;由于估计误差在学生网络上逐层传播,导致在同一层位置上学生网络输入和教师网络输入存在差异;将学生网络自注意力单元输入给教师网络,实现了在相同输入前提下让学生网络模仿教师网络的输出行为;
第三阶段:在网络自注意力单元上将所述第一阶段和第二阶段的迁移目标函数进行凸组合,实现交叉迁移的蒸馏策略。
进一步地,所述基于伯努利概率分布的线性学习模块用于为驱动特征映射知识蒸馏模块和自注意力交叉知识蒸馏模块设置不同的线性迁移概率,包括以下两个步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010910566.3/2.html,转载请声明来源钻瓜专利网。