[发明专利]基于知识蒸馏的预训练语言模型的压缩方法及平台有效
申请号: | 202010910566.3 | 申请日: | 2020-09-02 |
公开(公告)号: | CN111767711B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 王宏升;单海军;鲍虎军 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06K9/62;G06N5/02;G06N20/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于知识蒸馏的预训练语言模型的压缩方法及平台,该方法首先设计一种普适的特征迁移的知识蒸馏策略,在教师模型的知识蒸馏到学生模型的过程中,将学生模型每一层的特征映射逼近教师的特征,重点关注小样本在教师模型中间层特征表达能力,并利用这些特征指导学生模型;然后利用教师模型的自注意力分布具有检测词语之间语义和句法的能力构建一种基于自注意力交叉知识蒸馏方法;最后为了提升学习模型训练前期的学习质量和训练后期的泛化能力,设计了一种基于伯努利概率分布的线性迁移策略逐渐完成从教师到学生的特征映射和自注意分布的知识迁移。通过本发明,将面向多任务的预训练语言模型进行自动压缩,提高语言模型的压缩效率。 | ||
搜索关键词: | 基于 知识 蒸馏 训练 语言 模型 压缩 方法 平台 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010910566.3/,转载请声明来源钻瓜专利网。