[发明专利]一种知识显著性与局部模式一致性的知识蒸馏方法与装置在审
申请号: | 202110551343.7 | 申请日: | 2021-05-20 |
公开(公告)号: | CN112990447A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 唐乾坤;徐晓刚;王军;徐冠雷;何鹏飞;曹卫强 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62;G06K9/46 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 显著 局部 模式 一致性 蒸馏 方法 装置 | ||
本发明公开了一种知识显著性与局部模式一致性的知识蒸馏方法与装置,具体包括:从教师模型和学生模型中选择需要进行知识蒸馏的特征层;计算所选学生模型特征层与教师模型特征层每个通道的语义相似性;计算所选学生模型特征层与教师模型特征层每个空间位置的语义相似性;计算所选学生模型中每个特征位置局部模式与教师模型特征层对应位置局部模式一致度;将上述计算得到的语义相似性及局部模式一致度融合入损失函数中,训练学生模型。该发明相比与现有技术操作简单,不需要特定的神经网络模型,同时能够显著地改善学生模型性能。
技术领域
本发明涉及计算机视觉领域,尤其是涉及一种知识显著性与局部模式一致性的知识蒸馏方法与装置。
背景技术
知识蒸馏是一种有效的模型压缩方法,其原理是在训练一个神经网络模型(学生模型)时,除了任务相关的损失外,还需要模仿另一个神经网络模型(教师模型)的预测输出或者中间层的知识等。该方法能以最少的代价而改善学生模型的性能,是目前模型压缩的研究热点之一。
然而,目前的技术只关注于如何从教师模型中提取和蒸馏有效和判别性强的知识,这些知识包括教师模型的预测输出、中间层特征的注意力图、实例关系、特征相似图等知识。但是却忽略了教师模型应该传输什么知识以及多少知识给学生模型,同时现有技术在知识蒸馏时每个特征位置是独立进行的,而忽略了局部区域知识的一致性等。这就使得目前的知识蒸馏技术不能够获得更好的性能。
发明内容
为解决现有技术的知识蒸馏时忽略了知识的重要性及传输数量和每个特征位置单独蒸馏的问题,实现知识蒸馏性能提升的目的,本发明采用如下的技术方案:
一种知识显著性与局部模式一致性的知识蒸馏方法,包括如下步骤:
S1,从教师模型和学生模型中选择需要进行知识蒸馏的特征层;
S2,计算所选学生模型特征层与教师模型特征层每个通道的语义相似性;
S3,计算所选学生模型特征层与教师模型特征层每个空间位置的语义相似性;
S4,计算所选学生模型中每个特征位置局部模式与教师模型特征层对应位置局部模式一致度S;
S5,将语义相似性及局部模式一致度融合入损失函数中,训练学生模型。
计算语义相似性的方法包括余弦距离、欧式距离。
进一步地,所述步骤S1中,分别从教师模型和学生模型的中间卷积层中选择一个以上特征层进行知识蒸馏。
进一步地,所述步骤S1中,当教师模型特征层与学生模型特征层的维度不一致时,对学生模型或者教师模型特征层进行转换,使两者保持一致。
进一步地,所述步骤S1中,当教师模型特征层与学生模型特征层通道数不一致时,使用卷积层对学生模型特征层进行变换,使两者一致。
进一步地,所述步骤S1中,当教师模型特征层与学生模型特征层空间维度不一致时,对维度较大的一方使用池化方式变换成与另一方维度相等;或对维度较小的一方使用上采样方式变换成与另一方维度相等。
进一步地,所述步骤S2中通过余弦距离计算的通道语义相似性:
其中,为通道语义相似度,表示教师模型特征层,表示学生模型特征层,表示2元范数,
进一步地,所述步骤S3中通过余弦距离计算的空间位置语义相似性:
其中,表示空间位置语义相似度,表示教师模型特征层,表示学生模型特征层,表示2元范数。
进一步地,所述步骤S4中,选择教师模型或者学生模型每个空间位置,计算以该空间位置为中心,一定范围的局部结构相似性索引度量SSIM,即一致度S:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110551343.7/2.html,转载请声明来源钻瓜专利网。