[发明专利]一种知识显著性与局部模式一致性的知识蒸馏方法与装置在审
申请号: | 202110551343.7 | 申请日: | 2021-05-20 |
公开(公告)号: | CN112990447A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 唐乾坤;徐晓刚;王军;徐冠雷;何鹏飞;曹卫强 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62;G06K9/46 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 显著 局部 模式 一致性 蒸馏 方法 装置 | ||
1.一种知识显著性与局部模式一致性的知识蒸馏方法,其特征在于包括如下步骤:
S1,从教师模型和学生模型中选择需要进行知识蒸馏的特征层;
S2,计算所选学生模型特征层与教师模型特征层每个通道的语义相似性;
S3,计算所选学生模型特征层与教师模型特征层每个空间位置的语义相似性;
S4,计算所选学生模型中每个特征位置局部模式与教师模型特征层对应位置局部模式一致度S;
S5,将语义相似性及局部模式一致度融合入损失函数中,训练学生模型。
2.根据权利要求1所述的一种知识显著性与局部模式一致性的知识蒸馏方法,其特征在于所述步骤S1中,分别从教师模型和学生模型的中间卷积层中选择一个以上特征层进行知识蒸馏。
3.根据权利要求1所述的一种知识显著性与局部模式一致性的知识蒸馏方法,其特征在于所述步骤S1中,当教师模型特征层与学生模型特征层的维度不一致时,对学生模型或者教师模型特征层进行转换,使两者保持一致。
4.根据权利要求3所述的一种知识显著性与局部模式一致性的知识蒸馏方法,其特征在于所述步骤S1中当教师模型特征层与学生模型特征层通道数不一致时,使用卷积层对学生模型特征层进行变换,使两者一致。
5.根据权利要求3所述的一种知识显著性与局部模式一致性的知识蒸馏方法,其特征在于所述步骤S1中当教师模型特征层与学生模型特征层空间维度不一致时,对维度较大的一方使用池化方式变换成与另一方维度相等;或对维度较小的一方使用上采样方式变换成与另一方维度相等。
6.根据权利要求1所述的一种知识显著性与局部模式一致性的知识蒸馏方法,其特征在于所述步骤S2中通过余弦距离计算的通道语义相似性:
其中,为通道语义相似度,表示教师模型特征层,表示学生模型特征层,表示2元范数,
7.根据权利要求1所述的一种知识显著性与局部模式一致性的知识蒸馏方法,其特征在于所述步骤S3中通过余弦距离计算的空间位置语义相似性:
其中,表示空间位置语义相似度,表示教师模型特征层,表示学生模型特征层,表示2元范数。
8.根据权利要求1所述的一种知识显著性与局部模式一致性的知识蒸馏方法,其特征在于所述步骤S4中,选择教师模型或者学生模型每个空间位置,计算以该空间位置为中心,一定范围内的局部结构相似性索引度量SSIM,即一致度S:
其中,表示局部结构的均值,表示归一化权重核,
9.根据权利要求1所述的一种知识显著性与局部模式一致性的知识蒸馏方法,其特征在于所述步骤S5中损失函数定义如下:
其中,dist表示特征距离函数,表示任务损失。
10.一种知识显著性与局部模式一致性的知识蒸馏装置,包括:学生模型模块、教师模型模块和模型优化模块,其特征在于所述学生模型模块、教师模型模块,均通过知识显著性模块和局部结构一致性模块,与模型优化模块连接,学生模型模块又与模型优化模块单独连接;
所述学生模型模块,用于学习知识的神经网络模型;
所述教师模型模块,用于提取及传输知识的神经网络模型;
所述知识显著性模块,用于计算教师模型和学生模型所选进行知识蒸馏的特征层的每个通道和每个空间位置的语义相似性;
所述局部结构一致性模块,用于计算教师模型和学生模型所选进行知识蒸馏的特征层每个位置局部模式的一致度;
所述模型优化模块,用于通过语义相似性及局部模式一致度,优化知识蒸馏损失和学生模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110551343.7/1.html,转载请声明来源钻瓜专利网。