[发明专利]基于嵌入特征相似度的注意力迁移的神经网络压缩方法在审
申请号: | 202111387298.2 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114387447A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 公茂果;刘昊;李豪;乔文远;张明阳;唐泽栋;刘洁怡;蒋祥明 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 西安嘉思特知识产权代理事务所(普通合伙) 61230 | 代理人: | 王萌 |
地址: | 710000 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 嵌入 特征 相似 注意力 迁移 神经网络 压缩 方法 | ||
本发明公开了一种基于嵌入特征相似度的注意力迁移的神经网络压缩方法,包括:获取多个训练样本,每个训练样本包括样本图像以及样本图像对应的类别;确定第一待训练神经网络模型后,利用训练样本训练第一待训练神经网络模型,得到教师网络;利用教师网络生成第一注意力图向量;确定第二待训练神经网络模型后,利用训练样本及预设损失函数训练第二待训练神经网络,并根据第二待训练神经网络模型生成的第二注意力图向量及输出结果确定损失值;当预设损失函数的损失值满足预设条件时,第二待训练神经网络训练完成,获得压缩后的学生网络。本发明在达到任务分类要求的同时,有效提高了训练的速度和精度,得到了效果更好的小规模网络。
技术领域
本发明属于深度学习技术领域,具体涉及一种基于嵌入特征相似度的注意力迁移的神经网络压缩方法。
背景技术
注意力图迁移首先通过对教师网络某一层次卷积后的多通道特征图进行混合形成注意力图,然后将这一位置的注意力图迁移到学生网络中,通过不同层次的注意力图迁移,实现学生网络对任务的更好表现。在一些情况下,教师网络直接将注意力图迁移到学生网络,但学生网络与教师网络的注意力图的向量相似度难以优化提高,学生网络对任务的处理效果也不好,进行知识迁移的表现较差。
相关技术中,Zeiler M.D.和Fergus R.在文献“Visualizing and UnderstandingConvolutional Networks”([C]European conference on computer vision.Springer,Cham,2014:813-833)提出“DeconvNet”网络,该网络与其对应的教师网络共享部分权重参数,并把一些特征图映射到图像平面上。然而,该方法没有考虑到共享网络的权重参数不一定在小规模的学生网络表现出对特征更好的处理效果。
此外,Jimmy Ba Lei和Rich Caruana在文献“Do Deep Nets Really Need to beDeep?”([J]Advances in Neural Information Processing Systems,2014,27.)中通过逻辑回归的方式利用L2损失来训练学生网络模仿教师网络,提高小规模网络的表现。
显然,上述两种方法都是在教师网络某个层次的几次卷积后得到其特征信息,然后通过参数共享直接迁移知识或者减少迁移损失的形式实现学生网络模仿教师网络训练得到的信息。这两种方法直接将教师网络某一层次卷积后的注意力图迁移到学生网络的对应层次,求解向量距离时没能充分利用向量长度差异问题,因此导致学生网络难以在模仿教师网络的注意力图的同时训练达到任务要求,进而出现在迁移过程存在丢失重要信息、或是没能适应学生网络的网络结构等问题。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于嵌入特征相似度的注意力迁移的神经网络压缩方法。本发明要解决的技术问题通过以下技术方案实现:
第一方面,本发明提供一种基于嵌入特征相似度的注意力迁移的神经网络压缩方法,包括:
获取多个训练样本,每个所述训练样本包括样本图像以及所述样本图像对应的类别;
确定第一待训练神经网络模型后,利用所述训练样本训练所述第一待训练神经网络模型,得到教师网络;
利用所述教师网络生成第一注意力图向量;
确定第二待训练神经网络模型后,利用所述训练样本及预设损失函数训练所述第二待训练神经网络,并根据所述第二待训练神经网络模型生成的第二注意力图向量及输出结果确定损失值;其中,所述预设损失函数的损失值包括第一损失值和第二损失值,所述第一损失值为交叉熵损失值、所述第二损失值为第一注意力图向量与第二注意力图向量之间的损失值;
当预设损失函数的损失值满足预设条件时,所述第二待训练神经网络训练完成,获得压缩后的学生网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111387298.2/2.html,转载请声明来源钻瓜专利网。