[发明专利]一种基于熵注意的神经网络模型压缩与加速方法在审

专利信息
申请号: 201910400927.7 申请日: 2019-05-15
公开(公告)号: CN110097178A 公开(公告)日: 2019-08-06
发明(设计)人: 闵锐;蒋霆 申请(专利权)人: 电科瑞达(成都)科技有限公司
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08
代理公司: 成都点睛专利代理事务所(普通合伙) 51232 代理人: 孙一峰
地址: 610041 四川省*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于神经网络技术领域,涉及一种基于熵注意的神经网络模型压缩与加速方法。本发明通过构建一个参数量大,计算量大且性能优越的教师网络模型来对一个参数量少、计算量少且性能欠佳的学生网络的强监督学习,通过该学习过程,最终得到了一个参数量少、计算量少且性能优越的小模型,该小模型能够满足现实场景的实时性以及精度要求。
搜索关键词: 计算量 神经网络模型 神经网络技术 压缩 精度要求 网络模型 现实场景 学习过程 实时性 构建 教师 学生 网络 监督 学习
【主权项】:
1.一种基于熵注意的神经网络模型压缩与加速方法,其特征在于,包括以下步骤:S1、获取训练样本:采集原始的光学图像数据,并进行数据归一化以及数据增强处理,获得训练样本;S2、构建卷积神经网络模型S21、构建一个由卷积滤波器与池化滤波器级联而成的卷积神经网络,卷积滤波器用于对输入数据进行特征提取,卷积滤波器的数量表示提取的特征的丰富程度,池化滤波器用于对输入进行降维,从而降低模型的参数与计算代价;将该步骤构建的模型定义为教师网络;S22、构建一个相比步骤S21中建立的教师网络要浅且窄的卷积神经网络模型,定义为学生网络;S3、卷积神经网络模型训练S31、参数初始化,包括学习率α,训练迭代次数为n,Mini‑batch大小A,教师网络宽度W和深度H、学生网络宽度w和深度h,训练集和验证集占比r,采用随机梯度优化算法SGD作为优化函数;S32、每次从训练样本中随机抽取包含A个样本的mini‑batch作为训练数据,初始训练教师网络,训练直到设定的迭代次数n,得到初始训练好的教师网络,然后进入S33;S33、每次从训练样本中随机抽取包含A个样本的mini‑batch作为训练数据,通过构建教师网络和学生网络之间的共同的目标函数,训练得到学生网络,具体构建方式如下:S331、将教师网络和指定宽度w和深度h的学生网络结合,即输入数据将同时通过教师网络和学生网络;初始训练好的教师网络的Softmax输出同学生网络的输出构建交叉熵作为软目标S,而学生网络的输出同当前数据类别标签构建交叉熵作为硬目标H,带温度的Softmax的公式定义如下所示:其中qi为带温度的Softmax概率,Z是某个类别的logit输出,下标j是指所有类别,i是指其中一个类别,T为温度值,总的损失函数是软硬目标之间的加权和,设为LKD,公式如下所示:LKD=a*S+b*H该损失函数用于单独作为监督信息,其中系数a和b分别为软目标与硬目标的加权系数,通过加权系数的设置,能够平衡两个交叉熵损失之间的重要性;S332、构建教师网络中间层与对应学生网络的中间层的熵注意知识迁移损失,该损失构建分为低中高三个位置,教师网络在三个位置对学生网络进行监督学习,将损失函数在定义为EAKT损失;为了构建注意力机制,考虑到卷积层的每个激活通道的信息量的差异,引入信息熵,具体的信息熵的公式如下所示:其中E为某个激活通道的信息熵值,每个激活通道将得到一个参数向量,将每个通道对应的参数向量中不同的值分到K个组中,每个组的概率为pi;在卷积神经网络中,某一层的激活张量设为S∈RM×C×H×W,其中M为Batch Size的大小,包含C个通道,且通道维度为H×W;定义熵注意策略的映射函数为F1和F2,该映射函数将4D张量S映射成一个同样为4D张量的O;映射的过程分为两个步骤,一是根据信息熵的大小来获取重要的激活通道,设映射函数为F1,二是对重要的激活通道做函数映射得到注意力图,设映射函数为F2;映射方式如下F1:F2:其中CT为教师网络的激活通道维度,CS为学生网络对应的激活通道维度;定义映射函数F1,由前面提到的信息熵公式,为了计算每个通道的信息熵,因为输入激活张量是一个4D张量,首先在H×W维度求均值,得到M1∈RM×C,然后按照Batch Size的维度将其分为N个部分,然后计算C个激活通道中每个激活通道的概率,该概率中即是对应的每个通道的信息熵值;即为丢弃信息熵值比较小的激活通道后的维度,得到同学生网络对应位置激活通道维度相同的教师网络的激活张量;采用作为空间注意力映射函数,其中Oi=O(:,i,:,:),通过F2的映射,最终四维的激活张量变换成RN×H×W三维的张量;同F1结合,整体构成一个整的映射函数F来获取信息量大的激活通道注意;假设迁移损失被放置在相同空间分辨率的学生网络和教师网络熵注意力图之间,设T,S和WT,WS相应地表示学生,教师及其对应的权重,L(WS,y)表示学生网络的输出概率与真实标签之间构成的标准的交叉熵损失,B表示熵注意力图的所有教师和学生激活层对的索引;定义总的损失函数LEAKT如下:其中为某一教师和学生中间层的激活输出对;可以看出,在熵注意力迁移损失项,使用l2归一化处理,采用E/||E||2替换掉仅仅为E的情况,注意力图的归一化处理对于学生网络的训练成功至关重要。将损失函数LEAKT和LKD结合,构建一个由两个损失的加权和构成的联合损失,损失函数用LEAKT+KD表示,其中,因为LKD和LEAKT中都存在学生网络的输出和真实标签的交叉熵损失项,因此在构建联合损失的情况下只需要保留其中一项由学生网络的输出与真实标签构成的交叉熵损失,具体公式如下:LEAKT+KD=LKD+β*LEAKT其中β是权重系数,通过调节β的值,可以平衡两个目标函数的重要性;S36、判断迭代次数是否达到设定的总的迭代次数n,若是,则执行步骤S37;如果不是,回到步骤S33,直到达到迭代次数n;S37、模型基本训练学习完毕,保存学生网络模型作为结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电科瑞达(成都)科技有限公司,未经电科瑞达(成都)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910400927.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top