[发明专利]深度可分离卷积和批规范化融合的方法在审
申请号: | 201911321112.6 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111027685A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 范益波;刘超 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 深度 可分离 卷积 规范化 融合 方法 | ||
本发明属于神经网络模型技术领域,具体为一种深度可分离卷积和批规范化融合的方法。本发明首先从训练好的含有深度可分离卷积和批规范化层的神经网络模型,导出的Pointwise卷积的参数和批规范化的参数,通过特别设计的方法,重新计算出一组新的参数,用于对Pointwise卷积的权重和偏置进行赋值,修改Pointwise卷积的权重和偏置;然后删除掉原先网络结构中的批规范化层的效果,将批规范化层的计算添加在在Pointwise卷积中,得到与深度可分离卷积和批规范化等效的深度可分离卷积层,实现卷积融合批规范化的效果。本发明可有效地减少计算量。
技术领域
本发明属于神经网络模型技术领域,具体涉及一种深度可分离卷积和批规范化融合的方法。
背景技术
神经网络技术,尤其是轻量级神经网络一直是研究和应用的热点话题。深度可分离卷积,其有效的使得卷积层的计算量大大化简,其将卷积分为了两个步骤,第一个步骤称之为Depthwise卷积,其利用分组卷积的思想,使得不同卷积层之间无相互计算,仅仅计算单层卷积的结果,从而大幅度减少实现卷积的计算量。第二个步骤称之为Pointwise卷积,其有效的将第一步Depthwise卷积学习到的特征进行重新融合,从而实现对于Depthwise特征仅仅来自于单层的不足。使得其两者整体达到近似传统神经网络卷积的效果。其具体实现一般是使用卷积核为1x1的卷积完成。
批规范化层,由于可以有效的把神经网络中间层学习到的特征重新进行规范化,使得神经网络的梯度可以有效地在多层之间传递,从而使得深层神经网络的训练变得可能。其拥有四个参数,两个用来表示输入的均值和方差,使用均值和方差来让特征重新规范化。另外两个则是神经网络学习的参数,用于特征重构,实现让神经网络模型学习到的特征不被破坏。其和深度可分离卷积都是在实际的神经网络模型构建中,常常使用到的。因此如果可以将两者在实际应用的时候融合起来,就可以在实际应用中有效地减少计算量。
发明内容
本发明的目的在于提出一种融合深度可分离卷积和批规范化的方法,以有效地减少计算量。
本发明提出的融合深度可分离卷积和批规范化的方法,训练好的含有深度可分离卷积和批规范化层的神经网络模型,导出的Pointwise卷积的参数和批规范化的参数,通过特别设计的方法,重新计算出一组新的参数,用于对Pointwise卷积的权重和偏置进行赋值,修改Pointwise卷积的权重和偏置;然后删除掉原先网络结构中的批规范化层的效果,将批规范化层的计算添加在在Pointwise卷积中,得到与深度可分离卷积和批规范化等效的深度可分离卷积层,实现卷积融合批规范化的效果;具体步骤如下:
(1)对于训练好的含有深度可分离卷积和批规范化层的神经网络模型,要求在深度可分离卷积和批规范化层之间没有非线性激活函数,首先导出深度可分离卷积的Pointwise卷积的权重wpwConv和偏置项bpwConv,以及批规范化层的参数γ、β、mean和var;其中γ、β为批规范化层的学习参数,mean和var为批规范化层的计算参数;这些参数将用于后续的计算;
(2)按如下式子计算得到新的Pointwise卷积参数:
其中,∈表示的是一个防止出现除0的超参,*表示的是卷积计算;
(3)将和取代原有的Pointwise卷积的权重wpwConv和偏置项bpwConv,并删除原网络中的批规范化层,得到新的神经网络结构和对应的权重;至此,深度可分离卷积和批规范化融合完成;用ydwConv表示Depthwise卷积的输出,ybn表示批规范化的输出,这样就直接连接到了ydwConv和ybn:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911321112.6/2.html,转载请声明来源钻瓜专利网。