[发明专利]一种针对硬件实现稀疏化卷积神经网络推断的加速方法有效
| 申请号: | 201811486547.1 | 申请日: | 2018-12-06 |
| 公开(公告)号: | CN109711532B | 公开(公告)日: | 2023-05-12 |
| 发明(设计)人: | 陆生礼;庞伟;吴成路;范雪梅;舒程昊;梁彪 | 申请(专利权)人: | 东南大学;东南大学—无锡集成电路技术研究所;南京三宝科技股份有限公司 |
| 主分类号: | G06N3/082 | 分类号: | G06N3/082;G06N3/084;G06N3/0464 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 葛潇敏 |
| 地址: | 214135 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 硬件 实现 稀疏 卷积 神经网络 推断 加速 方法 | ||
1.一种针对硬件实现稀疏化卷积神经网络推断的加速方法,其特征在于:首先确定分组剪枝参数,然后基于确定的参数训练卷积神经网络,最后构建针对稀疏化卷积神经网络前向推断的整体架构,其中,
所述确定分组剪枝参数的方法是:
S1:确定分组剪枝的分组长度g,激活值与权值获取组的长度决定稀疏卷积网络加速器的内部缓冲区大小;
S2:根据预期设定的压缩率Δ=1-p/g定义,其中p/g为分组长度中待剪枝权值占整体分组长度的比值,确定相同分组长度下的非剪枝权值数;
S3:基于量级的裁剪方式,根据权值的大小来评判其重要性,确定待剪枝的获取组剪枝阈值ε;由步骤S1-S2确定分组长度中全部g个权值经过量级排序后挑选前p个较小权值进行裁剪;
所述训练卷积神经网络的方法是:
T1:按照正常流程训练一个卷积神经网络;
T2:确定一个待剪枝的层后,根据确定分组剪枝参数的方法划分待修剪的权值获取组,设定待裁剪阈值或比例;
T3:加入掩码矩阵,其中掩码矩阵与权值参数矩阵的尺寸保持一致,其每个位置上取值只为0或1,分别表示此位置是否裁剪,参数在计算之前先乘该掩码矩阵:掩码矩阵位为1的参数值将继续训练通过反向传播调整,而掩码矩阵位为0的部分因为输出始终为0则不对后续部分产生影响;
T4:重复步骤T2-T3,逐步递增待剪枝的层数直到一个完整的网络各层剪枝完成;
T5:对剪枝后的网络按正常训练流程重新训练微调网络精度;
所述构建针对稀疏化卷积神经网络前向推断的整体架构包括中央控制模块、片上SRAM、PE阵列和ReLU模块,中央控制模块协调SRAM、PE阵列和ReLU模块间的数据传输,特征图SRAM用于存放中间部分和计算结果、输入特征图以及输出特征图,权值SRAM内部存储剪枝稀疏后的卷积核权值及其索引坐标,片上SRAM和PE阵列通过全局总线进行通信,ReLU模块完成卷积计算后的功能计算。
2.如权利要求1所述的加速方法,其特征在于:所述步骤S1中,剪枝方向为滤波器方向或通道方向。
3.如权利要求1所述的加速方法,其特征在于:所述步骤S1中,稀疏计算单元的获取组长度g与乘法器个数Nmul相同。
4.如权利要求1所述的加速方法,其特征在于:所述步骤T2中,卷积层剪枝率高于阈值时,同时设置初始剪枝数p0和增量数p+,增量数p+使用过程中获取组中仅将一个权值量级最小的权值剪枝掉,经过一段时间再训练后,接着选择并修剪一个再训练量级最小的权值,直到达到目标数量p。
5.如权利要求1所述的加速方法,其特征在于:所述PE阵列下的单个PE计算单元通过全局总线获取批次的输入特征图和分组剪枝后的稀疏权值,稀疏权值的存取包括未剪枝数及其对应的索引位置,所述PE计算单元中的选择器通过索引位置将对应分组长度g的特征图挑选出来乘加操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学;东南大学—无锡集成电路技术研究所;南京三宝科技股份有限公司,未经东南大学;东南大学—无锡集成电路技术研究所;南京三宝科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811486547.1/1.html,转载请声明来源钻瓜专利网。





