[发明专利]一种基于通道分组低比特神经网络参数压缩量化方法在审
申请号: | 201910333000.6 | 申请日: | 2019-04-24 |
公开(公告)号: | CN110059822A | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 郭韶燕;景璐 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 张涛 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 权重 转化 量化 神经网络参数 偏移量 最小值计算 分组 比特量化 比特位数 模型存储 内存消耗 嵌入式端 权重训练 压缩 组通道 推理 算法 所有权 重复 网络 | ||
一种基于通道分组低比特神经网络参数压缩量化方法,包括以下步骤:1将权重按通道分成q个组;2基于q组通道定义bit数和训练转化比例;3基于定义的bit数和训练转化比例,计算每组权重的量化范围并将每组权重转化为2n形式,并使用未转化的权重训练网络;4针对未转化的权重重复步骤3),直到所有权重完成计算和转化;5计算转化后的权重的最小值;6根据转化后的权重的最小值计算偏移量,基于偏移量将模型存储成特定形式。通过本发明的方法,能够解决现有量化算法中,比特位数低,模型精度下降,高比特量化,嵌入式端推理时间长,内存消耗高的问题。
技术领域
本领域涉及计算机领域,并且更具体地涉及一种基于通道分组低比特神经网络参数压缩量化方法。
背景技术
深度卷积网络(DCN)在学术界和工业界都有大规模应用,在学术界,较传统学习,已经表现出卓越的性能,特别是在图像分类任务中(Imagenet2012比赛),而在工业界深度卷积网络已应用到人脸识别、车牌识别、票据识别等各个方面。较为复杂的网络模型,有较高的性能(Resnet50),然而复杂的模型参数较多,推理时间长。因此,对复杂模型进行高效计算及模型压缩已成为亟待解决问题。
将模型参数量化是通常采用的方法,比特位数越少,模型压缩率越高,计算速度越快,但模型精度越低。因此应尽可能将模型量化为较少比特位数,同时保证模型精度。
针对深度卷积网络的量化与压缩问题,已有一些方法被提出。这些算法针对小型网络低比特量化,精度损失较小,但对大型网络(Alexnet、Googlenet、Resnet),精度损失较大。
通过张量分解方法,将权重张量分解成多个低秩子张量的和,并用该多个低秩子张量替换原深度卷积神经网络中各层的权重张量,从而实现网络的量化与压缩。即一个权重张量,需要多个低阶权重张量代替。
基于预先设定的量化位宽直接量化初始的权值张量得到权值定点表示张量,或者基于预先设定的量化位宽量化初始的权值张量,将得到的结果进行迭代训练后,得到权值定点表示张量。即浮点型张量用nbit张量代替,且每层张量bit位数一样,范围一致。现有量化算法,将浮点权重转为nbit权重方法是一种有效的压缩及加速方法,但是随着bit位数减少,模型精度损失严重。而高bit量化,有不能满足嵌入式端应用,尤其是大型网络应用。
发明内容
有鉴于此,本发明实施例的目的在于提出一种基于通道分组低比特神经网络参数压缩量化方法,能够解决现有量化算法中,比特位数低,模型精度下降,高比特量化,嵌入式端推理时间长,内存消耗高的问题。
基于上述目的,本发明的实施例的一个方面提供了一种基于通道分组低比特神经网络参数压缩量化方法,包括以下步骤:
1)将权重按通道分成q个组;
2)基于q组通道定义bit数和训练转化比例;
3)基于定义的bit数和训练转化比例,计算每组权重的量化范围并将每组权重转化为2n形式,并使用未转化的权重训练网络;
4)针对未转化的权重重复步骤3),直到所有权重完成计算和转化;
5)计算转化后的权重的最小值;
6)根据转化后的权重的最小值计算偏移量,基于偏移量将模型存储成特定形式。
根据本发明的一个实施例,训练转化比例包括0.3、0.7、0.8、1。
根据本发明的一个实施例,量化范围的计算包括以下步骤:
将权重从大到小排序,取前预定比例的权重;
根据计算公式求得比例的权重的指数的最大值和最小值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910333000.6/2.html,转载请声明来源钻瓜专利网。