[发明专利]一种深度学习推理自动量化方法和装置有效
申请号: | 201910780310.2 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110674924B | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 沈付旺 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 学习 推理 自动 量化 方法 装置 | ||
本发明提供一种深度学习推理自动量化方法,包括以下步骤:从数据集的每个类别中各随机挑选一张图片,由量化工具量化后的权值对所述图片进行fp32推理并将推理所得激活值进行暂存;动态迭代以使得各层的各通道中激活值中每一个元素的绝对值为所有图片推理所得所述激活值中相应位置元素的最大值,并将所述迭代后的各通道激活值保存为激活值文件;对所述激活值文件中的激活值进行2的次幂膨胀量化,并统计每一层的量化指数直方图;根据所述每一层的量化指数直方图计算得到所述层量化指数的均值,并将所述均值设置为量化指数的上限。本发明的量化方法不指定量化阈值,不需要进行遍历寻找最佳阈值,能够加快运算速度,提高运算效率,节省运算开销。
技术领域
本发明涉及深度学习领域,并且更具体地,涉及一种深度学习推理自动量化方法和装置。
背景技术
深度学习理论及其相关技术日新月异的今天,其相关的应用也越来越多地出现在大众的视野当中。优秀的深度学习及人工智能技术不断地被应用在我们的日常生活当中,如图片、视频处理、自动驾驶、人脸识别等等,但同时大量的浮点运算、内存、电量开销,使得目前这些应用仍然存在着运行成本高昂、速度缓慢、并行处理效率较低等问题。比如在这些应用中最常用的深度卷积神经网络模型ResNet50,其浮点运算量达到了4.14GFlops(每秒千兆次浮点运算)。一款定制的自动驾驶软件动辄几万甚至几十万,专业图片与视频的处理仍然需要远端强大的服务器处理,商场大流量的人脸检测与监控需要专门的机房用来运行相关的设备及软件等等。使用成本与运行效率等成为了人工智能技术在相关移动及嵌入式设备上部署和应用小型化的瓶颈和障碍。
目前解决运算开销和使用成本的方案有深度卷积网络模型的深度压缩和量化,针对卷积运算优化的低秩分解、网络模型蒸馏以及小型化网络的设计。在这些解决方案当中,共同的目标是尽量要保持数据集的测试精度,又能有效地降低计算量,提高计算效率,降低相应的开销。网络模型的深度压缩和量化作为简单且高效的解决方案,一直被人们研究和使用,其他几种解决方案因实现的复杂性,不同的网络结构需要深度定制,不能够很好地达到相关深度卷积网络模型地精度等原因而不被大家广泛使用。深度卷积网络模型的量化可将计算设备上的浮点运算转化为整数甚至移位计算,它不仅是网络模型压缩的关键同时可大幅降低网络计算的时间和开销。
一般的在深度卷积网络模型计算的权重和激活值都是浮点数,针对网络量化目前主要有相对熵量化、三值网络、二值网络、XNOR-Net(二值化卷积神经网络)等方面的研究。目前对于8-bit量化方案,一般对于权值和激活值都是线性量化,即按层或者通道将相应的权值或者激活值投影到8bit的范围即-127-127之间。对于分布较为均匀的数值来说,这一方法可以很好地满足量化的需求,能够较好地携带原始信息。但是如果数值分布差异较大,往往会使得部分数值压缩在极小地范围之内,从而丢失较多信息。其中解决这一问题的方案是相对熵量化方法,该方法旨在充分利用量化数值空间,最大化地携带原始数值信息。
其中,相对熵量化,主要是将权值或者激活值充分地线性投影到-127-127的8bit(比特)范围之内,其核心思想是确定量化的阈值,丢掉部分浮点数据,使得权值或者激活值能够更加均匀地映射,充分利用int8的数值范围,从而选择线性量化的最优解。相对熵量化的技术方案的具体实施步骤为:1)收集在标定集上用fp32推理得到的激活值的直方图;2)设定阈值列表,对阈值列表在相应的标定集激活层上进行遍历并产生得到不同的量化分布;3)然后计算每一个分布与原始分布的相对熵,然后取相对熵最少的那个阈值,作为阈值的最优值。按照这三个步骤可以找到较好的量化阈值,使得模型的表现精度能够保持在很高的水平。可以看到,该量化方案是在相应的标定集上进行操作,并收集整个标定集激活值的直方图,对于较大较深的模型来说,整个标定集在该网络上的激活值输出文件会异常巨大,不利于存储,对存储资源要求相对较高;另外就是该方法在寻找阈值这一问题上,虽然设计了相对熵作为阈值设定的好坏标准,但是仍然是利用循环遍历的方式来进行阈值的评估,比较耗时不够智能;由该量化方案最后得到的量化数值,在进行卷积计算时主要是8-bit的乘加运算,相比于移位计算来说其效率和开销相对来说还是较大的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910780310.2/2.html,转载请声明来源钻瓜专利网。