[发明专利]数据驱动的深度神经网络量化方法、系统、介质和设备在审
申请号: | 202110482327.7 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113159298A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 王浩然;梁俊文 | 申请(专利权)人: | 恒睿(重庆)人工智能技术研究院有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 宋宝库;郭婷 |
地址: | 401121 重庆市渝北*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 驱动 深度 神经网络 量化 方法 系统 介质 设备 | ||
本发明涉及深度神经网络的量化推理,具体提供一种数据驱动的深度神经网络量化方法、系统、介质和设备,旨在解决现有量化方法无法准确判断最佳截断值的问题。为此目的,本发明的方法包括:准备校准数据集;选择所述深度神经网络的需要量化的层;针对所选择的层,以校准数据的误差函数最小为目标,以scale和zero_point值为变量,使用最优化算法逐层进行迭代,从而获得最佳的scale和zero_point值;基于所述最佳的scale和zero_point值对所述深度神经网络进行量化。本发明的方法通过误差结果的比较来进行最佳截断值的选取,避免了现有统计学量化方法可能导致的假最优问题。
技术领域
本发明涉及深度神经网络的量化推理,具体提供一种数据驱动的深度神经网络量化方法、系统、存储介质和计算机设备。
背景技术
人工神经网络(Artificial Neural Network,ANN)是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,并具有自学习和自适应的能力。深度神经网络(Deep Neural Network,DNN)是指内部包含多个层的神经网络,其是机器学习(ML,Machine Learning)领域中的一种重要技术。
与深度神经网络相关的操作包括训练、推理和量化。训练是指向深度神经网络中输入足够多的样本,通过一定算法来调整网络结构(主要是调整权值),使深度神经网络的输出与预期值相符。推理是指将一个预先训练好的深度神经网络模型部署到实际业务场景中,如图像分类、物体检测、在线翻译等。由于推理直接面向用户,因此,推理性能至关重要,尤其对于企业级产品而言更是如此。为此,通过压缩模型尺寸来提高运算速度就变成一种实际的需求,而量化就是一种典型的模型压缩方法,其是通过将浮点参数转化为定点参数来降低运算精度并因此压缩模型和提升运算速度。
现有的量化方法在诸多神经网络架构上取得了突出的成果,但是或多或少存在以下几个问题:(1)保留部分网络结构不量化:现有的一些权值量化算法,尤其是超低比特的量化算法,为了减少权值量化带来的性能损耗,往往将第一层和最后一层的参数保持全精度浮点数,只量化中间层,这样不仅量化压缩比不高,整个网络的优化过程还需要利用两套数值精度的参数进行计算,大大影响了神经网络的运算速度。(2)一次性量化全部参数带来的性能损失较大:现有的另一些权值量化算法是基于一定的量化准则,一次性将神经网络中的所有待量化参数进行量化处理,这种做法没有循序渐进的过程,导致量化后的神经网络表达能力不强。(3)权值参数的分组不合理:为了克服一次性量化全部参数带来的弊端,另外一些量化算法提出了渐进式权值量化的思想,但是其权值参数分组策略过于简单,例如,随机分组和按照L1-norm进行分组,这些分组策略并没有充分探讨权值参数的重要性,所以,基于这些分组的渐进式权值量化算法的性能还有待提升。
基于以上问题,目前业界所公布的静态量化方法有如下几种解决方案:(a)MIN_MAX方法:直接选取校准数据集中可能出现的最大值和最小值作为最终的截断值,并由此计算出最终的scale(收缩因子)和zero_point(零点)的值。具体而言,使用所有数据集将整个网络运行一次,收集每个网络层中出现的最大值和最小值,然后根据下列等式计算出scale和zero_point的值:zero_point=(min_val+max_val)/2,scale=255*(min_val和max_val中绝对值更大的值)。(b)KL散度(方法):Nvidia公司开源实现了一种对量化前和量化后的数据分布求最小化相对熵(K-L散度)的方法来求量化因子,其中包含了模型参数和各层激活值(activation)的量化。但是,Nvidia的方法是一种基于统计学意义上的量化方法,其截断值可能不是真实的最优截断值。具体而言,这种基于统计学的方法更多讨论的是数据的分布,通过数据分布来猜测最终的效果,但是对于不同的神经网络,这类方法有时并不奏效。
相应地,本领域需要一种新的量化方法来解决上述问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒睿(重庆)人工智能技术研究院有限公司,未经恒睿(重庆)人工智能技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110482327.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置