[发明专利]一种深度学习模型推理期加速方法、装置及系统有效
申请号: | 201810685004.6 | 申请日: | 2018-06-27 |
公开(公告)号: | CN109034371B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 曹松;魏汉秦;林宇;陶海 | 申请(专利权)人: | 北京文安智能技术股份有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 学习 模型 推理 加速 方法 装置 系统 | ||
本发明涉及深度神经网络学习技术领域,公开了一种深度学习模型推理期加速方法、装置及系统。本发明深度学习模型推理期加速方法通过获取优化深度学习模型及待处理数据;所述优化深度学习模型带有优化合并参数;通过带有所述优化合并参数的优化深度学习模型对所述待处理数据进行数据处理;将所述数据处理后的数据输出。本发明通过带有所述优化合并参数的优化深度学习模型对所述待处理数据进行数据处理;节省了深度学习模型推理期中的额外计算开销,从而使得深度学习模型的应用过程中减少了推理期计算时间和响应延迟,降低了设备功耗。
技术领域
本发明涉及深度神经网络学习技术领域,特别涉及一种深度学习模型推理期加速方法、装置及系统。
背景技术
近年来,深度学习技术的突破极大地推动了计算机视觉领域的发展,传统问题的精度不断提高,渐近极限,新的应用领域也在不断拓展。
图形处理器(Graphics Processing Unit,简称GPU)是当前云端与嵌入式端深度学习计算的主流计算设备。“英伟达张量运行时”(NVIDIA TensorRT)是一种高性能神经网络推理引擎,负责转换、优化训练好的模型,实现在NVIDIA GPU上加速执行,用于在生产环境中部署深度学习应用程序。在处理“批归一化”计算时,TensorRT用尺度变换(scale)来实现。
在最新的神经网络框架中(如PyTorch),更进一步的优化是,将卷积、批归一化、非线性激活这些在训练期被表达为单独计算单元的计算核(kernel)合而为一,从而将访存限制于片上,以减少推理期的片外访存开销。
英特尔(INTEL)的视觉处理器(Movidius Vision Processing Unit,简称VPU)是一种低功耗视觉处理芯片,被用来在边缘计算领域加速深度学习计算。由该芯片厂商提供的神经网络推理引擎“Movidius张量计算库”(MvTensor)采用了与TensorRT相同的实现方案,即尺度变换(scale)。
然而,发明人发现,现有技术中至少存在以下问题:
现有技术在深度学习模型推理期保留有额外计算开销,从而增加了计算时间、响应延迟和设备功耗。
发明内容
本发明的目的在于提供一种深度学习模型推理期加速方法、装置及系统,使得深度学习模型的应用过程中可以减少推理期计算时间和响应延迟,降低设备功耗。
为解决上述技术问题,一方面,本发明的实施方式提供了一种深度学习模型推理期加速方法,包括:
获取优化深度学习模型及待处理数据;所述优化深度学习模型带有优化合并参数;
通过带有所述优化合并参数的优化深度学习模型对所述待处理数据进行数据处理;
将所述数据处理后的数据输出。
其中,该方法还包括:
获取待优化的卷积神经网络模型及其训练数据;其中,所述待优化的卷积神经网络模型带有“批归一化”结构;
通过所述训练数据,对所述待优化的卷积神经网络模型进行优化,获取第一模型;
获取所述第一模型中对应的卷积与“批归一化”参数以及优化合并方式;
根据所述优化合并方式,合并所述第一模型中对应的卷积与“批归一化”参数,并获取所述优化深度学习模型。
其中,所述优化合并参数为优化卷积参数;所述优化卷积参数包括:优化卷积权重参数和优化卷积偏置参数
其中,所述优化合并方式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京文安智能技术股份有限公司,未经北京文安智能技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810685004.6/2.html,转载请声明来源钻瓜专利网。