[发明专利]一种跨平台模型推理的方法、系统、存储介质及设备在审
| 申请号: | 202111102450.8 | 申请日: | 2021-09-19 |
| 公开(公告)号: | CN113986234A | 公开(公告)日: | 2022-01-28 |
| 发明(设计)人: | 王慕雪 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06F8/41 | 分类号: | G06F8/41;G06F8/60;G06N5/04 |
| 代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 陈黎明;李红萧 |
| 地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 平台 模型 推理 方法 系统 存储 介质 设备 | ||
本发明提供了一种跨平台模型推理的方法、系统、存储介质及设备,方法包括:在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端;将该部署芯片的运行时库和机器学习库置入该深度学习编译框架,以在该深度学习编译框架上实现该部署芯片的功能函数并建立该标记后端对应的算子仓库;由该深度学习编译框架解析模型文件生成该深度学习编译框架中的计算图表示;响应于目标后端设置为该标记后端,从该算子仓库中查找该计算图中各个算子的实现,该深度学习编译框架将对应的该各个算子的实现以及对应的该功能函数生成动态链接库;在部署芯片上加载该动态链接库以执行模型推理。本发明降低了切换目标硬件平台的工作量,增加了后端的扩展性。
技术领域
本发明涉及服务器技术领域,尤其涉及一种跨平台模型推理的方法、系统、存储介质及设备。
背景技术
在模型推理任务中,将训练得到的模型部署在CPU、GPU、FPGA和其他新型人工智能芯片如寒武纪MLU等不同目标硬件平台上并保证推理的高效性是一项极具挑战的工作。不同种类的芯片在内存层次结构、支持的指令和数据类型等方面可能存在较大差异,已有的模型推理和优化方法大多数聚焦于单一种类的芯片设备。当切换目标硬件平台时,模型推理方法往往也需要随之更换,由此带来的成本代价将随着人工智能芯片的快速迭代而增加。
目前,NVIDIA推出的推理加速框架TensorRT对Caffe,TensorFlow 的网络模型进行解析并映射到TensorRT中对应的层,在TensorRT中可以使用专门针对NVIDIA GPU的优化策略对模型推理进行加速并生成能够在 GPU上运行的代码。
然而,上述解决方案仍具有一些缺点,主要在于后端扩展性不足。 TensorRT的优化和推理功能专门针对NVIDIA GPU设备,目前无法支持其他种类的人工智能芯片。
因此,需要提出一种用于模型推理的方法,针对现有技术中的上述缺点问题,降低模型推理时切换目标硬件平台的代价,解决上述后端扩展性不足等问题。
发明内容
有鉴于此,本发明的目的在于提出一种可用于不同硬件平台的、通用的模型推理的方法、系统、存储介质及设备,从而解决现有技术中传统的推理框架切换目标硬件平台的代价较高、后端扩展性不足等问题。
基于上述目的,一方面,本发明提供了一种跨平台模型推理的方法,其中该方法包括以下步骤:
在深度学习编译框架的目标后端模块中添加部署芯片作为标记后端;
将该部署芯片的运行时库和机器学习库置入该深度学习编译框架,以在该深度学习编译框架上实现该部署芯片的功能函数并建立该标记后端对应的算子仓库;
由该深度学习编译框架解析模型文件生成该深度学习编译框架中的计算图表示;
响应于目标后端设置为该标记后端,从该算子仓库中查找该计算图中各个算子的实现,该深度学习编译框架将对应的该各个算子的实现以及对应的该功能函数生成动态链接库;
在部署芯片上加载该动态链接库以执行模型推理。
在根据本发明的跨平台模型推理的方法的一些实施例中,将该部署芯片的运行时库和机器学习库置入该深度学习编译框架,以在该深度学习编译框架上实现该部署芯片的功能函数并建立该标记后端对应的算子仓库进一步包括:
在该深度学习编译框架的运行时模块引入该部署芯片的运行时库,用于实现该部署芯片的功能函数;
在该深度学习编译框架的计算图模块引入该部署芯片的机器学习库,用于通过该机器学习库的库函数的调用实现计算图中的各个算子,从而建立该标记后端对应的算子仓库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111102450.8/2.html,转载请声明来源钻瓜专利网。





