[发明专利]GPU虚拟化和资源调度方法和装置在审
申请号: | 202011012220.8 | 申请日: | 2020-09-24 |
公开(公告)号: | CN111930522A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 张昭;李强 | 申请(专利权)人: | 常州微亿智造科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F11/30 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 陈红桥 |
地址: | 213023 江苏省常州市钟*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | gpu 虚拟 资源 调度 方法 装置 | ||
本发明提供一种GPU虚拟化和资源调度方法和装置,所述方法包括以下步骤:S1,将GPU在k8s集群上加载和注册,对GPU在cuda核心和显存的粒度上进行虚拟化,并根据虚拟化得到的k8s集群节点信息构建出节点资源列表;S2,在待处理任务提交后,根据所述节点资源列表和所述待处理任务所需资源进行GPU资源的分配,其中,根据所述待处理任务所需资源的大小选择相应的调度器;S3,在完成GPU资源的分配后,监控当前k8s集群各个节点的资源占用情况,并根据所述资源占用情况进行显示和报警。本发明的方法具有灵活、高效、节省资源、运行健壮等优点。
技术领域
本发明涉及GPU虚拟化技术领域,具体涉及一种GPU虚拟化和资源调度方法、一种GPU虚拟化和资源调度装置、一种计算机设备、一种非临时性计算机可读存储介质和一种计算机程序产品。
背景技术
深度学习中的卷积神经网络,在数学上是诸多卷积运算和矩阵运算的集合,而卷积运算也可以转换为矩阵运算来完成。这些运算操作与GPU(Graphics Processing Unit,图形处理器)经常运行的图形运算是类似的,因此深度学习的相关算法更适宜用GPU去执行。
大型的分布式机器学习的相关算法较多,运算任务量巨大。因此,目前一般的GPU虚拟化和资源调度策略难以满足大型分布式机器学习任务,例如分布式机器学习模型训练的需求。
因此,亟需为大型分布式机器学习任务提出一种灵活、高效、节省资源、运行健壮的GPU虚拟化和资源调度策略。
发明内容
本发明为解决上述技术问题,提供了一种GPU虚拟化和资源调度方法,具有灵活、高效、节省资源、运行健壮等优点。
本发明还提出一种GPU虚拟化和资源调度装置、一种计算机设备、一种非临时性计算机可读存储介质和一种计算机程序产品。
本发明采用的技术方案如下:
一种GPU虚拟化和资源调度方法,包括以下步骤:S1,将GPU在k8s(Kubernetes,一种开源的容器编排引擎)集群上加载和注册,对GPU在cuda(Compute Unified DeviceArchitecture,统一计算设备架构)核心和显存的粒度上进行虚拟化,并根据虚拟化得到的k8s集群节点信息构建出节点资源列表;S2,在待处理任务提交后,根据所述节点资源列表和所述待处理任务所需资源进行GPU资源的分配,其中,根据所述待处理任务所需资源的大小选择相应的调度器;S3,在完成GPU资源的分配后,监控当前k8s集群各个节点的资源占用情况,并根据所述资源占用情况进行显示和报警。
所述待处理任务为分布式机器学习模型的训练任务。
步骤S1具体包括:声明启动k8s device-plugin,发起GPU资源请求,得到包含cuda核心信息和显存信息的节点资源信息数组;对所述节点资源信息数组进行解析;根据解析结果构建包含GPU资源-节点映射的节点资源列表。
步骤S2具体包括:根据所述待处理任务所需资源和所述节点资源列表进行GPU资源余量的判断;如果GPU资源余量充足,则将可用的节点、容器和资源配置信息返回给任务控制器;如果GPU资源余量不足,则将所述待处理任务放回任务提交队列,并在后续GPU资源空闲时根据所述待处理任务所需资源和提交时间拉起所述待处理任务,将当前可用的节点、容器和资源配置信息返回给任务控制器;所述任务控制器根据返回的可用的节点、容器和资源配置信息标记任务执行候选容器,并根据所述待处理任务所需资源的大小选择相应的调度器,实现GPU资源的分配。
所述资源占用情况包括Perf分析数据、显存使用量、利用率、进程,步骤S3具体包括:采样所述资源占用情况;根据所述资源占用情况构建和显示任务节点资源占用视图和任务运行状态视图;根据所述资源占用情况和预设的报警规则发出报警提示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州微亿智造科技有限公司,未经常州微亿智造科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011012220.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢帘线压延模拟实验装置
- 下一篇:时间序列数据异常检测方法和装置