[发明专利]GPU虚拟化和资源调度方法和装置在审
申请号: | 202011012220.8 | 申请日: | 2020-09-24 |
公开(公告)号: | CN111930522A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 张昭;李强 | 申请(专利权)人: | 常州微亿智造科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F11/30 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 陈红桥 |
地址: | 213023 江苏省常州市钟*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | gpu 虚拟 资源 调度 方法 装置 | ||
1.一种GPU虚拟化和资源调度方法,其特征在于,包括以下步骤:
S1,将GPU在k8s集群上加载和注册,对GPU在cuda核心和显存的粒度上进行虚拟化,并根据虚拟化得到的k8s集群节点信息构建出节点资源列表;
S2,在待处理任务提交后,根据所述节点资源列表和所述待处理任务所需资源进行GPU资源的分配,其中,根据所述待处理任务所需资源的大小选择相应的调度器;
S3,在完成GPU资源的分配后,监控当前k8s集群各个节点的资源占用情况,并根据所述资源占用情况进行显示和报警。
2.根据权利要求1所述的GPU虚拟化和资源调度方法,其特征在于,所述待处理任务为分布式机器学习模型的训练任务。
3.根据权利要求1或2所述的GPU虚拟化和资源调度方法,其特征在于,步骤S1具体包括:
声明启动k8s device-plugin,发起GPU资源请求,得到包含cuda核心信息和显存信息的节点资源信息数组;
对所述节点资源信息数组进行解析;
根据解析结果构建包含GPU资源-节点映射的节点资源列表。
4.根据权利要求3所述的GPU虚拟化和资源调度方法,其特征在于,步骤S2具体包括:
根据所述待处理任务所需资源和所述节点资源列表进行GPU资源余量的判断;
如果GPU资源余量充足,则将可用的节点、容器和资源配置信息返回给任务控制器;
如果GPU资源余量不足,则将所述待处理任务放回任务提交队列,并在后续GPU资源空闲时根据所述待处理任务所需资源和提交时间拉起所述待处理任务,将当前可用的节点、容器和资源配置信息返回给任务控制器;
所述任务控制器根据返回的可用的节点、容器和资源配置信息标记任务执行候选容器,并根据所述待处理任务所需资源的大小选择相应的调度器,实现GPU资源的分配。
5.根据权利要求4所述的GPU虚拟化和资源调度方法,其特征在于,所述资源占用情况包括Perf分析数据、显存使用量、利用率、进程,步骤S3具体包括:
采样所述资源占用情况;
根据所述资源占用情况构建和显示任务节点资源占用视图和任务运行状态视图;
根据所述资源占用情况和预设的报警规则发出报警提示。
6.根据权利要求5所述的GPU虚拟化和资源调度方法,其特征在于,还包括:
在所述待处理任务处理完成后,卸载处理完成的任务的GPU资源,更新可用的节点、容器和资源配置信息,更新所述节点资源列表。
7.一种GPU虚拟化和资源调度装置,其特征在于,包括:
虚拟化模块,所述虚拟化模块用于将GPU在k8s集群上加载和注册,对GPU在cuda核心和显存的粒度上进行虚拟化,并根据虚拟化得到的k8s集群节点信息构建出节点资源列表;
分配模块,所述分配模块用于在待处理任务提交后,根据所述节点资源列表和所述待处理任务所需资源进行GPU资源的分配,其中,根据所述待处理任务所需资源的大小选择相应的调度器;
监控模块,所述监控模块用于在完成GPU资源的分配后,监控当前k8s集群各个节点的资源占用情况,并根据所述资源占用情况进行显示和报警。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现根据权利要求1-6中任一项所述的GPU虚拟化和资源调度方法。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1-6中任一项所述的GPU虚拟化和资源调度方法。
10.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行根据权利要求1-6中任一项所述的GPU虚拟化和资源调度方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州微亿智造科技有限公司,未经常州微亿智造科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011012220.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢帘线压延模拟实验装置
- 下一篇:时间序列数据异常检测方法和装置