[发明专利]一种基于AI平台的加速卡类型管控方法、系统及装置有效
| 申请号: | 202110808781.7 | 申请日: | 2021-07-16 |
| 公开(公告)号: | CN113760538B | 公开(公告)日: | 2023-07-18 |
| 发明(设计)人: | 潘燕燕 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50 |
| 代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 赵阳 |
| 地址: | 215100 江苏省苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 ai 平台 加速卡 类型 方法 系统 装置 | ||
本发明提出的一种基于AI平台的加速卡类型管控方法、系统及装置,所述方法包括:在添加集群和进行节点操作时,扫描计算资源信息,将计算资源信息同步更新到AI平台,并进行维护更新;创建资源组时,区分创建GPU资源组和MLU资源组;编辑资源组时,根据资源组类型及计算资源的加速卡类型,过滤可添加的计算资源;删除资源组时,根据计算资源的加速卡类型,将计算资源回归到相应的默认资源组中;创建普通管理员时,对普通管理员的MLU卡使用配额进行限制。本发明实现了AI平台对多种多个计算资源的多种加速卡类型的管控,使AI平台支持的计算资源多样化,支持了多种应用场景的顺畅切换、使不同类型的计算资源能够顺畅的回收和再分配。
技术领域
本发明涉及计算机技术领域,更具体的说是涉及一种基于AI平台的加速卡类型管控方法、系统及装置。
背景技术
目前,NVIDIA的GPU显卡,支持配置MIG模式、显存隔离、GPU复用等提高GPU显卡利用率的方法,同时平台可以根据不同的应用场景,以通用、开发、训练等标签对GPU显卡进行管理。现阶段,AI(Artificial Intelligence,人工智能)平台进行模型训练,需要配置资源组,用户与资源组关联后,能够使用资源组下的资源,提交训练任务。资源组的配置的成功与否,直接关系到AI平台能否正常提交训练任务。
在AI平台中,没有创建资源组时,包含GPU卡、无GPU卡的计算资源在默认资源组defaultGroup中,当创建新的资源组时,所使用的计算资源从默认资源组defaultGroup中剥离,添加到新建的资源组中,当资源组被删除时,资源组内的计算资源释放,计算资源回到默认资源组defaultGroup中。因此,随着更多计算资源的应用,用户需要AI平台支持多种计算资源类型,包括GPU、MLU(机器学习处理器)等计算资源类型。
但是,现有的AI平台在管控加速卡时存在如下缺陷:
1、资源组不支持GPU卡类型外的其他加速卡类型的管理。
2、管理员没有GPU卡配额以外的其他加速卡类型的配额。
3、资源统计区域统计不到GPU卡类型以外的其他加速卡类型的资源使用情况。
发明内容
针对以上问题,本发明的目的在于提供一种基于AI平台的加速卡类型管控方法、系统及装置,实现了AI平台对多种多个计算资源的多种加速卡类型的管控,使AI平台支持的计算资源多样化,支持了多种应用场景的顺畅切换、使不同类型的计算资源能够顺畅的回收和再分配。
本发明为实现上述目的,通过以下技术方案实现:一种基于AI平台的加速卡类型管控方法,包括:
在添加集群和进行节点操作时,自动扫描计算资源类型和加速卡信息,将扫描的计算资源信息同步更新到AI平台,并进行维护更新;
创建资源组时,区分创建GPU资源组和MLU资源组;
编辑资源组时,根据资源组类型及计算资源的加速卡类型,过滤可添加的计算资源;
删除资源组时,根据计算资源的加速卡类型,将计算资源回归到相应的默认资源组中;
创建普通管理员时,对普通管理员的MLU卡的使用配额进行限制。
进一步,所述的节点操作具体包括:扩容节点、移除节点和定时同步节点信息。
进一步,所述自动扫描计算资源类型和加速卡信息,将扫描的计算资源信息同步更新到AI平台,并进行维护更新具体包括:
当添加集群时,若集群中的节点使用的加速卡为MLU卡,则自动创建MLU默认资源组defaultGroup_MLU,并将该节点添加至MLU默认资源组defaultGroup_MLU;否则,将该节点添加至GPU默认资源组defaultGroup;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110808781.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种塔吊地面安全检查方法
- 下一篇:结合CD39的抗体及其用途





