[发明专利]一种基于AI平台的加速卡类型管控方法、系统及装置有效
| 申请号: | 202110808781.7 | 申请日: | 2021-07-16 |
| 公开(公告)号: | CN113760538B | 公开(公告)日: | 2023-07-18 |
| 发明(设计)人: | 潘燕燕 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50 |
| 代理公司: | 济南舜源专利事务所有限公司 37205 | 代理人: | 赵阳 |
| 地址: | 215100 江苏省苏州*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 ai 平台 加速卡 类型 方法 系统 装置 | ||
1.一种基于AI平台的加速卡类型管控方法,其特征在于,包括:
在添加集群和进行节点操作时,自动扫描计算资源类型和加速卡信息,将扫描的计算资源信息同步更新到AI平台,并进行维护更新;
创建资源组时,区分创建GPU资源组和MLU资源组;
编辑资源组时,根据资源组类型及计算资源的加速卡类型,过滤可添加的计算资源;
删除资源组时,根据计算资源的加速卡类型,将计算资源回归到相应的默认资源组中;
创建普通管理员时,对普通管理员的MLU卡的使用配额进行限制;
在集群监控和报表统计区域增加对MLU卡使用情况的统计;
所述的节点操作具体包括:扩容节点、移除节点和定时同步节点信息;
所述自动扫描计算资源类型和加速卡信息,将扫描的计算资源信息同步更新到AI平台,并进行维护更新具体包括:
当添加集群时,若集群中的节点使用的加速卡为MLU卡,则自动创建MLU默认资源组defaultGroup_MLU,并将该节点添加至MLU默认资源组defaultGroup_MLU;否则,将该节点添加至GPU默认资源组defaultGroup;
当扩容节点时,若扩容的节点使用的加速卡为MLU卡,则自动创建MLU默认资源组defaultGroup_MLU,并将该节点添加至MLU默认资源组defaultGroup_MLU;否则,将该节点添加至GPU默认资源组defaultGroup;
当移除节点时,若移除的节点使用的加速卡为MLU卡,则将该节点在MLU默认资源组defaultGroup_MLU中移除;否则,将该节点在GPU默认资源组defaultGroup中移除;
当定时同步节点信息时,若同步的节点使用的加速卡为MLU卡,则更新MLU默认资源组defaultGroup_MLU;否则,更新GPU默认资源组defaultGroup;
所述区分创建GPU资源组和MLU资源组包括:
若创建GPU资源组,则从GPU默认资源组defaultGroup中调用计算资源;
若创建MLU资源组,则从MLU默认资源组defaultGroup_MLU中调用计算资源;
所述根据计算资源的加速卡类型,回归到相应的默认资源组中包括:
将GPU卡和无卡的计算资源,回归到GPU默认资源组defaultGroup中;
将MLU卡的计算资源,回归到MLU默认资源组defaultGroup_MLU中。
2.根据权利要求1所述的基于AI平台的加速卡类型管控方法,其特征在于:所述区分创建GPU资源组和MLU资源组还包括:
资源组创建完毕,在计算资源底层k8s添加资源类型标签。
3.根据权利要求1所述的基于AI平台的加速卡类型管控方法,其特征在于,所述对普通管理员的MLU卡的使用配额进行限制包括:
判断普通管理员是否关联了MLU资源组;
若否,则不为普通管理员设置MLU卡的使用配额;
若是,则为普通管理员设置MLU卡的使用配额,并进行管理员登录并使用MLU卡创建模型训练;判断当前MLU卡的使用总量是否超过MLU卡的使用配额,若是,则训练失败;若否,则模型训练创建成功。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110808781.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种塔吊地面安全检查方法
- 下一篇:结合CD39的抗体及其用途





