[发明专利]一种支持多类集群后端的深度学习调度系统及调度方法在审

专利信息
申请号: 202110360064.2 申请日: 2021-04-02
公开(公告)号: CN113065848A 公开(公告)日: 2021-07-02
发明(设计)人: 黄进军;谢冬鸣;林健 申请(专利权)人: 东云睿连(武汉)计算技术有限公司
主分类号: G06Q10/10 分类号: G06Q10/10;G06F9/50;G06N3/04
代理公司: 武汉智正诚专利代理事务所(普通合伙) 42278 代理人: 熊远
地址: 430074 湖北省武汉市东湖新技术开发区金融*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 支持 集群 后端 深度 学习 调度 系统 方法
【权利要求书】:

1.一种支持多类集群后端的深度学习调度系统,其特征在于,所述系统包括作业管理组件、集群管理组件和至少一个后端集群;

所述作业管理组件,用于接收终端用户通过预设接口提交的符合统一抽象数据格式的深度学习作业请求;按照深度学习作业的统一抽象数据格式进行作业信息解析;

所述作业管理组件,还用于根据解析出的深度学习作业信息,从所述集群管理组件中获取与所述深度学习作业信息的运行条件相匹配的目标后端集群;

所述作业管理组件,还用于根据匹配到的目标后端集群的作业集群信息对统一的作业格式数据进行转换,转换为目标作业格式,所述目标作业格式为符合匹配到的所述目标后端集群的作业集群信息可接收的数据格式;

所述作业管理组件,还用于调用所述目标后端集群的对应驱动侧程序将所述目标作业格式提交至所述目标后端集群,以从所述目标后端集群中获取目标作业响应结果;

所述作业管理组件,还用于将所述目标作业响应结果转换至统一抽象数据格式;

所述作业管理组件,还用于将所述统一抽象数据格式返回至所述终端用户。

2.如权利要求1所述的调度系统,其特征在于,所述后端集群的类型包括高性能集群、容器化集群和大数据集群中的至少一种。

3.如权利要求2所述的调度系统,其特征在于,所述高性能集群为Slurm集群;所述容器化集群为Kubernetes集群;其中,所述Kubernetes集群使用REST API接口与后端集群进行交互;所述Slurm集群使用Slurm提供的命令行工具与后端集群进行交互。

4.如权利要求1所述的调度系统,其特征在于

所述作业管理组件用于以统一的抽象数据格式提供了提交深度学习作业的REST API;

所述作业管理组件用于以统一的抽象数据格式提供了获取深度学习作业的状态的REST API;

所述作业管理组件用于以统一的抽象数据格式提供了停止深度学习作业的REST API;

所述作业管理组件还用于内部处理外部统一抽象作业格式到集群侧驱动的具体格式转换;

所述作业管理组件还用于将统一作业请求发送至后端作业集群。

5.如权利要求1-4任一项所述的调度系统,其特征在于,

所述集群管理组件,用于添加后端作业集群;

所述集群管理组件,还用于查询后端作业集群的元数据信息。

6.如权利要求5所述的调度系统,其特征在于,所述集群管理组件用于同时接入一个或多个后端集群,所述后端集群的种类与组件提供的适配支持相关。

所述集群管理组件,还用于提供对多类后端集群的统一抽象描述,描述内容至少包括:集群名称、集群类型、集群接入地址、和集群认证信息;

所述集群管理组件,还用于提供查询所有后端集群的信息的方法;

所述集群管理组件,还用于提供监听后端集群的状态和取消后端集群监听的方法,其中,所述集群管理组件通过监听集群来获取所述深度学习作业的最新状态信息和相关运行时信息;

所述集群管理组件,还用于提供供客户端进行集群管理和查询集群信息的API接口。

7.如权利要求5所述的调度系统,其特征在于,所述集群管理组件用于为多类集群提供统一的作业创建、停止、及删除操作入口;

所述集群管理组件还用于对统一抽象的作业数据接口的编程实现;

所述集群管理组件还用于对统一抽象作业的生命周期管理的编程实现;

所述集群管理组件还用于提供了对终端用户统一的访问接口;

所述集群管理组件还用于支持多种运行模式的深度学习作业的调度,其运行模式包括但不限于:单进程模式、多进程模式、PS-Worker分布式模式、Master-Worker分布式模式、以及MPI分布式模式;

所述集群管理组件还用于为各类型集群环境分别提供集群侧驱动的适配支持,包括但不限于:提交作业的支持、停止作业的支持、以及获取作业状态的支持;

所述集群管理组件还用于为多类集群提供统一的查询作业状态、作业日志、作业资源使用情况的方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东云睿连(武汉)计算技术有限公司,未经东云睿连(武汉)计算技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110360064.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top