[发明专利]一种支持多类集群后端的深度学习调度系统及调度方法在审
申请号: | 202110360064.2 | 申请日: | 2021-04-02 |
公开(公告)号: | CN113065848A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 黄进军;谢冬鸣;林健 | 申请(专利权)人: | 东云睿连(武汉)计算技术有限公司 |
主分类号: | G06Q10/10 | 分类号: | G06Q10/10;G06F9/50;G06N3/04 |
代理公司: | 武汉智正诚专利代理事务所(普通合伙) 42278 | 代理人: | 熊远 |
地址: | 430074 湖北省武汉市东湖新技术开发区金融*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 集群 后端 深度 学习 调度 系统 方法 | ||
本申请提供一种支持多类集群后端的深度学习调度系统及调度方法,所述系统包括作业管理组件、集群管理组件和至少一个后端集群;每个后端集群对应有一个作业调度组件和多个计算节点,其中集群管理组件负责多类集群后端的接入,作业管理组件负责根据用户需求,将深度学习作业分配到合适的集群,然后作业调度组件将作业分派到计算节点执行,同时作业管理组件会监听和记录作业的执行情况和资源使用情况,提供用户后续查询分析。本发明可以为企业平台的架构演进和转型提供一个平滑过渡方案,也可以充分利用各种类型集群的计算资源,提高分布式深度学习的效率。
技术领域
本申请涉及深度学习技术领域,尤其涉及一种支持多类集群后端的深度学习调度系统及调度方法。
背景技术
21世纪以来,人工智能和云计算技术取得了蓬勃发展。深度学习是人工智能研究的基石,它是通过建立可以模拟人脑进行分析学习的神经网络,模仿人脑机制来解释图像、声音和文本等数据,主要分为两个层面的业务,一个层面是面向人工智能开发者,为他们提供算法开发、模型训练、训练可视化、模型验证、服务发布、数据推理所需的硬件、软件、算法、算力等基础设施服务;另一个层面是面向大众消费者或特定行业技术人员等最终用户,主要为他们提供以数据推理为核心的应用层服务。深度学习业务根据运行模式可以分为微服务模式和批处理作业模式,微服务模式天然是支持服务化的;批处理作业根据不同的场景,有很多不同的服务化模式,下表给出了深度学习批处理作业的常见服务化模式所使用的调度框架及其主要适用场景。
深度学习批处理作业的常见服务化模式
·大数据调度框架:其特点在于生态成熟,与大数据组件的交互性好,易于构建以数据为中心的工作流;可伸缩性和容错性设计较为完善,适合于在已有的大数据集群上部署。
·高性能调度框架:它们与高性能计算、通信及存储组件的交互性好,贴合深度学习训练对大规模矩阵运算及分布式通信的需求,特别适合基于MPI优化的深度学习引擎;其稳定性和可扩展性在大规模超算环境下得以验证,适合在已有的超算基础设施上部署。
·容器化调度框架:这类框架专门针对云服务的需求和特点设计,与云服务基础设施的交互性好,为业务上云带来很大便利;资源弹性与容错性是其主要优势,适合在已有的云计算环境中部署。
传统的调度框架针对各自的领域和运行环境的特征而设计,虽然能处理各自的业务,但其运行原理和使用方式差别非常大,不利于环境的迁移、资源的整合、应用领域的扩展。如何充分利用多类集群(容器化、高性能与大数据集群)各自特有的能力,整合它们各自的优势,从而拓展深度学习平台的应用领域,提高集群资源的利用效率,成为迫切需要解决的问题。
发明内容
针对现有技术中存在的缺陷,我们提出一种支持多类集群后端的深度学习调度系统和调度方法,它可以为企业平台的架构演进和转型提供一个平滑过渡方案,也可以充分利用各种类型集群的计算资源,提高分布式深度学习的效率。
所述系统包括作业管理组件、集群管理组件和至少一个后端集群;
所述作业管理组件,用于接收终端用户通过预设接口提交的符合统一抽象数据格式的深度学习作业请求;按照深度学习作业的统一抽象数据格式进行作业信息解析;
所述作业管理组件,还用于根据解析出的深度学习作业信息,从所述集群管理组件中获取与所述深度学习作业信息的运行条件相匹配的目标后端集群;
所述作业管理组件,还用于根据匹配到的目标后端集群的作业集群信息对统一的作业格式数据进行转换,转换为目标作业格式,所述目标作业格式为符合匹配到的所述目标后端集群的作业集群信息可接收的数据格式;
所述作业管理组件,还用于调用所述目标后端集群的对应驱动侧程序将所述目标作业格式提交至所述目标后端集群,以从所述目标后端集群中获取目标作业响应结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东云睿连(武汉)计算技术有限公司,未经东云睿连(武汉)计算技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110360064.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工业尾气连续发酵装置
- 下一篇:打印机清洁方法、装置、电子设备及存储介质
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理