[发明专利]一种用于机器学习的分布式资源调度方法及装置在审

申请号：	202210337294.1	申请日：	2022-03-31
公开（公告）号：	CN114661475A	公开（公告）日：	2022-06-24
发明（设计）人：	卢亿雷	申请（专利权）人：	北京白海科技有限公司
主分类号：	G06F9/50	分类号：	G06F9/50;G06N20/00
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	彭星
地址：	100000 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于机器学习分布式资源调度方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种用于机器学习的分布式资源调度方法及装置，涉及资源调度技术领域，针对机器学习任务划分的多个并行处理的子任务，确定各个所述子任务需要的预用资源；从资源池的可用资源中为各个所述子任务分配不小于其预用资源的使用资源来处理各个所述子任务；实时监测利用所述使用资源处理所述子任务的状态信息；根据监测到的利用所述使用资源处理所述子任务的时间规律，提前将利用率低的使用资源中的剩余资源调度给利用率高的使用资源中，从而实现机器学习资源的统一监控和调度，提升资源利用率，并且能够预测用户的使用习惯，让用户无感切换系统资源。

技术领域

本申请涉及资源调度技术领域，具体而言，涉及一种用于机器学习的分布式资源调度方法及装置。

背景技术

由于目前机器学习的资源调度都是基于容器粗粒度调度的，采用的独占的方式开发模型，特别是数据科学家在写代码的时候，基本上是不消耗机器资源的，仅仅只在启动训练模型的时候才会需要计算资源(CPU、GPU、内存、显存)，使得资源利用率很低，特别是在SaaS多用户场景，将使得整个系统资源性能低下。

发明内容

有鉴于此，本申请的目的在于提供一种用于机器学习的分布式资源调度方法及装置，能够统一监控和调度机器学习时各个子任务的使用资源，提升资源利用率。

本申请实施例提供的一种用于机器学习的分布式资源调度方法，包括：

针对机器学习任务划分的多个并行处理的子任务，确定各个所述子任务需要的预用资源；

基于各个所述子任务需要的预用资源，从资源池的可用资源中为各个所述子任务分配不小于其预用资源的使用资源来处理各个所述子任务；

实时监测利用所述使用资源处理所述子任务的状态信息；所述状态信息包括每个所述子任务对其使用资源的利用率，以及利用所述使用资源处理所述子任务的时间规律；

根据监测到的利用所述使用资源处理所述子任务的时间规律，提前将利用率低的使用资源中的剩余资源调度给利用率高的使用资源中。

在一些实施例中，所述基于各个所述子任务需要的预用资源，从资源池的可用资源中为各个所述子任务分配不小于其预用资源的使用资源来处理各个所述子任务，包括：