[发明专利]一种用于机器学习的分布式资源调度方法及装置在审
申请号: | 202210337294.1 | 申请日: | 2022-03-31 |
公开(公告)号: | CN114661475A | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 卢亿雷 | 申请(专利权)人: | 北京白海科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N20/00 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 彭星 |
地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 机器 学习 分布式 资源 调度 方法 装置 | ||
本申请提供了一种用于机器学习的分布式资源调度方法及装置,涉及资源调度技术领域,针对机器学习任务划分的多个并行处理的子任务,确定各个所述子任务需要的预用资源;从资源池的可用资源中为各个所述子任务分配不小于其预用资源的使用资源来处理各个所述子任务;实时监测利用所述使用资源处理所述子任务的状态信息;根据监测到的利用所述使用资源处理所述子任务的时间规律,提前将利用率低的使用资源中的剩余资源调度给利用率高的使用资源中,从而实现机器学习资源的统一监控和调度,提升资源利用率,并且能够预测用户的使用习惯,让用户无感切换系统资源。
技术领域
本申请涉及资源调度技术领域,具体而言,涉及一种用于机器学习的分布式资源调度方法及装置。
背景技术
由于目前机器学习的资源调度都是基于容器粗粒度调度的,采用的独占的方式开发模型,特别是数据科学家在写代码的时候,基本上是不消耗机器资源的,仅仅只在启动训练模型的时候才会需要计算资源(CPU、GPU、内存、显存),使得资源利用率很低,特别是在SaaS多用户场景,将使得整个系统资源性能低下。
发明内容
有鉴于此,本申请的目的在于提供一种用于机器学习的分布式资源调度方法及装置,能够统一监控和调度机器学习时各个子任务的使用资源,提升资源利用率。
本申请实施例提供的一种用于机器学习的分布式资源调度方法,包括:
针对机器学习任务划分的多个并行处理的子任务,确定各个所述子任务需要的预用资源;
基于各个所述子任务需要的预用资源,从资源池的可用资源中为各个所述子任务分配不小于其预用资源的使用资源来处理各个所述子任务;
实时监测利用所述使用资源处理所述子任务的状态信息;所述状态信息包括每个所述子任务对其使用资源的利用率,以及利用所述使用资源处理所述子任务的时间规律;
根据监测到的利用所述使用资源处理所述子任务的时间规律,提前将利用率低的使用资源中的剩余资源调度给利用率高的使用资源中。
在一些实施例中,所述基于各个所述子任务需要的预用资源,从资源池的可用资源中为各个所述子任务分配不小于其预用资源的使用资源来处理各个所述子任务,包括:
自定义各个所述子任务的优先级;
基于所述子任务的优先级顺序从资源池的可用资源中为各个所述子任务分配不小于其预用资源的使用资源;其中,所述资源池的可用资源在给一所述子任务分配使用资源之后进行更新,根据更新后的所述资源池的可用资源给下一所述子任务分配使用资源。
在一些实施例中,通过以下方式处理所述子任务:
将所述子任务划分为并行处理的至少一个线程;
从所述使用资源中为每个所述线程分配消耗资源,利用所述消耗资源分别处理所述子任务中的各个线程。
在一些实施例中,所述实时监测利用所述使用资源处理所述子任务的状态信息,包括:
统计处理所述子任务各个线程的消耗资源,计算所述子任务的使用资源中的剩余资源以及使用资源的利用率;
基于所述使用资源的利用率获取处理所述子任务的时间规律,包括:
将所述使用资源的利用率高的时间段判定为处理所述子任务的时间段,将所述使用资源的利用率低的时间段判定为未处理所述子任务的时间段;
基于处理所述子任务的时间段和未处理所述子任务的时间段,确定处理所子任务的时间规律。
在一些实施例中,所述根据监测到的利用所述使用资源处理所述子任务的时间规律,提前将利用率低的使用资源中的剩余资源调度给利用率高的使用资源中,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京白海科技有限公司,未经北京白海科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210337294.1/2.html,转载请声明来源钻瓜专利网。