[发明专利]用于深度学习框架的资源调度方法和装置有效
申请号: | 201810073413.0 | 申请日: | 2018-01-25 |
公开(公告)号: | CN108062246B | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 刘昆;周恺;王倩;肖远昊;刘岚;徐东泽;许天涵;郭江亮;唐进;张发恩;尹世明 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 深度 学习 框架 资源 调度 方法 装置 | ||
本申请公开了一种用于深度学习框架的资源调度方法和装置。方法包括:间隔预定时间,从Kubernetes平台查询所有的深度学习作业对象的状态;响应于从各个深度学习作业对象中查询到状态符合提交资源请求状态的深度学习作业对象,向Kubernetes平台提交资源请求,以调度Kubernetes平台所处的物理机启动深度学习训练任务。该方法能够完全自动化处理深度学习训练任务的资源分配与释放。
技术领域
本申请涉及计算机技术领域,具体涉及计算机网络技术领域,尤其涉及用于深度学习框架的资源调度方法和装置。
背景技术
在深度学习领域,算法模型的训练任务一般基于深度学习框架实现,目前流行的深度学习框架有张量流人工智能学习系统(Tensorflow),并行分布式深度学习开源平台(PaddlePaddle),用于快速特征嵌入的卷积结构(Caffe)等等。
众多的深度学习框架各有特点,开发人员在面对具体场景时选择实现模型的框架也因此不同。但不管基于哪一种框架来训练模型,运行训练任务的过程都离不开资源管理和任务调度,也即是统一管理服务器集群的CPU、内存、GPU等计算资源,根据训练任务的资源需求分配资源容器;同时,随着训练任务的运行和终止,对占用的计算资源进行实时的分配和回收。
目前,可以采用Kubernetes平台实现对多深度学习框架的支持。在Kubernetes平台,开发者运行一个模型训练任务,需要开发者介入Kubernetes平台的资源管理工作,从平台申请到预期的计算资源容器,再申请不同的网络策略来配合训练任务的运行。
发明内容
本申请实施例提出一种用于深度学习框架的资源调度方法和装置。
第一方面,本申请实施例提供了一种用于深度学习框架的资源调度方法,包括:间隔预定时间,从Kubernetes平台查询所有的深度学习作业对象的状态;响应于从各个深度学习作业对象中查询到状态符合提交资源请求状态的深度学习作业对象,向Kubernetes平台提交资源请求,以调度Kubernetes平台所处的物理机启动深度学习训练任务。
在一些实施例中,深度学习作业对象包括:节点组父属性;设于节点组父属性下的镜像子属性;以及设于节点组父属性下的资源配置子属性。
在一些实施例中,响应于从各个深度学习作业对象中查询到状态符合提交资源请求状态的深度学习作业对象,向Kubernetes平台提交资源请求包括:响应于从各个深度学习作业对象中查询到状态符合新创建状态的深度学习作业对象,提取状态符合新创建状态的深度学习作业对象的资源配置子属性;基于提取的资源配置子属性,向Kubernetes平台的应用程序接口服务器服务发送资源请求,以申请容器资源和网络策略。
在一些实施例中,响应于从各个深度学习作业对象中查询到状态符合提交资源请求状态的深度学习作业对象,向Kubernetes平台提交资源请求包括:响应于从各个深度学习作业对象中查询到状态符合终止状态的深度学习作业对象,回收状态符合终止状态的深度学习作业对象的资源。
在一些实施例中,调度Kubernetes平台所处的物理机启动深度学习训练任务包括:经由Kubernetes平台的应用程序接口服务器服务接收资源请求,创建资源对象;经由Kubernetes平台的调度器服务异步监听所创建的资源对象,将所创建的资源对象分配至从节点;经由从节点运行资源对象对应的容器以完成深度学习训练任务。
第二方面,本申请实施例提供了一种用于深度学习框架的资源调度装置,包括:查询单元,用于间隔预定时间,从Kubernetes平台查询所有的深度学习作业对象的状态;调度单元,用于响应于从各个深度学习作业对象中查询到状态符合提交资源请求状态的深度学习作业对象,向Kubernetes平台提交资源请求,以调度Kubernetes平台所处的物理机启动深度学习训练任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810073413.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于雨水势能的太阳能电池板清洁装置
- 下一篇:模块化机器人主控制板