[发明专利]基于Kubernetes的算力调度方法和装置在审

专利信息
申请号: 202011016774.5 申请日: 2020-09-24
公开(公告)号: CN112241321A 公开(公告)日: 2021-01-19
发明(设计)人: 刘润芝 申请(专利权)人: 北京影谱科技股份有限公司
主分类号: G06F9/50 分类号: G06F9/50;G06F9/455;G06N20/00
代理公司: 北京万思博知识产权代理有限公司 11694 代理人: 冀婷
地址: 100000 北京市朝阳区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 kubernetes 调度 方法 装置
【说明书】:

本申请公开了一种基于Kubernetes的算力调度方法和装置,涉及人工智能领域。该方法包括:对机器学习本次训练任务需要的计算资源进行解析,分解出目标加速卡类型和与数量,结合Kubernetes集群中所有机器节点的算力全局数据,按照预设策略筛选出对应的机器节点集合,据此锁定本次训练任务所使用机器节点的计算资源,在本次训练任务所使用的机器节点上建立节点间的互信互联网络,运行本次训练任务所使用的机器节点,学习训练程序完成训练。该装置包括:初始模块、解析模块、筛选模块、建立模块和训练模块。本申请实现了资源的智能化分配,无需人工调整,极大地提高了效率。

技术领域

本申请涉及人工智能领域,特别是涉及一种基于Kubernetes的算力调度方法和装置。

背景技术

近几年,随着深度神经网络在人工智能领域取得的巨大成功,业界涌现了许多开源的机器学习平台。而如何实现分布式任务调度,提高资源利用率成为深度神经网络分布式的云部署、边缘设备部署以及端设备部署的主要研究内容。

深度学习对于算力的要求越来越高,包括参数规模的陡增,迭代的时间变的更长,从之前的小时级别,变成天级别,甚至月级别。像视频业务拥有更多的参数和更为复杂的模型,面对TB级别的训练数据,单机场景下往往需要很久的训练样本时间。因此,如何提供硬件资源合理分配和高效的调动管理成为分布式部署的突破点。

Kubernetes是一个可移植的、可扩展的开源平台,用于管理容器化的工作负载和服务,它消除了容器化应用程序在部署、伸缩时涉及到的许多手动操作。Kubernetes编排让你能够构建多容器的应用服务,在集群上调度或伸缩这些容器,以及管理它们随时间变化的健康状态。Kubernetes通过标签与标签选择器进行筛选资源。标签是附加到对象上的键值对,旨在用于指定对用户有意义且相关的对象的标识属性。

因此,为了满足日益增长的计算能力需求,就必须以多台机器组成机器集群来提供服务。尽管Kubernetes的调度策略能够满足上述需求,但其标签与选择器的资源筛选机制,只是简单的匹配资源,需要人工手动指定机器节点和使用加速卡的属性,无法对资源进行智能分配。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面,提供了一种基于Kubernetes的算力调度方法,包括:

预先获取Kubernetes集群中所有机器节点的基于加速卡类型和数量的算力全局数据;

对机器学习本次训练任务需要的计算资源进行解析,分解出目标加速卡类型和与数量;

根据所述算力全局数据和所述目标加速卡类型及数量,按照预设策略筛选出对应的机器节点集合,并根据该机器节点集合,锁定所述本次训练任务所使用机器节点的计算资源;

在所述本次训练任务所使用的机器节点上,通过创建Service、选择容器镜像、设置容器名称和环境变量来完成节点间互信互联网络的建立;

运行所述本次训练任务所使用的机器节点,学习训练程序完成训练。

可选地,根据所述算力全局数据和所述目标加速卡类型及数量,按照预设策略筛选出对应的机器节点集合,并根据该机器节点集合,锁定所述本次训练任务所使用机器节点的计算资源,包括:

根据所述算力全局数据,在所述Kubernetes集群中筛选出与所述目标加速卡类型及数量匹配的初选机器节点集合,再按照预设的优选策略从中筛选出优选机器节点集合,根据所述优选机器节点集合,锁定所述本次训练任务所使用机器节点的计算资源。

可选地,按照预设的优选策略从中筛选出优选机器节点集合,包括:

按照如下优选策略从所述初选机器节点集合中筛选出优选机器节点集合:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京影谱科技股份有限公司,未经北京影谱科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011016774.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top