[发明专利]一种基于Kubernetes的集群负载调节方法及存储介质有效
申请号: | 202110211957.0 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112988380B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 匡平;石华馨 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/08 |
代理公司: | 成都华风专利事务所(普通合伙) 51223 | 代理人: | 张巨箭 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 kubernetes 集群 负载 调节 方法 存储 介质 | ||
本发明属于深度学习领域,具体公开了一种基于Kubernetes的集群负载调节方法及存储介质,方法包括:对集群中的节点添加不同的标签,并将添加标签后的节点分配给不同的使用场景;对同一使用场景中的节点的忙闲程度进行打分,得出所有节点的得分并计算得分平均值,统计得分低于得分平均值的节点得到忙碌节点并对忙碌节点添加污点值;根据污点值的添加情况对同一使用场景中的集群负载进行调节。本发明面向多团队共享GPU资源池这一应用场景,通过为节点添加标签划分不同的使用场景,确保不同团队能独占一部分节点,再通过周期性衡量集群的负载情况,使集群做到负载均衡,提高平台的稳定性与可用性。
技术领域
本发明涉及深度学习领域,特别涉及一种基于Kubernetes的集群负载调节方法及存储介质。
背景技术
深度学习的发展为计算机领域的传统问题带来了新的解决方式,它作为学术界的热点议题、工业界的全新机遇,已经受到高度重视与广泛支持。作为执行算法训练、优化网络模型的基础设施,构建实现数据处理与模型训练的深度学习平台已具有重要意义与研究价值。
传统的进行深度学习训练的方法主要是个人或组织购置硬件设施、在电脑或服务器上配置相应的深度学习环境、在构建完成的环境中直接进行训练工作。这一系列的步骤在经济与经验上都具有较高的门槛,难以面向各行各业进行推广,为大众开展深度学习的研发工作提供了不少障碍。对于高校而言,实验室团队往往已经配备一定规模的服务器集群,但学生需要自己手动开展环境配置工作,不仅入门难度较高,还容易对他人的实验环境造成影响。近年来,各大云服务商逐渐开始研发、推出深度学习平台,它们大多能为用户带来训练上的便捷,但对高校实验室多团队协作开发这一应用场景的适应性较差。
在面对多团队共享GPU资源池这一应用场景下,未能确保不同团队能独占一部分节点,同时不能保证集群的负载均衡,且当一个使用场景或团队较大时,意味着分配给该场景或团队的节点较多,有必要保证场景或团队节点的负载均衡。
发明内容
本发明主要提供一种基于Kubernetes的集群负载调节方法及存储介质,能够解决现有技术中在面对多团队共享GPU资源池这一应用场景下,未能确保不同团队能独占一部分节点,同时不能保证集群的负载均衡的问题。
为解决上述技术问题,本发明提供一种基于Kubernetes的集群负载调节方法,包括以下内容:
对集群中的节点添加不同的标签,并将添加标签后的节点分配给不同的使用场景;
对同一使用场景中的节点的忙闲程度进行打分,得出所有节点的得分并计算得分平均值,统计得分低于得分平均值的节点得到忙碌节点;
将所述忙碌节点按得分升序排列,并对所述忙碌节点添加污点值;
根据所述污点值的添加情况对同一使用场景中的集群负载进行调节。
优选地,所述对所述忙碌节点添加污点值包括:对排序靠前的忙碌节点添加第一污点值NoScheduler,对剩余的忙碌节点添加第二污点值PreferNoScheduler。
优选地,所述将添加标签后的节点分配给不同的使用场景包括:当用户指定应用场景、提交训练需求并创建Pod时,根据所述Pod指定的信息,选择有相应标签的节点进行调度。
优选地,不将所述Pod调度到添加了第一污点值NoScheduler的忙碌节点上,尽量不将所述Pod调度到添加了第二污点值PreferNoSched uler的忙碌节点上。
优选地,所述对同一使用场景中的节点的忙闲程度进行打分的计算公式为:Score(pi)表示第i个节点的性能得分,计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110211957.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种窃电识别方法及系统
- 下一篇:设备故障自动识别方法及系统