[发明专利]一种异构GPU集群深度学习混合负载调度优化方法有效
| 申请号: | 202111159606.6 | 申请日: | 2021-09-30 |
| 公开(公告)号: | CN113867961B | 公开(公告)日: | 2022-07-22 |
| 发明(设计)人: | 张潇;田琨 | 申请(专利权)人: | 中国矿业大学(北京) |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/063;G06N3/04;G06N3/08 |
| 代理公司: | 银川长征知识产权代理事务所 64102 | 代理人: | 马长增 |
| 地址: | 100083 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 gpu 集群 深度 学习 混合 负载 调度 优化 方法 | ||
一种异构GPU集群深度学习混合负载调度优化方法,包括:为异构GPU集群的多个下层计算节点静态添加节点类型标签;为分布式集群上层应用进行分类应用;分布式集群上层所服务的多个应用,通过调度模块将多个不同类型的下层计算节点平均分配至多个应用运行;计算多个不同类型的下层计算节点运行在多个应用上的所需时间;利用计算的多组所需时间,发现的异构GPU应用性能差异;并由第二价格交易法交易异构GPU应用性能差异。本发明中,在异构GPU集群种,该调度优化模型方法比传统的分布式处理框架在处理深度学习混合负载表现更优异,尤其是在集群环境复杂、异构化严重时更能充分利用集群资源、显著提高系统的执行效率。
技术领域:
本发明涉及GPU集群技术领域,特别涉及一种异构GPU集群深度学习混合负载调度优化方法。
背景技术:
随着信息技术的发展及集群规模的逐渐扩大,分布式集群上层应用逐渐复杂化,如常见的网络搜索、语音助理等,这些应用都是通过深度学习任务训练而获得的。分布式集群下层节点是由大量为深度学习训练任务提供计算资源的 GPU服务器构成,然而随着GPU服务器的不断优化及更新换代,下层节点也逐渐表现出异构化特性。所以如何在异构GPU集群中为深度学习混合负载分配合理、高效的计算资源成为一个重要的问题。然而传统的分布式处理框架在多用户之间主要采取GPU集群静态分区的方法,来实现多用户间资源分配及隔离。这种分配方法并没有考虑节点间异构特性,不能利用异构计算节点的性能优势,在异构环境下对于深度学习混合负载的处理有较差的性能表现。
发明内容:
鉴于此,有必要设计一种异构GPU集群深度学习混合负载调度优化方法。
一种异构GPU集群深度学习混合负载调度优化方法,其特征在于,包括:为异构GPU集群的多个下层计算节点静态添加节点类型标签;
为分布式集群上层应用进行分类应用;
分布式集群上层所服务的多个所述应用,通过调度模块将多个不同类型的下层计算节点平均分配至多个所述应用处理;
计算所述多个不同类型的下层计算节点运行在多个所述应用上的所需时间;
利用计算的多组所需时间,发现的异构GPU应用性能差异;
并由第二价格交易法交易所述异构GPU应用性能差异。
优选的,所述异构GPU集群由三个下层计算节点组成。
优选的,所述三个下层计算节点分别包括:多个K80 GPU、多个P40 GPU 以及多个V100 GPU。
优选的,为分布式集群上层应用进行分类应用包括:应用VAE的任务、应用DCGAN的任务及应用ResNet-50的任务。
优选的,所述三个下层计算节点在所述DCGAN的性能加速高于在所述VAE 和所述ResNet-50的性能加速。
优选的,所述第二价格交易法包括:选取所述VAE和所述DCGAN性能加速后的下层计算节点进行交换,且交换价格由所述ResNet-50决定。
本发明中,在异构GPU集群中,该调度优化模型方法比传统的分布式处理框架在处理深度学习混合负载表现更优异,尤其是在集群环境复杂、异构化严重时更能充分利用集群资源、显著提高系统的执行效率。
附图说明:
附图1是本申请实施例提供的异构GPU集群深度学习混合负载调度优化方法的步骤示意图。
具体实施方式:
参考图1,一种优化异构GPU集群深度学习混合负载执行效率的方案包括:为异构GPU集群的多个下层计算节点静态添加节点类型标签;GPU集群由三个或三个以上下层计算节点组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学(北京),未经中国矿业大学(北京)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111159606.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分段式冷却装置和冷却工艺
- 下一篇:一种处理方法及电子设备





