[发明专利]一种基于预算功率指导的高能效GPU集群系统调度算法有效
申请号: | 201210279696.7 | 申请日: | 2012-08-07 |
公开(公告)号: | CN102819460A | 公开(公告)日: | 2012-12-12 |
发明(设计)人: | 都志辉;刘文杰;刘渊;杨全 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 贾玉健 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 预算 功率 指导 能效 gpu 集群 系统 调度 算法 | ||
技术领域
本发明涉及GPU集群系统调度算法,特别涉及一种基于预算功率指导的高能效GPU集群系统调度算法。
背景技术
所谓GPU集群,就是采用GPU(Graphics Processing Unit,图形处理单元)作为加速器的高性能计算集群。GPU的计算能力很强,同时具有易于部署,成本低、通用性强等优点。较为典型的GPU集群比如我国研制的“天河一号A”以及“星云”超级计算机。GPU集群一般包括成千上万的同构的计算结点,每个结点中又会配置多个CPU处理器和多个GPU处理器。由于GPU集群一旦正式投入使用,至少要连续运行几年甚至更长的时间,而任务调度是伴随超级计算机整个生命周期必不可少的系统功能,因此调度算法的优劣对于超级计算机长期与整体能耗的影响至关重要,因此高能效调度算法的研究对于实现GPU集群的长期有效节能至关重要。
GPU集群的计算能力在以指数形式快速增长,但随之而来的问题,是GPU集群的能耗开销也越来越大。例如2010年11月世界超级计算机排行榜TOP500上性能位居榜首的我国“天河一号A”超级计算机满负荷运行的总功耗达到了4.04兆瓦,24小时满负荷工作耗电就接近10万千瓦时,这带来了电力供应、经费负担、配套设施保障、环境保护等诸多问题。为了有效降低系统能耗,除了在硬件上提供必需的节能手段外,还必须重新研制新的调度算法,它可以对GPU集群的任务做出合理的安排,并充分利用底层的硬件节能措施来实现大幅度的能量节省。
发明内容
为了克服上述现有技术的不足,本发明的目的在于提供一种基于预算功率指导的高能效GPU集群系统调度算法,可以有效的提高GPU集群系统的能量效率,从而实现在长期来看可以显著节能的效果。
为了实现上述目的,本发明采用的技术方案是:
一种基于预算功率指导的高能效GPU集群系统调度算法,包括如下步骤:
步骤一,把所有待调度的任务根据其组成分解为基本任务,然后把所有的基本任务划分为多个独立的任务簇,一个任务簇用一个有向无环图(DAG)来表示;
步骤二,根据所述任务簇生成虚拟结点,形成所述任务簇和虚拟结点之间一对一的映射关系,为任务选取合适的处理器做准备,所述虚拟结点是由多个虚拟CPU和多个虚拟GPU构成,它表述了执行该任务簇的理想配置环境,其具体的配置和处理器个数由任务簇DAG图的并行度和计算量来决定;首先,计算出DAG图的关键路径,将关键路径上的任务从DAG中去除,然后从剩下的任务中再生成一条最长的路径,去除该路径之后,接着从剩下的任务中再生成路径,如此反复直至无任务剩余,记录总共生成路径的条数,这就是该DAG的最大可能并行度,即所需的处理器的个数;
步骤三,将所述虚拟结点向物理结点进行多对多的映射,满足为任务簇中任务动态的分配合适的处理器以供其执行,在映射的过程中,物理结点要能够满足虚拟结点的要求,所述物理结点包括物理GPU与物理CPU。
所述虚拟CPU向物理CPU的映射是一对一的映射;所述虚拟GPU向物理GPU的映射是一对一的映射。
对于一个给定的独立任务簇,首先为它生成一个虚拟结点,然后把该任务簇中的基本任务调度到虚拟结点的虚拟CPU与虚拟GPU上,调度方案是以执行时间最小化为目标而得到的。
所述虚拟结点向物理结点的映射过程是:首先根据虚拟结点上任务簇的截止时间对虚拟结点进行排序,然后根据截止时间从早到晚的顺序逐次把虚拟结点对应的任务调度到物理结点上。
当完成一次虚拟结点组向不同物理结点的映射后,根据当前的调度方案估算GPU集群系统的实际功率要求,如果该功率与设定的预算功率在误差允许的范围内近似相等,则不需要进行节能调整,而是直接转去执行具有下一个较晚截止时间的虚拟结点组向物理结点的映射;如果计算出来的实际功率高于设定的预算功率,就运用相应的节能措施,包括DRS能耗控制策略、DAG图调度策略、DVFS节能策略以及GPU子任务的β-migration节能策略等,把GPU集群系统需要的功率调整到与预算功率在误差允许的范围内近似相等的水平或者直到不能再进一步降低功率为止;如果所述各种节能措施全部应用后最终系统的功率需求还是高于预算功率甚至是安全功率的要求,则说明当时系统严重超载,通过推迟部分任务的执行与拒绝掉部分任务来降低当前系统的负载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210279696.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种流化床锅炉旋风分离器密封装置
- 下一篇:一种多功能绝缘测试杆