[发明专利]一种集群GPU资源调度系统和方法有效

申请号：	201110446323.X	申请日：	2011-12-28
公开（公告）号：	CN102541640A	公开（公告）日：	2012-07-04
发明（设计）人：	汤伟宾;吴鸿伟;罗佳	申请（专利权）人：	厦门市美亚柏科信息股份有限公司
主分类号：	G06F9/46	分类号：	G06F9/46;G06F9/50
代理公司：	北京恒都律师事务所 11395	代理人：	何自刚
地址：	361008 福建省厦门***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种集群 gpu 资源调度系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种集群GPU资源调度系统和方法。

背景技术

近年来，图形处理器(Graphic Processing Unit，GPU)在硬件架构上已取得持续的高速发展，已经演变为拥有强大的计算能力的高度并行、多线程及多处理核心的处理器，它采用不同于中央处理器(Central Processing Unit，CPU)的单指令多线程(Single Instruction Multiple Thread，SIMT)体系结构，增加了编程的灵活性。GPU专用于解决可表示为数据并行计算的问题，即绝大部分数据元素具有相同的数据路径，而具有极高的计算密度(数学运算与存储器运算的比率)，这样可隐藏存储器访问延迟。凭借其强大的计算能力，GPU并行技术对传统的CPU应用发起了强有力的冲击，其已被广泛运用于视频转码、物理模拟、地球表层测绘以及网络安全等热门研究领域。

如何充分利用GPU的并行计算能力来解决复杂运算的问题，已经成为当今GPU技术的研究热点之一。然而在实际应用中，单个GPU往往无法承载复杂的计算任务，因此需要将多个GPU组成一个GPU集群，以完成复杂的计算任务，现有技术中通常采用基于单主机多GPU卡的调度方式对资源进行调度以完成复杂的计算任务，但是该方式存在计算能力有限且扩展性差等缺点。

此外，GPU在执行任务时，其使用权是不可剥夺不可抢占的，因此如何高效地调度GPU资源，以充分发挥其并行计算能力，是目前各种高性能计算应用中迫切需要解决的问题。

发明内容

有鉴于此，本发明提供一种集群GPU资源调度系统和方法，用以解决现有的单个GPU无法承载复杂计算任务，且现有的集群GPU资源调度方式效率不高、且集群中的GPU卡无法即插即用的问题。本发明提供的集群GPU资源调度系统和方法能够实现GPU资源的充分利用，使多个计算任务并行执行，此外，还能够实现集群中各子节点GPU的即插即用。

本发明提供的一种集群图形处理器GPU资源调度系统，包括：集群初始化模块、GPU主节点以及若干个GPU子节点；所述集群初始化模块用于对所述GPU主节点以及所述若干个GPU子节点进行初始化；所述GPU主节点用于接收用户输入的任务，并将该任务划分为若干个子任务，通过调度若干个所述GPU子节点，将所述若干个子任务分配到若干个所述GPU子节点上；所述GPU子节点用于执行子任务并向所述GPU主节点返回任务执行结果。

所述GPU主节点包括：任务接收模块，用于负责接收用户输入的任务；任务划分模块，用于将任务接收模块提供的用户输入的任务划分为若干个子任务，并提供给GPU资源调度模块；GPU资源调度模块，用于根据收到的各GPU子节点的心跳信号，按计算能力对本集群中的GPU子节点资源进行归类和维护，并根据任务的优先级为收到的各任务指定对应计算能力的GPU子节点，以公平调度的方式调度为各任务所选取的GPU子节点；结果处理模块，用于接收处理各GPU子节点返回的子任务计算结果；资源回收模块，用于根据结果处理模块返回的任务执行结果，回收已完成子任务的GPU子节点资源；心跳处理模块，用于将各GPU子节点提供的包括子节点的ID号、计算能力及执行的任务信息的心跳信号提供给GPU资源调度模块。

所述GPU子节点包括：子任务接收模块，用于接收所述GPU主节点分配给本GPU子节点的子任务；子任务执行模块，用于对所述子任务接收模块接收的子任务进一步细分，为本GPU子节点的每个流处理器分配子任务细块，并行执行各子任务细块；结果返回模块，用于将本GPU子节点的子任务计算结果返回给所述GPU主节；心跳发送模块，用于向所述GPU主节点定时发送包括子节点的ID号、计算能力及执行的任务信息的心跳信号。

本发明提供的一种集群图形处理器GPU资源调度方法，包括以下步骤：

步骤1：GPU主节点接收用户输入的任务；

步骤2：所述GPU主节点将接受的用户输入的任务划分为若干个子任务；

步骤3：GPU主节点将所述若干个子任务分配到若干个GPU子节点上；

步骤4：各GPU子节点执行各自的子任务；

步骤5：各GPU子节点向所述GPU主节点返回子任务的计算结果；

步骤6：所述GPU主节点处理子任务计算结果，向用户返回完整任务计算结果；

步骤7：所述GPU主节点收回已完成任务的GPU子节点资源；

步骤8：GPU主节点执行或等待下一任务。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司，未经厦门市美亚柏科信息股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】