[发明专利]基于弹性持久的线程块的任务调度方法、系统及GPU在审
申请号: | 202111230110.3 | 申请日: | 2021-10-20 |
公开(公告)号: | CN114003359A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 陈全;过敏意;赵涵;崔炜皞 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/448;G06T1/20 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 庞红芳 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 弹性 持久 线程 任务 调度 方法 系统 gpu | ||
本发明提供一种基于弹性持久的线程块的任务调度方法、系统及GPU,所述基于弹性持久的线程块的任务调度方法包括:对于每一个GPU内核函数,使用源对源编译的方式将该内核函数,转换为使用弹性持久线程块的函数版本,进而减少了内核函数的资源占用。对于每一个可能的混跑的内核函数对,使用混跑重合率判断两个混跑的内核函数的吞吐性能,进而找到最优的混跑配置。对于实时到来的内核函数,基于混跑重合率来构建混跑的内核函数对,以获得最大的吞吐。本发明可以在无需用户感知的前提下,最大化系统吞吐,本发明的成果可以间接为潜在的配置多种计算单元的GPU提供调度技术的支持。
技术领域
本发明涉及图形处理器即GPU技术领域,特别是涉及一种基于弹性持久的线程块的任务调度方法、系统及GPU。
背景技术
图形处理器,即GPU(Graphics Processing Unit),是一种用于加速图像处理的特殊处理器。由于GPU具有高并行度及强大的矩阵运算和浮点数计算能力,它又被广泛地应用到图像处理以外的计算密集型应用中,例如云计算、深度学习等,被称为通用图形处理器(General-purpose computing on graphics processing units,GPGPU)。
很多新型的应用比如说神经科学和深度学习,都是计算密集型应用。为了提供相应需求的算力,GPU被广泛的使用来承接这些任务。与此同时,由于深度学习应用强烈依赖矩阵乘操作,NVIDIA公司在Volta架构之后引入了Tensor Core来加速矩阵乘。一个GPU程序能够通过调用相应API来使用Tensor Core。如果不使用这些API,传统的深度学习应用和其他不使用矩阵乘的应用,无法利用到新引入的Tensor Core。
通常来说,一个GPU有多个流处理器(SM),一个GPU程序被调度到SM上执行。现在的SM上有两种计算单元:传统的CUDA Core和新引入的Tensor Core。两种计算单元是独立的,他们共享SM上的整个内存系统。CUDA Core被用来执行通用计算,而Tensor Core只能用来执行矩阵乘计算。除此之外,一个GPU内核函数被称为一个GPU kernel,一个GPU kernel有多个线程块(thread block),每个thread block内的线程被划分为多个32线程的线程束(warp)。
GPU kernel在SM上以warp的粒度执行计算,而一个SM能够同时承载多个活跃的warp,这些warp在SM上切换执行。当一个warp需要的数据和计算资源都准备好时,它开始执行。因此,如果两个准备好的warp是使用不同硬件的,两种硬件的并行性便得到了利用。如果在一个GPU kernel内同时包含使用两种硬件的thread block,以利用到两种硬件的并行性来加速矩阵乘,需要小心的调整两种block的同步,这给编程人员带来了大量的编程麻烦。除此之外,不同GPU上的Tensor Core和CUDA Core的计算能力比例不同,编程人员很难实现一个通用的矩阵乘实现。因此,现有的GPU kernel要么仅仅使用Tensor Core,要么仅仅使用CUDA Core。
在这样情况下,利用到两种硬件并行性只能通过混跑两个使用不同硬件的GPUkernel来实现。NVIDIA公司提供了一种并行两个GPU kernel的调度接口CUDA stream。现有的CUDA stream的调度是kernel粒度的。仅仅当一个GPU kernel无法使用完SM上的资源时,另一个GPU kernel的线程块才能被调度到SM上进行计算。然而,GPU kernel通常都会包含大量线程块,以掩盖可能的计算间隙,所以CUDA stream导致了两个kernel的线性执行。因此,本实施例可以得到,CUDA stream的根源问题是粗粒度的kernel调度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111230110.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:胎圈锁定部分、半部鼓及轮胎成型机
- 下一篇:一种可进行热熔弯曲的PE电力管