[发明专利]用于持久计算的低功率和低延迟GPU协处理器有效
申请号: | 201780072279.6 | 申请日: | 2017-11-16 |
公开(公告)号: | CN109997115B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 陈佳升;蒂姆尔·帕尔塔舍夫;亚历山大·洛希夫斯基;卡尔·基特里奇·韦克兰德;迈克尔·J·曼托尔 | 申请(专利权)人: | 超威半导体公司 |
主分类号: | G06F9/54 | 分类号: | G06F9/54;G06F9/38 |
代理公司: | 上海胜康律师事务所 31263 | 代理人: | 樊英如;邱晓敏 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 持久 计算 功率 延迟 gpu 处理器 | ||
公开了用于实施图形处理单元(GPU)协处理器的系统、设备和方法。所述GPU协处理器包括SIMD单元,所述SIMD单元能够基于输入数据流事件自行调度子波程序。主处理器将针对所述GPU协处理器的消息发送至队列。响应于检测到所述队列中的第一消息,所述GPU协处理器调度第一子任务以供执行。所述GPU协处理器包括用于向量通用寄存器(VGPR)文件的通道间交叉开关和通道内偏置索引机构。所述VGPR文件被分成两个文件。第一VGPR文件是具有一个读端口和一个写端口的较大寄存器文件。第二VGPR文件是具有多个读端口和一个写端口的较小寄存器文件。所述第二VGPR引入了每个时钟周期共同发出多于一个指令的能力。
背景技术
相关技术的描述
并行处理架构对于某些应用并不能很好地扩展。例如,超低功率应用仅需要相对有限的计算能力以及最小并行处理宽度,因此并不能有效地使用并行处理架构。在这些应用中,与部署的计算资源相比,任务分配和调度开销变得显著。这些应用中的一些应用包括网络包处理、图像识别、音频处理、加密加速等。这些应用通常要求较低延迟和持久计算、稳定的输入数据流,以及相对较少的处理内核和状态变化。
一些图形处理单元(GPU)架构和编程模型涉及主机或中央处理单元(CPU)将一批内核分派给GPU以完成许多小任务。主机负责准备内核的输入数据并负责调度任务。然而,一些应用不会立即产生较大的输入数据集,或者应用的输入批次较小,这需要快速实时反应以及较低延迟计算。当前的GPU架构和编程模型不能很好地适用于这些应用。
附图说明
通过结合附图参考以下描述,可以更好地理解本文描述的方法和机构的优点,在附图中:
图1是计算机系统的一个实施方案的框图。
图2是GPU协处理器单元的一个实施方案的框图。
图3是用于持久计算的着色器内核执行模型的一个实施方案的框图。
图4是SIMD单元的一个实施方案的框图。
图5是用于支持偏置索引寄存器操作的向量寄存器文件的一个实施方案的框图。
图6示出用于向量通用寄存器(VGPR)偏置索引的伪代码的一个实施方案。
图7是交叉开关的一个实施方案的框图。
图8示出用于实施交叉开关的功能的伪代码的一个实施方案。
图9是矩阵转置操作的一个实施方案的框图。
图10是示出用于在GPU协处理器上执行持久计算内核的方法的一个实施方案的概括流程图。
图11是示出用于处理持久队列中的消息的方法的另一实施方案的概括流程图。
图12是示出用于执行矩阵转置操作的方法的一个实施方案的概括流程图。
图13是示出用于与视频流相关联的音频处理的方法的一个实施方案的概括流程图。
图14是示出用于操作GPU协处理器的方法的另一实施方案的概括流程图。
图15是示出用于将操作数分配给不同向量通用寄存器(VGPR)文件的方法的一个实施方案的概括流程图。
具体实施方式
在以下描述中,阐述了许多具体细节以提供对本文呈现的方法和机构的透彻理解。然而,本领域普通技术人员应认识到,可以在没有这些具体细节的情况下实践各种实施方案。在一些情况下,未详细示出公知的结构、部件、信号、计算机程序指令和技术以避免模糊本文描述的方法。应理解,为了简单且清楚地进行说明,图中所示的元件不一定按比例绘制。例如,一些元件的尺寸可能相对于其它元件被夸大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于超威半导体公司,未经超威半导体公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780072279.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于通用互通和可扩展性的服务层资源管理
- 下一篇:用于监视现场的装置和方法