[发明专利]成形的寄存器堆读取无效
申请号: | 201210567117.9 | 申请日: | 2012-12-24 |
公开(公告)号: | CN103257931A | 公开(公告)日: | 2013-08-21 |
发明(设计)人: | 杰克·希莱尔·肖凯特;迈克尔·费特曼;瑟利斯·加德雷;仇小钢;奥姆卡尔·帕兰杰佩;阿杰纳·拉杰卓;斯图尔特·格伦·卡尔顿;埃里克·莱尔·希尔;拉杰史沃拉·塞尔瓦桑;道格拉斯·J·哈恩 | 申请(专利权)人: | 辉达公司 |
主分类号: | G06F12/08 | 分类号: | G06F12/08;G06F9/38 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 董巍;徐丁峰 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 成形 寄存器 读取 | ||
技术领域
本公开总地涉及处理器寄存器堆,并且,更具体地,涉及用于成形的寄存器堆读取的方法和装置。
背景技术
并行处理器具有多个独立的内核,所述内核使多个线程能够使用不同硬件资源来同时执行。SIMD(单指令、多数据)架构处理器在多个内核的每个上执行相同指令,其中每个内核根据不同的输入数据来执行。MIMD(多指令、多数据)架构处理器在具有供应至每个内核的不同输入数据的不同内核上执行不同的指令。并行处理器还可以是多线程的,其使两个或更多个线程能够使用单处理内核(即在不同的时钟周期期间在内核上执行不同的线程)的资源来大致同时执行。
当处理器调度指令用于由处理器内核执行时,该处理器将某些值写入耦合到处理器内核的寄存器堆中的具体的寄存器。一个寄存器可存储操作码,所述操作码指定由处理器内核来实施的操作,并且附加的寄存器可存储操作数值,所述操作数值用来作为对处理器内核的输入用于执行指令。为了待执行的操作,每个值必须写入寄存器堆,并随后经由交叉开关(crossbar)或其他数据传输装置耦合到数据路径的输入。
用于线程的指令常常指32位、64位、甚至128位的将从寄存器堆读取的操作数。然而,一般包括多个32位槽的常规寄存器堆要求处理器将从32位槽读取的多个32位值变换为线程所请求的64位或128位值,其会要求数个时钟周期来完成。该问题的一个解决办法包括,简单地实现包括更大的槽即64位槽的寄存器堆。不幸的是,这种寄存器堆成本高得多,并增加了包括所述寄存器堆的处理器的整体复杂性。
因此,本技术领域所需要的是用于处理寄存器堆的可变大小数据读取的改进技术。
发明内容
本发明的一个实施例阐释了用于实施寄存器堆的成形的访问的方法,所述寄存器堆包括N个寄存器的集合,其中N大于或等于2。所述方法包括以下步骤:对于包括在线程组中的至少一个线程,接收从所述N个寄存器的集合中的每个寄存器访问第一数量的数据的请求,以及配置交叉开关以允许所述至少一个线程从所述N个寄存器的集合中的每个寄存器访问所述第一数量的数据。
附图说明
为了详细地理解本发明的上述特征,对于以上简要说明的发明,可以参照实施例进行更为具体的描述,其中一些实施例示出于附图中。然而,应注意的是,附图中示出的只是本发明的代表性实施例,因此不应被认为是对本发明的范围的限制,本发明可以适用于其他同等有效的实施例。
图1是示出了配置为实施本公开的一个或多个方面的计算机系统的框图。
图2是根据本公开的一个实施例的、用于图1的计算机系统的并行处理子系统的框图。
图3A是根据本公开的一个实施例的、图2的前端的框图。
图3B是根据本公开的一个实施例的、图2的并行处理单元之一内的通用处理集群的框图。
图3C是根据本公开的一个实施例的、图3B的流多处理器的一部分的框图。
图4是根据本公开的另一个示例实施例的、图3B的流多处理器的框图。
图5示出了根据本公开的一个实施例的、图3C的本地寄存器堆的详细视图。
图6示出了根据本公开的一个实施例的、用于8个线程的4个不同寄存器的32位读取。
图7示出了根据本公开的一个实施例的、用于8个线程的4个不同寄存器的64位读取。
图8示出了根据本公开的一个实施例的、用于8个线程的寄存器的128位读取。
具体实施方式
在下面的描述中,将阐述大量的详细内容以提供对本公开更深入的理解。然而,对本技术领域的技术人员显而易见的是,本公开可以在没有一个或多个这些具体细节的情况下得以实施。
本公开描述了用于源操作数收集器高速缓存的方法和装置。在一个实施例中,处理器包括可耦合到存储元件(即操作数收集器)的寄存器堆,存储元件向用于执行指令的处理器内核的数据路径提供输入。为了减少寄存器堆和操作数收集器之间的带宽,操作数可在随后的指令中被高速缓存并被重新使用。因此,可能仅需要将由给定的指令所指定的操作数的子集载入操作数收集器。调度单元维持用来监视当前存储在操作数收集器中的寄存器值的高速缓存表。该调度单元还可配置操作数收集器以选择特定的存储元件,允许用于两个或更多个指令的操作数被并发高速缓存,存储元件耦合到用于给定的指令的数据路径的输入。
系统概述
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210567117.9/2.html,转载请声明来源钻瓜专利网。