[发明专利]用于持久计算的低功率和低延迟GPU协处理器有效
申请号: | 201780072279.6 | 申请日: | 2017-11-16 |
公开(公告)号: | CN109997115B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 陈佳升;蒂姆尔·帕尔塔舍夫;亚历山大·洛希夫斯基;卡尔·基特里奇·韦克兰德;迈克尔·J·曼托尔 | 申请(专利权)人: | 超威半导体公司 |
主分类号: | G06F9/54 | 分类号: | G06F9/54;G06F9/38 |
代理公司: | 上海胜康律师事务所 31263 | 代理人: | 樊英如;邱晓敏 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 持久 计算 功率 延迟 gpu 处理器 | ||
1.一种计算机系统,包括:
常规队列;
持久队列,其中所述持久队列被配置为存储用于执行持久计算内核的数据;
图形处理单元GPU;
GPU协处理器;以及
主处理器,所述主处理器被配置成:
用将由所述GPU协处理器无限期地执行的所述持久计算内核初始化所述GPU协处理器,其中在所述持久计算内核被所述主处理器初始化之后,所述GPU协处理器执行所述持久计算内核,直到所述主处理器通知所述GPU协处理器停止执行所述持久计算内核;
向所述常规队列发送用于由所述GPU处理的输入数据;和
向所述持久队列发送映射到子任务的针对所述GPU协处理器的以供执行的消息;
其中所述GPU协处理器被配置成:
监测所述持久队列;
响应于检测到所述持久队列中的第一消息:
识别由所述GPU协处理器执行的第一子任务;和
调度所述第一子任务以供所述GPU协处理器执行。
2.如权利要求1所述的系统,其中所述GPU协处理器还被配置成:
响应于检测到所述第一消息,执行所述第一消息的事件表的查找;
使用所述事件表将所述第一消息映射至第一事件;以及
响应于将所述第一消息映射至所述第一事件,调度所述第一子任务以供所述GPU协处理器执行;以及
当所述GPU协处理器的计算资源可用时,继续为后续消息提供服务。
3.如权利要求2所述的系统,其中所述GPU协处理器还被配置成:
检测所述持久队列中的第二消息;
使用所述事件表将所述第二消息映射至第二事件;
响应于将所述第二消息映射至所述第二事件,调度第二任务以在第一矩阵上执行矩阵转置操作;
利用交叉开关来旋转所述第一矩阵中的数据项以创建第二矩阵;
利用多个偏置索引操作来重新排列所述第二矩阵中的数据项以创建第三矩阵;以及
利用所述交叉开关来旋转所述第三矩阵中的数据项以创建第四矩阵,其中所述第四矩阵是所述第一矩阵的转置版本。
4.如权利要求1所述的系统,其中所述GPU协处理器包括:
单指令多数据SIMD单元,其包括多个算术逻辑单元ALU;
耦合到所述多个ALU的多个寄存器文件;和
交叉开关;
其中所述GPU协处理器被配置成:
在单个时钟周期中将多个操作数传送至所述SIMD单元;和
在所述单个时钟周期内发出多于一条指令。
5.如权利要求4所述的系统,其中所述GPU协处理器还包括:
第一向量通用寄存器VGPR文件,所述第一VGPR文件具有所述多个寄存器文件的一个读端口和一个写端口;
第二VGPR文件,所述第二VGPR文件具有所述多个寄存器文件的多个读端口和一个写端口;
偏置索引访问块;以及
其中所述第一VGPR文件是多存储体阵列,并且其中所述GPU协处理器被配置成使用所述偏置索引访问块在单个时钟周期中访问所述第一VGPR文件的不同存储体的不同字线。
6.如权利要求1所述的系统,其中:
所述主处理器在所述GPU上调度视频流的图形处理任务;并且
所述主处理器对所述GPU协处理器进行编程以执行所述视频流的音频处理任务。
7.如权利要求1所述的系统,其中:
所述GPU协处理器还包括标量单元和向量单元;
所述标量单元被配置成:
监测所述持久队列中的消息;
调度子任务以在所述向量单元上执行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于超威半导体公司,未经超威半导体公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780072279.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于通用互通和可扩展性的服务层资源管理
- 下一篇:用于监视现场的装置和方法