[发明专利]屏障同步机制在审
申请号: | 202011412340.7 | 申请日: | 2020-12-03 |
公开(公告)号: | CN113298691A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | J·瓦莱里奥;V·兰甘纳坦;J·雷 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06T1/20 | 分类号: | G06T1/20;G06F15/78;G06N20/00 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 徐倩;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 屏障 同步 机制 | ||
公开了一种用于促进线程屏障同步的装置:该装置包括:多个处理资源,其用于执行线程工作组中包括的多个执行线程;以及屏障同步硬件,其用于将第一命名屏障分配给线程工作组中的第一组多个执行线程,将第二命名屏障分配给线程工作组中的第二组多个执行线程,经由第一命名屏障来同步第一组执行线程的执行,并经由第二命名屏障来同步第二组执行线程的执行。
背景技术
图形处理单元(GPU)是高度线程化机器,其中并行地执行程序的数百个线程以实现高吞吐量。GPU线程工作组(或组)被实现在网格着色应用中以执行三维(3D)渲染。在GPU内实现了同步屏障,以使线程组中的线程能够等待直到所有线程到达特定的执行点,然后再继续执行任何线程。
常规屏障的问题是每个工作组只能定义一个屏障。例如,如果组大小包括十六个硬件线程,但是缓冲器的生产者-消费者关系仅包括八个线程,则屏障必须等待所有十六个线程到达同步点。因此,每个线程在飞行中只能有一个屏障信号消息。
附图说明
为了以能够详细理解本发明的以上记载特征的方式,可通过参考实施例来对以上简要概括的本发明进行更具体的描述,这些实施例中的一些在所附附图中被图示。然而,应注意的是,附图仅展示本发明的典型的实施例,且因此将不被视为限制其范围,因为本发明可以承认其他等效实施例。
图1是根据实施例的处理系统的框图;
图2A-图2D图示由本文中描述的实施例提供的计算系统和图形处理器;
图3A-图3C图示由实施例提供的附加的图形处理器和计算加速器架构的框图;
图4是根据一些实施例的图形处理器的图形处理引擎的框图;
图5A-图5B图示根据实施例的包括在图形处理器核中采用的处理元件阵列的线程执行逻辑500;
图6图示根据实施例的附加执行单元600;
图7是图示根据一些实施例的图形处理器指令格式的框图;
图8是根据另一实施例的图形处理器的框图;
图9A和图9B图示根据一些实施例的图形处理器命令格式和命令序列;
图10图示根据一些实施例的用于数据处理系统的示例性图形软件架构;
图11A-图11D图示根据实施例的集成电路封装组件;
图12是图示根据实施例的示例性芯片上系统集成电路的框图;
图13A和图13B是图示附加的示例性图形处理器的框图;
图14图示根据实施例的机器学习软件栈;
图15A-图15B图示示例性深度神经网络的多个层;
图16图示示例性递归神经网络;
图17图示深度神经网络的训练和部署;
图18是示出分布式学习的框图;
图19图示计算设备的一个实施例;
图20示出GPU的一个实施例;
图21图示子切片(sub-slice)的一个实施例;
图22是图示用于执行屏障同步进程的过程的一个实施例的流程图;以及
图23图示使用命名屏障来实现卷积核流程的伪代码的一个实施例。
具体实施方式
在以下描述中,陈述许多具体细节以提供对本发明的更透彻理解。然而,将对本领域技术人员显而易见的是,可在没有这些特定细节中的一个或多个细节的情况下实施本发明。在其他实例中,未描述公知的特征以避免使本发明模糊。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011412340.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示设备
- 下一篇:一种从芹菜中提取降压去脂物质芹菜叶绿素和黄酮的制备工艺