[发明专利]针对机器学习优化的并行处理器在审
申请号: | 202210796025.1 | 申请日: | 2022-07-06 |
公开(公告)号: | CN115599444A | 公开(公告)日: | 2023-01-13 |
发明(设计)人: | F·J-B·蒙贝尔斯 | 申请(专利权)人: | 安华高科技股份有限公司 |
主分类号: | G06F9/38 | 分类号: | G06F9/38;G06F9/30;G06N20/00 |
代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 林斯凯 |
地址: | 新加坡*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 机器 学习 优化 并行 处理器 | ||
1.一种用于机器学习的并行处理器系统,所述系统包括:
算术逻辑单元ALU阵列,其包含多个ALU;
控制器,其经配置以提供用于所述多个ALU的指令;及
直接存储器存取DMA块,其包含经配置以存取外部存储器以检索数据的多个DMA引擎;及
输入流缓冲器,其经配置以将所述DMA块与所述ALU阵列解耦且提供所述经检索数据的对准及重排序,
其中所述多个DMA引擎经配置以并行操作且包含经配置以执行三维3-D光栅化的光栅化逻辑。
2.根据权利要求1所述的并行处理器系统,其中所述输入流缓冲器进一步经配置以通过预先接受对数据的多个请求来吸收所述外部存储器的共享接口上的数据气泡。
3.根据权利要求1所述的并行处理器系统,其中所述指令包括包含用于所述多个ALU且用于向量及标量寄存器的指令的超长指令字VLIW。
4.根据权利要求1所述的并行处理器系统,其中所述光栅化逻辑经配置以经由7元组向量扫描执行所述3-D光栅化。
5.根据权利要求4所述的并行处理器系统,其中所述7元组向量扫描包括在第一立方体内经由四元组向量地址计算执行粗略光栅化以到达存储器区。
6.根据权利要求5所述的并行处理器系统,其中所述7元组向量扫描进一步包括在围绕所述存储器区的第二立方体内经由三向量地址计算执行精细光栅化以到达存储器元件地址。
7.根据权利要求1所述的并行处理器系统,其中所述多个ALU具有带有不同计算能力的不同数目个功能单元。
8.根据权利要求7所述的并行处理器系统,其进一步包括输入缓冲器接口,所述输入缓冲器接口经配置以基于所述多个ALU中的每一ALU的对应功能单元及计算能力来执行馈通折叠以馈送所述多个ALU中的每一者。
9.根据权利要求1所述的并行处理器系统,其中所述经检索数据在直接模式或转置模式中的一者下馈送到所述多个ALU中。
10.根据权利要求9所述的并行处理器系统,其中在所述转置模式下,所述经检索数据在所述多个ALU中以棋盘模式交错。
11.根据权利要求9所述的并行处理器系统,其进一步包括经配置以分别存储向量及标量变量的向量寄存器堆VRF模块及标量寄存器堆SRF模块。
12.根据权利要求11所述的并行处理器系统,其中所述多个ALU包括至少包含转换器逻辑ALU及特殊功能ALU的不同功能单元,且其中所述VRF及SRF经配置以基于所述多个ALU中的ALU的对应功能单元来通过读取网络将向量或标量变量馈送到那个ALU中。
13.一种方法,其包括:
由DMA引擎在存储器内执行第一光栅化以到达存储器区;及
由所述DMA引擎在所述存储器区内执行第二光栅化以到达存储器元件地址,
其中:
所述第一光栅化通过在第一立方体内经由四向量地址计算定义3-D光栅模式来执行,且
所述第二光栅化在围绕所述存储器区的第二立方体内经由三向量地址计算来执行以到达存储器元件地址。
14.根据权利要求13所述的方法,其中定义3-D光栅模式包括通过步进到通过所述第一立方体的维度[K,H,W,C]定义的四维4-D张量内来执行四向量地址计算。
15.根据权利要求14所述的方法,其进一步包括使用所述第一光栅化以提供所述4-D张量内的有序存取。
16.根据权利要求15所述的方法,其中所述有序存取从扫描所述第一立方体的维度H、W及C中的任一者开始。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安华高科技股份有限公司,未经安华高科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210796025.1/1.html,转载请声明来源钻瓜专利网。