[发明专利]针对机器学习优化的并行处理器在审
申请号: | 202210796025.1 | 申请日: | 2022-07-06 |
公开(公告)号: | CN115599444A | 公开(公告)日: | 2023-01-13 |
发明(设计)人: | F·J-B·蒙贝尔斯 | 申请(专利权)人: | 安华高科技股份有限公司 |
主分类号: | G06F9/38 | 分类号: | G06F9/38;G06F9/30;G06N20/00 |
代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 林斯凯 |
地址: | 新加坡*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 机器 学习 优化 并行 处理器 | ||
本申请案涉及针对机器学习优化的并行处理器。一种用于机器学习的并行处理器系统包含:算术逻辑单元ALU阵列,其包含若干ALU;及控制器,其用以提供用于所述ALU的指令。所述系统进一步包含直接存储器存取DMA块,所述DMA块含有用以存取外部存储器以检索数据的多个DMA引擎。输入流缓冲器将所述DMA块与所述ALU阵列解耦且提供所述经检索数据的对准及重排序。所述DMA引擎并行操作且包含能够执行三维3‑D光栅化的光栅化逻辑。
技术领域
本描述大体上涉及机器学习,且特定来说,涉及针对机器学习优化的并行处理器。
背景技术
机器学习(ML)应用通常用以计算极大量的数据,所述数据的处理可经映射到大型并行可编程数据路径处理器上。ML应用对多维张量(例如,三及四维)进行运算。ML应用对简单整数、量化整数(通过整数标记的浮点(FP)值的子集)、FP 32b及半精度FP数(例如,FP16及大脑浮点(BFLOAT)16)进行运算。举例来说,ML网络可能涉及算术运算的混合,一些像将两个张量相加一样简单,也可能涉及更计算密集型的运算(例如矩阵乘法及/或卷积)或甚至非常复杂的函数(例如S型函数、平方根或指数函数)。ML应用还包含张量形状操纵且可提取、压缩输入张量并将其重塑成另一输出张量,这意味着大量地址计算。
发明内容
一方面,本申请案提供一种用于机器学习的并行处理器系统,所述系统包括:算术逻辑单元(ALU)阵列,其包含多个ALU;控制器,其经配置以提供用于所述多个ALU的指令;及直接存储器存取(DMA)块,其包含经配置以存取外部存储器以检索数据的多个DMA引擎;及输入流缓冲器,其经配置以将所述DMA块与所述ALU阵列解耦且提供所述经检索数据的对准及重排序,其中所述多个DMA引擎经配置以并行操作且包含经配置以执行三维(3-D)光栅化的光栅化逻辑。
另一方面,本申请案提供一种方法,其包括:由DMA引擎在存储器内执行第一光栅化以到达存储器区;及由所述DMA引擎在所述存储器区内执行第二光栅化以到达存储器元件地址,其中:所述第一光栅化通过在第一立方体内经由四向量地址计算定义3-D光栅模式来执行,且所述第二光栅化在围绕所述存储器区的第二立方体内经由三向量地址计算来执行以到达存储器元件地址。
另一方面,本申请案提供一种系统,其包括:输入流缓冲器,其包含经配置以存取外部存储器以检索数据的多个DMA引擎;多存储体存储器;ALU阵列,其包含多个ALU;且其中:所述输入流缓冲器经配置以将所述DMA引擎与所述ALU阵列解耦,且所述多个DMA引擎经配置以并行操作且包含经配置以执行3-D光栅化的光栅化逻辑。
附图说明
在所附权利要求书中阐述本技术的某些特征。然而,出于解释的目的,在附图中阐述本技术的若干实施例。
图1是说明根据本技术的各个方面的用来优化用于机器学习的并行处理器系统的架构的实例的高级图。
图2是说明根据本技术的各个方面的通过折叠接口馈送的一组异构算术逻辑单元(ALU)的实例的示意图。
图3是说明根据本技术的各个方面的用于产生复杂地址模式的直接存储器存取(DMA)的光栅化能力的实例的示意图。
图4是说明根据本技术的各个方面的用于通过流缓冲器进行转置的技术的实例的示意图。
图5是说明根据本技术的各个方面的复杂ALU的架构的实例的示意图。
图6是说明根据本技术的各个方面的用于由DMA引擎有序地存取存储器的方法的实例的流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安华高科技股份有限公司,未经安华高科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210796025.1/2.html,转载请声明来源钻瓜专利网。