[发明专利]用来执行用于机器学习的浮点和整数操作的指令和逻辑在审
申请号: | 202110256528.5 | 申请日: | 2018-04-27 |
公开(公告)号: | CN112947894A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | H.考尔;M.A.安德斯;S.K.马修;姚安邦;J.雷;P.T.唐;M.S.斯特里克兰德;X.陈;T.斯派斯曼;A.R.阿普;A.科克;K.辛哈;B.温布;N.C.G.冯博里斯;E.努尔维塔迪;R.巴里克;T-H.林;V.兰加纳坦;S.雅哈吉达尔 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F7/57 | 分类号: | G06F7/57 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘瑜 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用来 执行 用于 机器 学习 浮点 整数 操作 指令 逻辑 | ||
1.一种装置,包括:
存储器接口;
耦合到所述存储器接口的多处理器阵列,所述多处理器阵列中的至少一个多处理器用于跨多个线程并行地执行融合乘-加指令,所述至少一个多处理器包括:
用于存储数据的寄存器堆;以及
耦合到所述寄存器堆的执行电路,所述执行电路用于执行所述融合乘-加指令以生成多维结果矩阵,所述执行电路包括:
硬件逻辑,所述硬件逻辑用于将第一多维源矩阵的第一多个数据元素和第二多维源矩阵的第二多个数据元素从32位浮点数据格式转换为具有1位符号、8位指数和尾数的降低精度的浮点格式,所述降低精度的浮点格式的尾数具有的位少于所述32位浮点数据格式的尾数的位;以及
多个乘-加电路,所述多个乘-加电路用于执行并行融合乘-加操作,来将以所述降低精度的浮点格式的所述第一多个数据元素与以所述降低精度的浮点格式的所述第二多个数据元素的相对应的数据元素相乘以生成多个乘积,并且用于将所述多个乘积与相对应的32位浮点值相加,以生成所述多维结果矩阵的相对应的32位浮点数据元素。
2.根据权利要求1所述的装置,其中,所述降低精度的浮点格式的所述尾数包括7位尾数。
3.根据权利要求1或2所述的装置,其中,所述融合乘-加指令包括用于标识所述第一多个数据元素的第一操作数,以及用于标识所述第二多个数据元素的第二操作数。
4.根据权利要求3所述的装置,其中,所述第一操作数标识所述寄存器堆的第一一个或多个寄存器中的所述第一多个数据元素,并且所述第二操作数标识所述寄存器堆的第二一个或多个寄存器中的所述第二多个数据元素。
5.根据权利要求1至4中的任一项所述的装置,还包括:
指令获取单元,其用于获取所述融合乘-加指令;
解码器,其用于对所述融合乘-加指令进行解码,以生成要跨所述多个线程执行的并行乘-加操作;以及
调度器,其用于调度所述并行乘-加操作以用于由所述执行电路执行。
6.根据权利要求5所述的装置,其中,所述执行电路包括多个算术逻辑单元(ALU)。
7.根据权利要求1至6中的任一项所述的装置,还包括:
互连结构,其用于将所述多处理器阵列耦合到所述存储器接口。
8.根据权利要求7所述的装置,还包括:
耦合到所述互连结构的输入/输出(IO)接口。
9.根据权利要求8所述的装置,还包括:
由所述多个乘-加电路共享的共享高速缓存或本地存储器。
10.一种系统,包括:
系统存储器;以及
根据权利要求1至9中的任一项所述的装置;
其中,所述存储器接口耦合到所述系统存储器。
11.根据权利要求10所述的系统,还包括:
本地存储器;
耦合到所述本地存储器的本地存储器接口;以及
存储器控制器,其用于经由所述本地存储器接口将存储器请求路由到所述本地存储器,或者经由所述存储器接口将存储器请求路由到所述系统存储器。
12.根据权利要求10或11所述的系统,还包括:
耦合到所述I/O接口的I/O设备。
13.根据权利要求12所述的系统,其中,所述I/O设备包括以下各项中的一项或多项:持久性存储设备;网络接口设备;以及串行通信设备。
14.根据权利要求13所述的系统,还包括:
经由主机处理器接口耦合到所述I/O接口的主机处理器,所述主机处理器用于执行程序代码并且提供将由所述执行电路执行的命令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110256528.5/1.html,转载请声明来源钻瓜专利网。