[发明专利]用于片矩阵乘法和累加的系统、方法和装置在审
申请号: | 201780086978.6 | 申请日: | 2017-07-01 |
公开(公告)号: | CN110312992A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | R·凡伦天;Z·斯波伯;M·J·查尼;B·L·托尔;R·拉波波特;S·什沃茨曼;D·鲍姆;I·亚诺弗;E·乌尔德-阿迈德-瓦尔;M·阿德尔曼;J·考博尔;Y·戈比尔;S·卢巴诺维奇 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 李炜;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 操作数 矩阵 源矩阵 标识符 乘法 累加 指令 方法和装置 解码 结果存储 解码电路 矩阵操作 矩阵乘法 指令解码 操作码 累加和 归零 字段 加法 电路 配置 | ||
1.一种处理器,包括:
解码电路,用于对指令解码,所述指令具有用于操作码、第一源矩阵操作数的标识符、第二源矩阵操作数的标识符、以及源/目的地矩阵操作数的标识符的字段;以及
执行电路,用于执行经解码的指令以:将所标识的第一源矩阵操作数乘以所标识的第二源矩阵操作数;将乘法的结果加到所标识的源/目的地矩阵操作数;以及将加法的结果存储在所述所标识的源/目的地矩阵操作数中。
2.如权利要求1所述的处理器,其中,所述执行电路包括融合乘法累加器的网格。
3.如权利要求1-2中的任一项所述的处理器,其中,所述所标识的第二源矩阵操作数被存储在存储器中。
4.如权利要求1-3中的任一项所述的处理器,其中,所述乘法逐所述所标识的第一源矩阵操作数的行且逐所述所标识的第二源矩阵操作数的列进行。
5.如权利要求1-4中的任一项所述的处理器,其中,操作数中的至少一个操作数是配置成用于表示矩阵的多个寄存器。
6.如权利要求1-5中的任一项所述的处理器,其中,数据元素是单精度浮点数据元素。
7.如权利要求1-5中的任一项所述的处理器,其中,数据元素是半精度浮点数据元素。
8.一种方法,包括:
对指令解码,所述指令具有用于操作码、第一源矩阵操作数的标识符、第二源矩阵操作数的标识符、以及源/目的地矩阵操作数的标识符的字段;以及
执行经解码的指令以:将所标识的第一源矩阵操作数乘以所标识的第二源矩阵操作数;将乘法的结果加到所标识的源/目的地矩阵操作数;以及将加法的结果存储在所述所标识的源/目的地矩阵操作数中。
9.如权利要求8所述的方法,其中,所述执行使用融合乘法累加器的网格。
10.如权利要求8-9中的任一项所述的方法,其中,所述所标识的第二源矩阵操作数被存储在存储器中。
11.如权利要求8-10中的任一项所述的方法,其中,所述乘法逐所述所标识的第一源矩阵操作数的行且逐所述所标识的第二源矩阵操作数的列进行。
12.如权利要求8-11中的任一项所述的方法,其中,操作数中的至少一个操作数是配置成用于表示矩阵的多个寄存器。
13.如权利要求8-12中的任一项所述的方法,其中,数据元素是单精度浮点数据元素。
14.如权利要求8-12中的任一项所述的方法,其中,数据元素是半精度浮点数据元素。
15.一种存储指令的非暂态机器可读介质,所述指令使处理器执行方法,所述方法包括:
对指令解码,所述指令具有用于操作码、第一源矩阵操作数的标识符、第二源矩阵操作数的标识符、以及源/目的地矩阵操作数的标识符的字段;以及
执行经解码的指令以:将所标识的第一源矩阵操作数乘以所标识的第二源矩阵操作数;将乘法的结果加到所标识的源/目的地矩阵操作数;以及将加法的结果存储在所述所标识的源/目的地矩阵操作数中。
16.如权利要求15所述的非暂态机器可读介质,其中,所述执行使用融合乘法累加器的网格。
17.如权利要求15-16中的任一项所述的非暂态机器可读介质,其中,所述所标识的第二源矩阵操作数被存储在存储器中。
18.如权利要求15-17中的任一项所述的非暂态机器可读介质,其中,所述乘法逐所述所标识的第一源矩阵操作数的行且逐所述所标识的第二源矩阵操作数的列进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780086978.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理装置
- 下一篇:数据处理装置中的向量逐元素操作