[发明专利]用于片矩阵乘法和累加的系统、方法和装置在审
申请号: | 201780086978.6 | 申请日: | 2017-07-01 |
公开(公告)号: | CN110312992A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | R·凡伦天;Z·斯波伯;M·J·查尼;B·L·托尔;R·拉波波特;S·什沃茨曼;D·鲍姆;I·亚诺弗;E·乌尔德-阿迈德-瓦尔;M·阿德尔曼;J·考博尔;Y·戈比尔;S·卢巴诺维奇 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/30 | 分类号: | G06F9/30 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 李炜;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 操作数 矩阵 源矩阵 标识符 乘法 累加 指令 方法和装置 解码 结果存储 解码电路 矩阵操作 矩阵乘法 指令解码 操作码 累加和 归零 字段 加法 电路 配置 | ||
本文中详述的实施例涉及矩阵操作。具体而言,讨论了矩阵(片)乘法累加和负版本矩阵(片)乘法累加。例如,在一些实施例中,详述了:解码电路,用于对指令解码,该指令具有用于操作码、第一源矩阵操作数的标识符、第二源矩阵操作数的标识符、以及源/目的地矩阵操作数的标识符的字段;以及执行电路,用于执行经解码的指令以:将所标识的第一源矩阵操作数乘以所标识的第二源矩阵操作数;将乘法的结果加到所标识的源/目的地矩阵操作数;以及将加法的结果存储在所标识的源/目的地矩阵操作数中并将所标识的源/目的地矩阵操作数的未配置列归零。
技术领域
本发明的领域总体上涉及计算机处理器架构,更具体地涉及矩阵操纵。
背景技术
在诸如机器学习和其他批量数据处理之类的许多计算任务中,矩阵正变得日益重要。
附图说明
在所附附图中以示例方式而非限制方式说明本发明,在附图中,类似的附图标记指示类似的要素,其中:
图1图示经配置的片(tile)的实施例;
图2图示矩阵存储的若干示例;
图3图示利用矩阵(片)操作加速器的系统的实施例;
图4和图5示出如何使用矩阵操作加速器来共享存储器的不同实施例;
图6图示使用片的矩阵乘法累加操作(“TMMA”)的实施例;
图7图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图8图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图9图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图10图示链式融合乘法累加指令的迭代的执行的子集的实施例;
图11图示根据实施例的尺寸为2的幂的SIMD实现方式,其中,累加器使用比至乘法器的输入的尺寸大的输入尺寸;
图12图示利用矩阵操作电路的系统的实施例;
图13图示处理器核流水线的实施例,该处理器核流水线支持使用片的矩阵操作;
图14图示处理器核流水线的实施例,该处理器核流水线支持使用片的矩阵操作;
图15图示按行为主格式和列为主格式表达的矩阵的示例;
图16图示矩阵(片)的使用的示例;
图17图示矩阵(片)的使用的方法的实施例;
图18图示TILECONFIG指令的示例性执行;
图19(A)-图19(D)图示(多个)寄存器的示例;
图20图示将被支持的矩阵(片)的描述的实施例;
图21图示由处理器执行以处理TILECONFIG指令的方法的实施例;
图22图示使用存储器寻址来执行TILECONFIG指令的更详细的描述;
图23图示TILECONFIG指令的执行的示例性伪代码;
图24图示使用存储器源操作数的TMMA指令的示例性执行;
图25图示由处理器执行以处理TMMA指令的方法的实施例;
图26图示使用寄存器寻址的TMMA指令的执行的更详细的描述;
图27图示实现TMMPS指令的方法的伪代码;
图28图示使用存储器源操作数的TNMMA指令的示例性执行;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780086978.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理装置
- 下一篇:数据处理装置中的向量逐元素操作