[发明专利]可中断和可重启矩阵乘法指令、处理器、方法和系统在审
申请号: | 201780034999.3 | 申请日: | 2017-06-06 |
公开(公告)号: | CN109313556A | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | E·T·格罗科斯基;A·K·米什拉;R·凡伦天;M·J·查尼;小西蒙·C·史迪力 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06F9/38 | 分类号: | G06F9/38 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 何焜;黄嵩泉 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 矩阵乘法 源矩阵 存储器位置 处理器 中断 相乘 解码单元 指令 指示符 存储 矩阵 第二存储器 存储结果 结果数据 指令解码 耦合 响应 重启 | ||
一方面的处理器包括解码单元,用于对矩阵乘法指令解码。矩阵乘法指令用于指示第一源矩阵的第一存储器位置、用于指示第二源矩阵的第二存储器位置、并且用于指示将存储结果矩阵的第三存储器位置。处理器还包括执行单元,与解码单元耦合。执行单元用于响应于矩阵乘法指令进行以下操作:在中断之前将第一和第二源矩阵的部分相乘,并且响应于中断而存储完成进展指示符。完成进展指示符用于指示在中断之前将已经完成的将第一和第二源矩阵相乘以及将对应的结果数据存储到第三存储器位置中的进展的量。
背景技术
技术领域
本文中所描述的实施例一般涉及处理器。具体而言,本文所述的实施例一般涉及处理器中的矩阵乘法。
许多处理器具有单指令多数据(SIMD)架构。此类处理器可以具有包括各种不同类型的紧缩数据指令的指令集。紧缩数据指令可以用于对多个紧缩数据元素、或多对紧缩数据元素同时和/或并行地进行操作。多个数据元素可以作为紧缩数据紧缩在一个寄存器或存储器位置内,其中寄存器或存储器位置的位被逻辑地划分为数据元素的序列。处理器可具有并行执行硬件,其响应于紧缩数据指令以同时和/或并行地对多个紧缩数据元素操作。
此类指令的一个特定示例是紧缩数据乘法指令。另一个特定示例是紧缩数据乘法和累加指令。这些指令可以在包括矩阵乘法的各种不同类型的算法中使用。与通常仅对单个数据元素或单对数据元素进行操作的标量指令相比,此类紧缩数据或SIMD指令通常倾向于有助于通过它们提供的SIMD数据并行性而改善在其中使用它们的各种算法的性能。
附图说明
通过参考以下描述以及用于说明多个实施例的附图,可最佳地理解本发明。在附图中:
图1是计算机系统的实施例的框图。
图2是执行矩阵乘法指令的实施例的方法的实施例的流程框图。
图3是用于矩阵乘法指令的一组合适的操作数的第一示例实施例的框图。
图4是用于矩阵乘法指令的一组合适的操作数的第二示例实施例的框图。
图5是可以用于执行或实现矩阵乘法指令的矩阵乘法和累加执行单元的详细示例实施例的框图。
图6是分片的一个示例实施例的框图。
图7是图示根据实施例的快速路径和慢速路径处理的流程框图。
图8A-C是适用于执行本文公开的矩阵乘法指令的实施例的三个不同实施例处理器的框图。
图9A是图示有序流水线的实施例以及寄存器重命名的乱序发布/执行流水线的实施例的框图。
图9B是处理器核的实施例的框图,该处理器核包括耦合到执行引擎单元的前端单元,并且前端单元和执行引擎单元两者都耦合到存储器单元。
图10A是单个处理器核以及它与管芯上互连网络的连接及其第二级(L2)高速缓存的本地子集的实施例的框图。
图10B是图10A的处理器核的部分的展开图的实施例的框图。
图11是可具有多于一个的核、可具有集成存储器控制器并且可具有集成图形器件的处理器的实施例的框图。
图12是计算机架构的第一实施例的框图。
图13是计算机架构的第二实施例的框图。
图14是计算机架构的第三实施例的框图。
图15是计算机架构的第四实施例的框图。
图16是根据本发明的实施例的使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780034999.3/2.html,转载请声明来源钻瓜专利网。