[发明专利]用于矩阵乘操作的集成电路装置、计算设备、系统和方法在审
| 申请号: | 202011610669.4 | 申请日: | 2020-12-30 |
| 公开(公告)号: | CN114692075A | 公开(公告)日: | 2022-07-01 |
| 发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 中科寒武纪科技股份有限公司 |
| 主分类号: | G06F17/16 | 分类号: | G06F17/16 |
| 代理公司: | 北京维昊知识产权代理事务所(普通合伙) 11804 | 代理人: | 孙新国;陈姗姗 |
| 地址: | 100191 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 矩阵 操作 集成电路 装置 计算 设备 系统 方法 | ||
1.一种用于矩阵乘操作的集成电路装置,包括:
接口单元,其配置成从外部存储器获取用于所述矩阵乘操作的矩阵数据,其中所述矩阵数据包括第一矩阵和第二矩阵,其中第一矩阵和第二矩阵被分别划分成N2个第一矩阵块和N2个第二矩阵块,并且所述第一矩阵和第二矩阵的矩阵乘操作包括基于N2个第一矩阵块和N2个第二矩阵块的N2个矩阵乘任务,其中N是大于或等于2的正整数;
N2个主计算单元,该N2个主计算单元依次连接以形成数据传递的回路,其中每个主计算单元配置成执行N2个矩阵乘任务中的相应一个,并且包括:
多个存储区,其配置成存储用于执行矩阵乘任务的矩阵块和中间结果;以及
控制单元,其配置成与相邻的主计算单元进行矩阵块交换;
其中在执行相应一个所述矩阵乘任务中,每个所述主计算单元配置成:
通过所述接口单元获取与其矩阵乘任务关联的一个第一矩阵块和一个第二矩阵块,并且分别存储于第一存储区和第二存储区中;
对所述一个第一矩阵块和一个第二矩阵块执行矩阵乘操作,以得到一个中间结果;
通过所述控制单元并且利用所述第一存储区和第二存储区来与相邻的主计算单元执行N-1次矩阵块交换,并且对每次交换到的第一矩阵块和第二矩阵块执行矩阵乘操作,以分别得到N-1个中间结果;以及
对N个中间结果执行求和操作,以完成与其关联的矩阵乘任务。
2.根据权利要求1所述的集成电路装置,其中每个所述主计算单元包括M2个计算子单元,并且所述第一矩阵块和所述第二矩阵块被分别划分成M2个第一矩阵子块和M2个第二矩阵子块,并且一个所述矩阵乘任务包括基于M2个第一矩阵子块和M2个第二矩阵子块的M2个矩阵乘子任务,其中所述M2个计算子单元的每个配置成执行M2个矩阵乘子任务中的对应一个,并且在执行对应一个矩阵乘子任务中,所述计算子单元配置成:
执行M次如下操作,以获得M个中间子结果:
从所述第一存储区和所述第二存储区分别获取与其矩阵乘子任务关联的一个第一矩阵子块和一个第二矩阵子块;
对所述一个第一矩阵子块和对应的一个第二矩阵子块执行矩阵乘操作,以得到一个中间子结果;
对所述M个中间子结果执行求和操作,以完成与其关联的矩阵乘子任务。
3.根据权利要求2所述的集成电路装置,其中所述第一存储区和第二存储区是由所述N2个计算子单元所共享的共享存储区。
4.根据权利要求2所述的集成电路装置,其中每个所述主计算单元的多个存储区还包括M2个私有子存储区,并且每个私有子存储区与对应的一个计算子单元关联,并且配置成存储中间子结果。
5.根据权利要求2所述的集成电路装置,其中所述N2个主计算单元配置成并行地执行与各自关联的矩阵乘任务,并且所述M2个计算子单元配置成并行地执行与各自关联的矩阵乘子任务。
6.根据权利要求1-5的任意一项所述的集成电路装置,其中根据加农算法规则来划分所述第一矩阵和第二矩阵,以得到N2个第一矩阵块和N2个第二矩阵块。
7.根据权利要求2-5的任意一项所述的集成电路装置,其中根据加农算法规则来划分所述第一矩阵块和第二矩阵块,以得到M2个第一矩阵子块和M2个第二矩阵子块。
8.一种板卡,包括一个或多个根据权利要求1-7的任意一项所述的集成电路装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科寒武纪科技股份有限公司,未经中科寒武纪科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011610669.4/1.html,转载请声明来源钻瓜专利网。





