[发明专利]矩阵运算的方法和加速器在审
申请号: | 202010653743.4 | 申请日: | 2020-07-08 |
公开(公告)号: | CN113918879A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 李涛;卢廷玉;崔宝龙;俞立呈;刘昊程;林伟彬 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F16/27 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 常忠良 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 矩阵 运算 方法 加速器 | ||
本申请公开了一种矩阵运算的方法,应用于用于执行矩阵运算的加速器,矩阵运算的加速器,响应于所接收的矩阵运算指令,将第一矩阵的子集和第二矩阵的子集分别存储在存储器的第一存储空间和第二存储空间,将第一矩阵的子集和第二矩阵的子集相乘后获得的子集存储在存储器的第三存储空间;根据矩阵运算指令对第一矩阵的子集和第二矩阵的子集进行矩阵运算,得到矩阵运算的结果。利用专门的矩阵运算的加速器进行矩阵运算,能够在较短的时间内完成大规模矩阵的运算,卸载了处理器的矩阵运算负担,使得矩阵运算不再受限于处理器中寄存器的资源以及处理器自身的计算能力,有效的提高了矩阵运算的效率。
技术领域
本申请涉及计算机领域,尤其涉及一种矩阵运算的方法和加速器。
背景技术
矩阵运算的过程通常为:首先,处理器从主存储器(英文:main memory,下文中简称为主存)中将待进行矩阵运算的数据载入寄存器中;接着,由处理器对该寄存器中的数据进行矩阵运算后,得到矩阵运算的结果。可见,该矩阵运算依赖处理器的计算能力以及处理器中寄存器的资源。随着信息的爆炸式增长,参与矩阵运算的矩阵的规模的不断增大,由于处理器的计算能力以及处理器中寄存器的资源均有限,无法对规模较大的矩阵进行高效的矩阵运算。因此,如何提供一种高效的矩阵运算方法成为亟待解决的技术问题。
发明内容
本申请提供了一种矩阵运算的方法和加速器,使得矩阵运算不受限于处理器的计算能力以及处理器中寄存器的资源,能够高效的完成矩阵运算。
第一方面,本申请提供了一种矩阵运算的加速器,该加速器至少包括:控制(control,CTRL)单元、存储器和处理单元(process element,PE)。其中,CTRL单元用于接收矩阵运算指令;存储器用于将存储区域划分为多个存储空间,例如划分为第一存储空间、第二存储块和第三存储空间,那么,存储器用于在第一存储空间存储第一矩阵的子集、在第二存储空间存储第二矩阵的子集,在第三存储空间存储第三矩阵,该第一矩阵和第二矩阵为矩阵运算指令所指示的参与矩阵运算的两个矩阵,第三矩阵为基于第一矩阵的子集和第二矩阵的子集相乘后获得的子集组成的矩阵;PE负责基于所述矩阵运算指令对第一存储空间中第一矩阵的子集和第二存储空间中第二矩阵的子集进行矩阵运算,得到矩阵运算的结果。这样,利用专门的矩阵运算的加速器进行矩阵运算,能够在较短的时间内完成大规模矩阵的运算,卸载了处理器的矩阵运算的负担,使得矩阵运算不再受限于处理器中寄存器的资源以及处理器自身的计算能力,有效的提高了矩阵运算的效率。
在一种可能的实现方式中,该矩阵运算的加速器中包括至少一个PE。作为一个示例,当矩阵运算的加速器中包括多个PE时,该多个PE可以分别用于基于矩阵运算指令对第一存储空间中第一矩阵的子集和第二存储空间中第二矩阵的子集进行并行矩阵运算,得到矩阵运算的结果。这样,多个PE并行执行矩阵运算,使得矩阵运算的速度不再依赖某个PE的计算速度,即使对于大规模矩阵,该矩阵运算的加速器能够快速完成运算,大大的提高了矩阵运算的效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010653743.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:商品信息检索系统及方法
- 下一篇:试纸贴膜设备