[发明专利]面向SW39000处理器的稠密矩阵乘法的高性能实现方法及装置在审
| 申请号: | 202111192491.0 | 申请日: | 2021-10-13 |
| 公开(公告)号: | CN113849771A | 公开(公告)日: | 2021-12-28 |
| 发明(设计)人: | 胡怡;杨超;刘芳芳;马文静;陈道琨 | 申请(专利权)人: | 中国科学院软件研究所 |
| 主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F7/57 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余功勋 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 sw39000 处理器 稠密 矩阵 乘法 性能 实现 方法 装置 | ||
1.一种面向SW39000处理器的稠密矩阵乘法的高性能实现方法,其步骤包括:
1)在主内存级别分别对非转置矩阵A、非转置矩阵B与问题矩阵C进行任务分块,产生若干的子矩阵δAil、子矩阵δBlj与子矩阵δCij,其中非转置矩阵A、非转置矩阵B与问题矩阵C的大小分为m×k、k×n与m×n,子矩阵δAil、子矩阵δBlj与子矩阵δCij的大小分为bm×bk、bk×bn与bm×bx;
2)当子矩阵δCij更新时,在从核阵列的LDM级别分别对子矩阵δCij、子矩阵δAil及子矩阵δBlj进行任务分块,将产生的子块εCuv、子块εAuw及子块εBwv映射至相应的从核,其中0≤u≤T,0≤w≤T,0≤v≤T,参数T根据从核数量设定;
3)将子矩阵δAil的第t个列块与子矩阵δBlj的第t个行块相乘,生成矩阵δCt,并基于子矩阵δCij与各矩阵δCt,得到子矩阵δCij的更新结果δC′ij;
4)基于所述更新结果δC′ij,更新主内存中的子矩阵δCij,以得到问题矩阵C的输出结果。
2.如权利要求1所述的方法,其特征在于,非转置矩阵A、非转置矩阵B与问题矩阵C的数据类型包括:实数单精、实数双精、复数单精或复数双精。
3.如权利要求1所述的方法,其特征在于,获取需更新的子矩阵δCij的方法包括:采用N-M-K的循环次序,依次遍历每个子矩阵δCij。
4.如权利要求1所述的方法,其特征在于,将子矩阵δCij、子矩阵δAil及子矩阵δBij传输到从核阵列的LDM中的方法包括:使用DMA数据传输方法。
5.如权利要求1所述的方法,其特征在于,通过以下步骤生成矩阵δCt:
1)根据子矩阵δAil列块中子块εAuw与子矩阵δBlj行块中的子块εBwv,获取子块εCuv所在的从核;
2)子块εCuv所在的从核,获取子块εAuw与子块εBwv;
3)在寄存器级别,将子块εCuv、子块εAuw与子块εBwv分别进行任务划分,得到相应的计算子块;
4)基于子块εAuw与子块εBwv的计算子块,利用浮点向量乘加指令与循环展开的方式,并以子块εCuv的计算子块为单位进行更新,得到子块εCuv的更新结果;
5)利用各子块εCuv的更新结果,生成矩阵δCt。
6.如权利要求5所述的方法,其特征在于,当子块εAuw与子块εBwv不在子块εCuv所在的从核时,该从核基于RMA通信方法,获取子块εAuw与子块εBwv。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111192491.0/1.html,转载请声明来源钻瓜专利网。





