[发明专利]面向SW39000处理器的稠密矩阵乘法的高性能实现方法及装置在审

专利信息
申请号: 202111192491.0 申请日: 2021-10-13
公开(公告)号: CN113849771A 公开(公告)日: 2021-12-28
发明(设计)人: 胡怡;杨超;刘芳芳;马文静;陈道琨 申请(专利权)人: 中国科学院软件研究所
主分类号: G06F17/16 分类号: G06F17/16;G06F7/57
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 余功勋
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 sw39000 处理器 稠密 矩阵 乘法 性能 实现 方法 装置
【权利要求书】:

1.一种面向SW39000处理器的稠密矩阵乘法的高性能实现方法,其步骤包括:

1)在主内存级别分别对非转置矩阵A、非转置矩阵B与问题矩阵C进行任务分块,产生若干的子矩阵δAil、子矩阵δBlj与子矩阵δCij,其中非转置矩阵A、非转置矩阵B与问题矩阵C的大小分为m×k、k×n与m×n,子矩阵δAil、子矩阵δBlj与子矩阵δCij的大小分为bm×bk、bk×bn与bm×bx;

2)当子矩阵δCij更新时,在从核阵列的LDM级别分别对子矩阵δCij、子矩阵δAil及子矩阵δBlj进行任务分块,将产生的子块εCuv、子块εAuw及子块εBwv映射至相应的从核,其中0≤u≤T,0≤w≤T,0≤v≤T,参数T根据从核数量设定;

3)将子矩阵δAil的第t个列块与子矩阵δBlj的第t个行块相乘,生成矩阵δCt,并基于子矩阵δCij与各矩阵δCt,得到子矩阵δCij的更新结果δC′ij

4)基于所述更新结果δC′ij,更新主内存中的子矩阵δCij,以得到问题矩阵C的输出结果。

2.如权利要求1所述的方法,其特征在于,非转置矩阵A、非转置矩阵B与问题矩阵C的数据类型包括:实数单精、实数双精、复数单精或复数双精。

3.如权利要求1所述的方法,其特征在于,获取需更新的子矩阵δCij的方法包括:采用N-M-K的循环次序,依次遍历每个子矩阵δCij

4.如权利要求1所述的方法,其特征在于,将子矩阵δCij、子矩阵δAil及子矩阵δBij传输到从核阵列的LDM中的方法包括:使用DMA数据传输方法。

5.如权利要求1所述的方法,其特征在于,通过以下步骤生成矩阵δCt

1)根据子矩阵δAil列块中子块εAuw与子矩阵δBlj行块中的子块εBwv,获取子块εCuv所在的从核;

2)子块εCuv所在的从核,获取子块εAuw与子块εBwv

3)在寄存器级别,将子块εCuv、子块εAuw与子块εBwv分别进行任务划分,得到相应的计算子块;

4)基于子块εAuw与子块εBwv的计算子块,利用浮点向量乘加指令与循环展开的方式,并以子块εCuv的计算子块为单位进行更新,得到子块εCuv的更新结果;

5)利用各子块εCuv的更新结果,生成矩阵δCt

6.如权利要求5所述的方法,其特征在于,当子块εAuw与子块εBwv不在子块εCuv所在的从核时,该从核基于RMA通信方法,获取子块εAuw与子块εBwv

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111192491.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top