[发明专利]一种连续运算的浮点矩阵计算加速方法及装置在审
申请号: | 202111285204.0 | 申请日: | 2021-11-01 |
公开(公告)号: | CN114186188A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 彭元喜;张龙龙;扈啸;郭阳;黄啊慧;田甜;粟毅;张世亮;聂聆聪 | 申请(专利权)人: | 中国人民解放军国防科技大学;北京动力机械研究所 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F7/487;G06F7/485;G06E3/00 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 周长清 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 连续 运算 浮点 矩阵 计算 加速 方法 装置 | ||
一种连续运算的浮点矩阵计算加速方法及装置,该方法包括:步骤S1:根据连续运算具体需求,按照四则运算的顺序排列计算任务;步骤S2:开始第一个矩阵运算,并判断下一次运算模式:如果是矩阵乘运算,转入执行步骤S3,如果是矩阵加、矩阵减运算,转入执行步骤S4;步骤S3:将中间计算结果暂时保存在片上RAM中,用于下一次矩阵运算的数据源,转入步骤S5;步骤S4:将中间计算结果暂时保存到片外存储器,转入步骤S5;步骤S5:进行下一个矩阵计算,重复步骤S2‑步骤S4,直到计算完成,将最终计算结果传输到片外存储器。该装置用来执行上述方法。本发明具有可减少数据访存时间、降低访存带宽、适用性和复用性好等优点。
技术领域
本发明主要涉及到高性能计算机技术领域,特指一种连续运算的浮点矩阵计算加速方法及装置。
背景技术
矩阵计算在多个应用领域特别是数字信号处理、自动控制领域被广泛使用,矩阵计算能力直接关系到高性能计算机的能力。但在很多应用中,矩阵计算并不是单次的,而是具有一定的连续性,这种连续运算的浮点矩阵计算在CPU、GPU、FPGA(Field-programmablegate arrays,现场可编程门阵列)等现有计算平台上的性能和效率受限。
如果按照传统的单个计算的方法,将中间计算结果先导出到外部存储器,而后再导入片上内存用于下一次计算,这个数据来回搬移过程通常有很高的延迟。此外,现代FPGA开发版内嵌的BRMA资源足够丰富,在一连串运算应用中,制约整体性能的往往是外部访存时间,而不是片上资源。因此,有必要对这个耗时较大的部分进行优化。
连续运算计算相关技术方面,有从业者提出了中国专利申请“基于FPGA的通用浮点矩阵处理器硬件结构”中(公开号CN104391820A),其中公开了一种支持若干个加速器片上高速通信的多个共享矩阵缓存,其共享缓存被划分为六个区域,三个ping缓存区存储的矩阵用于乘法操作,同时三个pong缓存区可用于累加及数据传输操作,这种片上集中存储的方法能够减少片内片外访存。但是,上述方案也存在一些技术问题,即:需要把所有参与运算的矩阵存储在片上,对片上存储需求太高,数据访问调度也较为复杂。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种可减少数据访存时间、降低访存带宽、适用性和复用性好的连续运算的浮点矩阵计算加速方法及装置。
为解决上述技术问题,本发明采用以下技术方案:
一种连续运算的浮点矩阵计算加速方法,其特征在于,包括:
步骤S1:根据连续运算具体需求,按照四则运算的顺序排列计算任务;
步骤S2:开始第一个矩阵运算,并判断下一次运算模式:如果是矩阵乘运算,转入执行步骤S3,如果是矩阵加、矩阵减运算,转入执行步骤S4;
步骤S3:将中间计算结果暂时保存在片上RAM中,用于下一次矩阵运算的数据源,转入步骤S5;
步骤S4:将中间计算结果暂时保存到片外存储器,转入步骤S5;
步骤S5:进行下一个矩阵计算,重复步骤S2-步骤S4,直到所有矩阵计算完成,将最终计算结果传输到片外存储器。
作为本发明方法的进一步改进:所述步骤S2包括:
步骤S201:根据待处理矩阵的操作类型,接收外部输入信号,判断矩阵运算模式:当运行模式是矩阵乘时,转入执行步骤S202,当运算模式是矩阵加、矩阵减时,转入执行步骤S203;
步骤S202:初始化片上RAM为零,转入执行步骤S204;
步骤S203:通过RAM通道加载数据源C到片上RAM中,转入执行步骤S204;
步骤S204:通过RAM通道预加载部分数据流A,而后边计算边加载数据流A和数据流B。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学;北京动力机械研究所,未经中国人民解放军国防科技大学;北京动力机械研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111285204.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于联盟链的医疗模型的训练方法、装置及联盟链
- 下一篇:一种输灰系统改造方法