[发明专利]一种基于国产加速器的CFD核心算法并行优化方法在审
申请号: | 202211483944.X | 申请日: | 2022-11-24 |
公开(公告)号: | CN115758937A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 魏贵义;王军伟;张继发 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F30/28 | 分类号: | G06F30/28;G06F113/08;G06F119/14 |
代理公司: | 杭州奥创知识产权代理有限公司 33272 | 代理人: | 王佳健 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 国产 加速器 cfd 核心 算法 并行 优化 方法 | ||
本发明提出了一种基于国产加速器的CFD核心算法并行优化方法,本发明首先基于自研软件和程序特点,找出软件的核心算法,对其进行GPU上的并行优化,再通过国产加速器自带的转码工具将该算法程序移植到国产加速器上,得到移植后的基础版本计算模块。其次对移植后的基础版本计算模块进行性能测试。然后对基础版计算模块进行基于国产加速器的核函数合并性能优化、访存合并性能优化、共享内存性能优化以及调整线程块大小性能优化。最后对优化后的基础版计算模块进行性能测试。本发明利用CPU+国产加速器的异构系统对国产自主CFD软件进行加速,设计并实现了基于国产加速器的CFD核心算法的并行优化。
技术领域
本发明属于非结构网格CFD技术领域,具体涉及一种基于国产加速器的CFD核心算法并行优化方法。
背景技术
计算流体动力学(Computational Fluid Dynamics,CFD)利用计算机强大算力的同时结合数学中的离散方法,达到求解流体力学中复杂微分方程的目的,在当前的科研和工程领域都发挥了很大的作用。但是当下的CFD软件,不管是商业软件还是开源CFD软件等,多数是基于CPU开发的。随着人们计算的规模和求解的速度不断的扩大,有关CPU的计算、访存和通信的性能已经不能满足需要,因此寻找出新的方法来对大规模的数据进行并行处理已经成为国产CFD软件发展的必然趋势。
人们为解决复杂的大规模计算找到了一种新的CPU架构即CPU+加速器异构架构,它充分集合了CPU和加速器各自的优势,将能够并行运算的计算密集部分放到加速器上进行计算加速,从而提高了程序的运行速度,这也成为了目前高性能计算的主流方法。需要针对程序中的算法特点设计具有高并行度、高访存带宽的并行方法,以充分利用加速器的性能。为了打破国外对我国高性能行业的技术封锁,近年来国家高度重视国产高性能计算机的发展,使用国产加速器已经成为一种必然趋势。
发明内容
为了弥补现有技术的不足,本发明提出了一种基于国产加速器的CFD核心算法并行优化方法,利用CPU+国产加速器的异构系统对国产自主CFD软件进行加速,设计并实现了基于国产加速器的CFD核心算法的并行优化方法,同时将优化后的核心算法移植到国产加速器中。
包括以下步骤:
步骤A,基于自研软件,根据程序特点,找出软件的核心算法。
步骤B,对自研软件的核心算法进行GPU上的并行优化,再通过国产加速器自带的转码工具将该算法程序移植到国产加速器上,得到移植后的基础版本计算模块。
步骤C,对移植后的基础版本计算模块进行性能测试。
步骤D,对基础版本计算模块进行基于国产加速器的核函数合并性能优化。
步骤E,对基础版本计算模块进行基于国产加速器的访存合并性能优化。
步骤F,对基础版本计算模块进行基于国产加速器的共享内存性能优化。
步骤G,对基础版本计算模块进行基于国产加速器的调整线程块大小性能优化。
步骤H,对优化后的基础版本计算模块进行性能测试。
本发明有益效果:使用128*128*128大小的网格进行实验,移植后的程序模拟结果与原CPU版本基本一致,单加速卡相比于单CPU核心,对流项计算部分取得了166倍的加速,ADI迭代计算部分取得了59倍的加速。
附图说明
图1自研软件空气动力求解器计算流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211483944.X/2.html,转载请声明来源钻瓜专利网。