[发明专利]一种基于强化学习的计算网格并行区域划分方法和装置有效
| 申请号: | 202010154775.X | 申请日: | 2020-03-08 |
| 公开(公告)号: | CN111353260B | 公开(公告)日: | 2023-01-10 |
| 发明(设计)人: | 李龙翔;刘羽;崔坤磊;张敏 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F30/28;G06N20/00;G06F113/08 |
| 代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰 |
| 地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 计算 网格 并行 区域 划分 方法 装置 | ||
1.一种基于强化学习的计算网格并行区域划分方法,其特征在于,包括以下步骤:
对计算网格进行初始区域划分并将划分结果作为初始状态,将改变所述计算网格中的每个单元所属区域作为动作以根据强化学习算法构建动作价值函数;
将求解器在集群上的单步运行速度作为奖励,根据所述奖励对所述动作价值函数进行迭代计算,以得到收敛函数值;
根据迭代后的状态、动作和收敛函数值实现并行区域网格划分;
所述强化学习算法为Q-Learning算法,所述动作价值函数为所述Q-Learning 算法中的Q(s,a)函数,其中Q(s,a)函数表示当前状态s执行动作a所获得的收敛函数值;
所述将求解器在集群的上单步运行速度作为奖励,根据所述奖励对所述动作价值函数进行迭代计算,以得到收敛函数值包括:
所有的所述单元所属区域变化构成动作集,根据所述初始状态和策略,依次从所述动作集中选择一个动作,所述动作价值函数根据所述奖励执行所述选择的动作以得到下一个状态,重复迭代直到所述得到的状态符合用户的负载和通信要求;
在执行完一个动作后,收集所述求解器的单步运行速度以作为当前奖励,所述动作价值函数根据所述当前奖励执行选择的下一个动作以得到下一个状态。
2.根据权利要求1所述的方法,其特征在于,对计算网格进行初始区域划分并将划分结果作为初始状态,将改变所述计算网格中的每个单元所属区域作为动作以根据强化学习算法构建动作价值函数包括:
基于已有的并行区域划分软件对所述计算网格进行并行区域划分,将所述划分的各单元所属区域的向量作为所述初始状态。
3.根据权利要求1所述的方法,其特征在于,对计算网格进行初始区域划分并将所述划分结果作为初始状态,将改变所述计算网格中的每个单元所属区域作为动作以根据强化学习算法构建动作价值函数包括:
根据进行计算网格单元划分,其中N表示单元总数,M表示进程总数,P向下取整所得整数值为前个进程中每一个进程包含的单元数,并且剩余所有单元分配给第M个进程,从而得到所述初始状态。
4.根据权利要求1所述的方法,其特征在于,所述策略包括ξ贪婪策略。
5.根据权利要求1所述的方法,其特征在于,所述方法用于CFD求解过程中的并行区域划分。
6.根据权利要求2所述的方法,其特征在于,所述已有的并行区域划分软件包括Metis、Scotch、 Kahip。
7.一种基于强化学习的计算网格并行区域划分装置,其特征在于,包括:
至少一个处理器;和
存储器,所述存储器存储有处理器可运行的程序代码,所述程序代码在被处理器运行时实施如权利要求1-6中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010154775.X/1.html,转载请声明来源钻瓜专利网。





