[发明专利]一种基于图强化学习的FPGA互联资源测试方法有效
| 申请号: | 202210021855.7 | 申请日: | 2022-01-10 |
| 公开(公告)号: | CN114371970B | 公开(公告)日: | 2023-05-02 |
| 发明(设计)人: | 阮爱武;杨胜江;范樱宝 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F11/22 | 分类号: | G06F11/22;G06N3/092 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 fpga 资源 测试 方法 | ||
1.一种基于图强化学习的FPGA互联资源测试方法,其特征在于,包括下述步骤:
1)将FPGA互联资源抽象为互联资源图:在互联资源图中,节点表示FPGA互联资源中的物理连线,边表示FPGA互联资源中的可编程互联点,同时每个节点有节点属性,每条边都有边属性;
2)在互联资源图上,确定激励发生器的输出所在节点,以及响应回收器的输入所在节点;
3)构建图强化学习中智能体的神经网络结构,用于估计动作值函数q(s,a),智能体的神经网络结构包括图神经网络和深度强化学习网络,图神经网络包括输入层、隐藏层和图神经网络输出层,深度强化学习网络包括动作状态层、全连接网络和Q值输出,在图神经网络中,Xi表示节点的输入特征,Ei表示边的输入特征,Zi表示节点的隐藏特征,Li表示节点特征的通道数,灰色节点是智能体所在位置节点,除此之外的节点为白色节点,在深度强化学习网络中,动作状态层是为了提取环境的隐藏状态和动作向量,环境的隐藏状态即为智能体所在节点的隐藏特征,动作向量是由智能体所在节点、选择的边和所到节点的特征表示拼接而成,动作向量的个数取决于智能体所在节点出边的条数,全连接网络用于计算隐藏状态s和动作向量ai对应的价值q(s,ai),全连接网络被调用n次,依次计算q(s,a0),q(s,ai),...,q(s,an);
4)构建布线环境,布线环境用于和智能体交互,并实现互联资源的布线,布线环境的设计包括环境状态、环境规则、环境动作集和奖励规则,环境状态即为互联资源图,互联资源图中包含了布线所需的所有信息,环境规则是指概率分布P(St+1|St=st,A=at),即环境当前状态为st的情况下,智能体对环境施加了动作at,环境状态根据概率分布P(St+1|St=st,A=at)跳转到下一个状态st+1,环境动作集定义为当前智能体所在节点的所有出边,因此智能体在不同的节点就对应有不同数量的可选动作,奖励规则是指概率分布P(Rt|St=st,At=at),即环境当前状态为st的情况下,智能体对环境施加了动作at,环境根据概率分布P(Rt|St=st,At=at)对智能体的行为做出评价,即奖励值rt;
5)在训练过程中,优化更新图强化学习神经网络参数,首先产生随机互联资源图,保证训练环境具有多样性,能够更全面地训练图强化学习神经网络,其次构建训练环境,根据互联资源图构造出图强化学习方法中的环境,用于训练图强化学习神经网络,训练环境也是布线环境,只是该布线环境用于训练智能体,随后智能体和训练环境不断交互,在该过程中智能体中神经网络参数得到优化更新,当一个训练回合结束后,开始下一轮训练,直到网络收敛;
6)在应用过程中,直接使用训练过程中已经收敛的网络参数,在互联资源图中找出最优测试布线。
2.如权利要求1所述的基于图强化学习的FPGA互联资源测试方法,其特征在于,所述步骤3)中,图神经网络包括GCN、GAT,深度强化学习网络包括DQN、A3C、PPO、DDPG。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210021855.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:移动式模块化公安智能检查站系统
- 下一篇:一种快速准确的探地雷达目标检测方法





