[发明专利]一种基于深度强化学习的水下联合中继选择和功率分配方法有效
申请号: | 202010694039.3 | 申请日: | 2020-07-17 |
公开(公告)号: | CN111885671B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 韩松;李荦;李鑫滨;赵海红 | 申请(专利权)人: | 燕山大学 |
主分类号: | H04W40/22 | 分类号: | H04W40/22;H04W40/12;H04W52/24;H04W52/26;H04W72/04;H04W72/08;H04B11/00;H04B13/02 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
地址: | 066004 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 水下 联合 中继 选择 功率 分配 方法 | ||
1.一种基于深度强化学习的水下联合中继选择和功率分配方法,其特征在于,所述方法包括:
创建拓扑结构,包括一个源节点u、N个候选中继节点r1,r2···rN和一个目的节点d;
广播信号给候选中继节点和目的节点,同时源节点根据状态信息进行中继选择和功率分配;
选中的中继节点转发信号给目的节点;
所述目的节点将状态信息反馈给源节点;
采用深度强化学习方法,使所述源节点不断与环境进行交互得到所需状态信息,通过策略优化离线学习的方式,使所述源节点在试错中学习到经验用于决策,包括:
源节点获取环境状态信息
源节点根据获得的状态信息输入神经网络,做出采取的决策行动a,作用于环境;
源节点选择的动作作用于环境后,环境把整个拓扑的信干噪比作为奖赏r反馈给源节点,同时环境从当前时刻状态s转移到下一时刻的状态s’,把(s,a,r,s’)放入内存D中;
使用RNN网络训练网络参数,包括:
步骤一,初始化回放内存记为D;
步骤二,使用循环神经网络RNN来拟合状态行动值函数Q,并随机初始化参数θ;
步骤三,使用RNN网络来拟合目标状态行动值函数Q^,网络结构同Q网络,初始化权重参数θ-=θ;
步骤四,设定训练轮数用Episode表示,使其等于M;
步骤五,初始化网络输入序列s1;
步骤六,以ε的概率随机选择动作at,或者at=arg maxaQ(st,a,θ);
步骤七,源节点执行动作at,观察奖赏rt并得到下一个时刻的状态st+1;
步骤八,把(st,at,rt,st+1)放入D中;
步骤九,随机从D中采样minibatch个样本,表示为(sj,aj,rj,sj+1);
步骤十,计算每一个状态的目标值,并更新;如果在j+1步,Episode=M,则yj=rj,否则yj=rj+γmaxa'Q^(sj+1,a';θ-),γ为折扣因子;
步骤十一,梯度下降(yj-Q^(sj,aj';θ-))2,更新网络参数θ;
步骤十二,每隔c步,使Q^=Q;
步骤十三,当Episode小于M,返回执行步骤五。
2.根据权利要求1所述的基于深度强化学习的水下联合中继选择和功率分配方法,其特征在于,所述创建拓扑结构的步骤中还包括水下节点的分布设计和水下环境的模拟;
所述水下节点的分布设计为水下节点随机分布在规定范围内;
所述水下环境的模拟包括水下信道增益和水下环境噪声。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010694039.3/1.html,转载请声明来源钻瓜专利网。