[发明专利]一种基于强化学习的M2M通信中中继节点的选择方法有效
| 申请号: | 202010040442.4 | 申请日: | 2020-01-15 |
| 公开(公告)号: | CN111246438B | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 潘甦;吴子秋 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | H04W4/70 | 分类号: | H04W4/70;H04W40/02;H04W40/10;H04W40/12;H04W40/22 |
| 代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
| 地址: | 210023 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 强化 学习 m2m 通信 中继 节点 选择 方法 | ||
1.一种基于强化学习的M2M通信中中继节点的选择方法,应用于M2M通信系统中,其特征在于,包括如下步骤:
S1、搭建强化学习模型框架,确定强化学习的动作集、状态集以及奖赏值,包括如下步骤:
S11、将M2M通信系统中不同的中继节点选择定义为强化学习中的动作,包括如下步骤,
将M2M通信系统中通信设备的个数记为N,中继节点的个数记为M,智能体动作记为a∈A={1,2,...,M},即所选择的中继节点的编号;
S12、将各中继节点的电池的剩余能量及下次通信的目标节点作为强化学习的状态包括如下步骤,
将编号为i的中继节点的电池的剩余能量记为Pi,通信的目标节点的编号记为n,强化学习状态S为
S=[P1,P2,...,PM,n];
S13、根据各中继节点到M2M通信系统中通信设备的信道情况以及M2M通信系统中源节点到各中继节点的信道情况,计算出单次通信选择过程中各中继节点所消耗的能量,包括如下步骤,
根据各中继节点到M2M通信系统中通信设备的信道情况以及M2M通信系统中源节点到各中继节点的信道情况,采用解码转发的转发方式,计算出单次通信选择过程中各中继节点所消耗的能量,随后综合能量消耗与中继节点的电池的均衡情况作为强化学习的奖赏,将多目标问题转化为单目标问题,并通过参数调整完成对两者的意向均衡点的调整;
将中继节点的能量消耗记为E,中继节点的能量均衡记为Dmax、表示中继节点的电池的最大能量与最小能量间的差值,强化学习的奖赏R为
R=r0-ξeE-δξdDmax,
其中,ξe与ξd分别表示能量消耗与能量均衡所占的权重,δ表示将能量消耗与能量均衡映射到相近的范围,r0为一个正数,其取值范围为
max(ξeE+δξdDmax)<r0<2*max(ξeE+δξdDmax);
S2、采用Q-Learning算法对强化学习模型的框架进行细化,包括如下步骤:
S21、依据各中继节点所消耗的能量进行分桶,包括如下步骤,
依据S1中所得的单次通信选择过程中各中继节点所消耗的能量进行分桶,使能量消耗从无限维度降为有限维度;
S22、将各中继节点的电池能量取最小值,将强化学习状态中的能量特征与所取得的电池的最小能量相减,使结果反映出中继节点的能量均衡情况,包括如下步骤,
将各中继节点的电池的最小能量记为Pmin,将更新后的编号为i的中继节点的电池的剩余能量记为pi,将强化学习的状态S修改为
S=[p1,p2,...,pM,n],
其中,pi=Pi-Pmin;
S23、更新动作选择策略,包括如下步骤,
采用Q-Learning算法中的状态-动作对的值函数Q(s,a)进行更新,更新过程为
Qt+1(s,a)=(1-α)Qt(s,a)+α[Rt+γmaxb∈AQt(s′,b)],
其中,s表示当前状态,s′表示状态转移后的状态,Qt与Qt+1分别表示更新前后的Q值,α表示强化学习的学习速率,α值越大表示奖赏的更新越依赖于即时奖赏,Rt表示当前迭代得到的奖赏R,γ为一个折扣因子,表示未来奖赏的重要程度,取值小于1;
Q-Learning算法中的策略π(s,a)表示在s状态下选择a动作的概率,采用Softmax函数对动作选择策略进行更新;
S3、根据具体问题确定Q-Learning算法中的模型参数,对强化学习模型进行迭代循环,包括如下步骤:
S31、对强化学习模型进行初始化处理,初始化奖赏值R=0,初始化动作选择策略π(s,a)=1/M,依据对能量消耗与能量均衡的期望确定权重值ξe与ξd,ξe与ξd二者之和等于1;
S32、确定强化学习的学习速率α,确定最大迭代次数K,并进行多次迭代;
S4、根据训练结果对强化学习模型进行调整,应用调整后的强化学习模型进行中继节点的选择,在所述S4中,
若达到设定的最大迭代次数后,强化学习模型仍未收敛,则调整学习速率,使其变小,重新进行迭代训练;
迭代过程中,每次发送消息前根据状态计算出选择每个中继节点得到的累积奖赏值的期望值,选择奖赏最大的中继节点进行消息的转发。
2.根据权利要求1所述的一种基于强化学习的M2M通信中中继节点的选择方法,其特征在于,所述S32包括如下步骤:
根据动作选择策略π(s,a)得到选择各动作的概率,依据概率选中任一中继节点进行数据发送,在完成一次通信后,依据此次通信的能量消耗与通信结束后的能量均衡情况计算奖赏值,并更新值函数Q(s,a),随后依据新的值函数,运用Softmax函数计算新的动作选择策略,得到下一次通信任务,当确定需要发送消息的目标节点时,更新模型的状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010040442.4/1.html,转载请声明来源钻瓜专利网。





