[发明专利]基于强化学习动态多用户无线通信场景下边缘优化方法有效
申请号: | 202111323656.3 | 申请日: | 2021-11-08 |
公开(公告)号: | CN114051205B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 赵健;刘潇博;陈培昕;李龙敏 | 申请(专利权)人: | 南京大学 |
主分类号: | H04W4/02 | 分类号: | H04W4/02;H04W24/02;H04W72/04;G06N20/00 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 动态 多用户 无线通信 场景 边缘 优化 方法 | ||
1.基于强化学习动态多用户无线通信场景下边缘优化方法,其特征在于,包括以下步骤:
步骤1:建立一个动态的多用户时分系统,以最大化单位时隙内系统处理数据量为优化目标的优化系统;
步骤2:获得各个用户的卸载决策,基于该卸载决策计算单位时隙中无线功率传输时间占比变量和各个用户无线卸载时间占比变量;
步骤3:针对不同时隙用户位置的变动,通过多轮迭代训练神经网络参数,直至达到收敛从而实现边缘优化。
2.根据权利要求1所述的方法,其特征在于,多用户时分系统包括一个具有单个无线接入点和N个单天线用户设备的无线功率传输的边缘计算卸载系统,一个区域内的基站包含两个组成部分:射频能量发射器和边缘计算服务器。
3.根据权利要求2所述的方法,其特征在于,边缘计算卸载系统使用无线功率传输技术为任务处理和上传卸载的无线通信过程提供能量支持;
基于时分多路复用的工作模式,对每个时隙的无线功率传输时间占比以及各个用户的卸载时间占比的优化使用深度强化学习和解凸优化的方式进行。
4.根据权利要求1所述的方法,其特征在于:优化目标优化系统方法为:
其中maximize表示优化目标为最大化,subject to后续表达式表示约束条件,wi和wj分别表示用户本地计算速率和无线通信速率的权重,P表示由接入点AP发射的无线功率,μ∈(0,1)表示每个用户获取能量的系数,和分别表示用户本地计算和卸载上传两种模式,满足关系为a表示传输无线功率的时间在每个单位时隙中的占比,τi表示选择将任务卸载上传的用户无线卸载时间在每个单位时隙中的占比,fi表示本地计算时处理器的计算频率,Γi表示处理器的计算功耗系数,φ表示本地计算时处理每比特数据时所需要的处理器周期数,式中所有出现的下标i和j分别表示第i和第j个用户设备,fmax表示本地计算时处理器的最大频率;符号→表示为向量;T为单位时隙,ti表示第i个用户本地计算的时间,B表示通信带宽,Pi是第i个用户设备卸载其任务时的传输功率,hi表示第i个用户设备与AP发射间的信道增益;Pj表示第j个用户设备卸载其任务时的传输功率,hj表示第j个用户设备与AP发射间的信道增益。
5.根据权利要求3所述的方法,其特征在于,所述使用无线功率传输技术为整个系统的任务处理和上传卸载的无线通信过程提供能量支持,包括:
在每个时隙开始时,由接入点AP设备向系统内的IoT设备发送无线功率,每个设备通过能量获取模块获取能量并存储在电池模块中,在设备进行卸载决策之后,该能量用于任务的本地计算或者卸载上传。
6.根据权利要求3所述方法,其特征在于,所述基于时分多路复用的工作模式,对每个时隙的无线功率传输时间占比以及各个用户的卸载时间占比的优化使用深度强化学习和解凸优化的方式进行,包括:
设置状态空间、动作空间和反馈价值以及训练策略,得到满足优化目标问题约束的数值映射关系。
7.根据权利要求6所述的方法,其特征在于,所述设置状态空间、动作空间和反馈价值以及训练策略包括:
预先初始化构建神经网络,并根据历史信息生成经验回放库、经验回放库中顺序存储数据集对所述神经网络进行训练,以最大程度地提高预期的折扣奖赏,实现动态未知网络环境下自适应的行为选择。
8.根据权利要求7所述方法,其特征在于,在每个时隙开始时,先由接入点AP进行无线功率的传输,该过程的时间占比为a,然后各个需要上传卸载的UE通过串行的方式进行无线传输,时间占比为τi。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111323656.3/1.html,转载请声明来源钻瓜专利网。