[发明专利]一种基于深度强化学习的异构网高能效功率控制方法有效

专利信息
申请号: 202210054001.9 申请日: 2022-01-18
公开(公告)号: CN114205899B 公开(公告)日: 2023-04-07
发明(设计)人: 张蔺;彭剑豪;郑嘉宝 申请(专利权)人: 电子科技大学
主分类号: H04W52/24 分类号: H04W52/24;H04W52/30;H04W88/10;H04L67/10;H04L67/12;G06N3/0499;G06N3/0985
代理公司: 成都点睛专利代理事务所(普通合伙) 51232 代理人: 孙一峰
地址: 611731 四川省*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 强化 学习 异构网高 能效 功率 控制 方法
【权利要求书】:

1.一种基于深度强化学习的异构网高能效功率控制方法,异构网包括一个宏基站和N个微基站,宏基站和微基站共用相同的频带,定义微基站及其服务的用户为微基站n和用户n,其特征在于,所述功率控制方法为:

设定目标为优化每个微基站的发射功率并最大化每个时隙的全局能量效率,建立目标模型为:

其中,pn(t)是时隙t时基站n的发射功率,pn,max是微基站n的最大发射功率约束;

基于目标模型,采用深度强化学习让每个微基站根据本地信息确定发射功率,具体为:

设定整个异构网络的冗余历史数据存储在云端的核心网络中,边缘中的基站能利用有效的历史数据实时配置发射功率,因此,通过云端利用整个异构网络的历史数据为边缘基站训练高能效功率控制模型,从而边缘基站可以仅根据本地信息确定合适的发射功率,以提高全局能量效率;

将每个微基站作为一个智能体并配备一个深度神经网络,定义为边缘深度神经网络,负责根据本地信息为微基站确定合适的发射功率,边缘深度神经网络的输入和输出分别是本地信息和相应的发射功率;为了在云端实现在线训练,每个边缘基站在每个时隙通过回程链路将边缘经验上传到云端,通过整合边缘经验,云端构建全局经验并将其存储在全局经验回放缓存中,该缓存中以先进先出的方式调度全局经验;

为了训练得到不同边缘深度神经网络的最优参数,需要在云端建立与边缘深度神经网络相对应的行动者深度神经网络,并且边缘深度神经网络和行动者深度神经网络具有相同的结构,同时,在云端建立了一个评判家深度神经网络,该网络将根据全局能量效率评估整个异构网络发射功率配置的优劣,并分别指导每个行动者深度神经网络进行训练;每个行动者深度神经网络将训练后的网络参数传输到对应的边缘深度神经网络,直接替换对应边缘深度神经网络的参数;所述评判家深度神经网络的评估包含整个异构网络的信息,因此使用评判家深度神经网络的评估来指导每个行动者深度神经网络的训练,使行动者深度神经网络的参数收敛到全局最优;评判家深度神经网络的输入包括整个异构网络的历史状态数据和相应的发射功率,输出的是长期全局能量效率;

具体训练过程为:

定义在边缘有N+1个边缘深度神经网络需要训练,在云端则有N+1个行动者深度神经网络和一个评判家深度神经网络需要训练;将评判家深度神经网络、行动者深度神经网络和边缘深度神经网络分别表示为Q(s,a;θ(c))、以及其中θ(c)、和分别是评判家深度神经网络、行动者深度神经网络和边缘深度神经网络的参数向量;为了稳定评判家深度神经网络和行动者深度神经网络的训练,为评判家深度神经网络建立一个目标评判家深度神经网络,并将其表示为Q-(s,a;θ(c-)),同时,为每个行动者深度神经网络建立一个目标行动者深度神经网络,并将它们表示为

定义云端需要积累D个全局经验才能开始训练,因此所有微基站在每个时隙t的开始为下行链路随机选择发射功率,当边缘深度神经网络的参数向量被更新,边缘基站就使用边缘深度神经网络产生发射功率:

其中是零均值动作噪声,用于在训练阶段探索更好的发射功率;通过这种方式,每个边缘基站根据本地信息不断获得新的边缘经验并将其上传到云端;将动作噪声方差ζ设计为随时隙的增加以速率λ衰减的形式,因此在时隙t时的动作噪声方差表示为:

ζ=ζend+(ζiniend)e-λt

其中ζini和ζend分别是初始值和结束值;

在云端网络的训练中,每次从全局经验池中抽取D个样本,用于更新评判家深度神经网络和行动者深度神经网络的参数向量,具体为:

1)训练评判家深度神经网络:

将第i个采样的全局经验表示为Ei={si,ai,Ri,s′i},其中s′i表示下一时隙的全局状态信息,将第i个样本的目标Q值表示成时序差分的形式,即

其中,η∈[0,1]是折扣因子,θ(c-)是目标评判家深度神经网络的参数向量,通过使用均方误差的方法来评估预期的长期全局能量效率与采样的D个全局经验的目标Q值之间的损失,表示为:

采用梯度下降法更新评判家深度神经网络的参数向量θ(c)并最小化损失函数;

2)训练行动者深度神经网络:

由于每个边缘深度神经网络的输出发射功率旨在最大化整个异构网络的全局能量效率,因此每个行动者深度神经网络的训练设计为在最大化期望Q值的方向上更新其参数向量,表示为:

相应地,行动者深度神经网络参数向量的更新规则为:

其中是期望Q值对的偏导,表示为:

3)训练目标评判家深度神经网络和目标行动者深度神经网络:

采用软更新方法更新目标评判家深度神经网络和目标行动者深度神经网络,更新如下:

θ(c-)←τ(c)θ(c)+(1-τ(c)(c-)

最后边缘深度神经网络的参数向量被相应的行动者深度神经网络的参数向量替换;

深度强化学习的实现包括边缘网络和云端网络两个部分,具体设计如下:

1)边缘网络:

边缘状态设计:在时隙t,第n个边缘深度神经网络的系统状态为:

其中,gn,n(t-1)为前一个时隙微基站n和用户n之间的信道增益,pn(t-1)为微基站n的发射功率,为接收干扰,γn(t-1)为接收信号干扰噪声比,rn(t-1)为微基站n到用户n的速率,gn,n(t)为当前时隙中微基站n和用户n之间的信道增益,为在配置发射功率前的接收干扰,ψn为微基站的功率放大器倒数;

边缘动作设计:每个微基站仅根据本地信息确定发射功率,因此时隙t中边缘深度神经网络n的动作为an=pn

边缘经验设计:微基站n在时隙t的边缘经验为当前时隙下的状态-动作对的集合:

en(t)={sn(t),an(t)}

2)云端网络:

云端状态设计:定义从边缘到云端的数据传输存在的延迟为Td,因此将云端中的全局状态设计为:

s(t)={s0(t-Td),...,sN(t-Td),sg(t-Td)}

其中,sg(t-Td)构建为异构网络中微基站与用户之间的距离矩阵;由于每个微基站都可以获取到对应用户的位置坐标,因此每个微基站将其与用户的位置坐标共同上传到云端中,云端获取所有微基站与用户的位置坐标,最终在云端完成距离矩阵的构建;

云端动作设计:时隙t时云端的全局动作为:

a(t)={a0(t-Td),...,aN(t-Td)}

云端奖励设计:将时隙t时云端的全局奖励设计为全局能量效率的函数:

R(t)=f(GEE(t-Td))

其中,f(·)是一个递增函数,用于放大全局能量效率的奖励,使得微小的能量效率改进也能得到奖励;

云端全局经验设计:将时隙t时云端的全局经验构建为时隙t-1-Td时的全局状态-动作-奖励对和时隙时t-Td的全局状态的集合:

E(t)={s(t-1-Td),a(t-1-Td),R(t-1-Td),s(t-Td)}。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210054001.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top