[发明专利]一种知识迁移强化学习网络切片通感算资源协同优化方法在审
申请号: | 202210185185.2 | 申请日: | 2022-02-28 |
公开(公告)号: | CN114615744A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 赵楠;任凡;杜威;陈金莲;陈哲 | 申请(专利权)人: | 湖北工业大学 |
主分类号: | H04W72/04 | 分类号: | H04W72/04;H04W72/08;H04W4/70 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
地址: | 430068 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 知识 迁移 强化 学习 网络 切片 通感算 资源 协同 优化 方法 | ||
1.一种知识迁移强化学习的网络切片通感算资源协同优化方法,其特征在于,包括如下步骤:
步骤1,构建网络切片通感算融合资源协同优化模型;
步骤1所述构建网络切片通感算融合资源协同优化模型,具体如下:
假设M个基站共享K个资源块、共享F个计算资源,共可支持N个边缘感知设备接入;第i个基站在时刻t拥有个资源块、Yil(t)个计算资源和个边缘设备(Edge Device,ED);其中,l∈[e,u,m],l=e表示增强移动宽带网络切片类型(enhanced MobileBroadBand,eMBB),l=u表示海量机器类通信网络切片类型(massive Machine TypeCommunication,mMTC),l=m表示超可靠低时延通信(ultra-Reliable Low-LatencyCommunication,uRLLC)网络切片类型;
在时刻t,定义第i个基站接入第j个边缘设备的二元资源块分配变量为1≤i≤M,1≤j≤N,1≤k≤K;若则表明基站i为EDj分配第k个资源块;若则表明基站i为EDj未分配第k个资源块;考虑每个资源块最多分配给一个边缘设备,有
定义第i个基站在时刻t接入第j个边缘设备的二元计算资源分配变量1≤f≤F;若则表明基站i为EDj分配计算资源f;若则表明基站i为EDj分配计算资源f;考虑每个计算资源最多分配给一个边缘设备,有
在时刻t,考虑到l∈[e,u,m],三种网络切片类型的性能差异性,eMBB切片关注所有EDs吞吐量之和uRLLC切片侧重所有EDs时延之和考虑到同一时刻大部分mMTC切片设备处于休眠状态,mMTC切片只关注所有EDs吞吐量之和于是,为平衡上述切片差异化需求,在通信资源、感知资源、计算资源、用户总时延和总能耗等限制下,以所有用户吞吐量之和最大化为优化目标,步骤1所述网络切片通感算融合多维资源协同优化模型为:
s.t.C1:
C2:
C3:
C4:
C5:
其中,限制条件C1、C2、C3、C4和C5分别为通信资源K、感知资源N、计算资源F、用户总时延T和总能耗E的约束条件;表示基站i在时刻t拥有的资源块数,Yil(t)表示基站i在时刻t拥有的计算资源,表示基站i在时刻t拥有的边缘感知设备,其中l∈[e,u,m],l=e表示eMBB网络切片类型,l=u表示mMTC网络切片类型,l=m表示uRLLC网络切片类型;和分别表示第i个基站在时刻t为第j个边缘设备分配第k个资源块的二元资源块分配变量和分配计算资源f的二元计算资源分配变量;表示所有EDs在t时刻的吞吐量之和,表示所有EDs在t时刻的时延之和,表示所有EDs在t时刻的能耗之和,M为总基站个数;
步骤2,根据步骤1所述的网络切片通感算融合资源协同优化模型,通过基于知识迁移的多智能体强化学习优化方法对基站i在t时刻拥有的资源块个数计算资源Yil(t)和边缘设备个数以及二元资源块分配变量和二元计算资源分配变量进行优化求解,得到优化后的所有EDs吞吐量之和
步骤2.1,多智能体随机博弈过程建模:上述优化问题建模为多智能体随机博弈过程,将每个基站等效为智能体;
所述每个基站的状态定义为:
其中,表示第i个基站在时刻t的状态,表示第i个基站在t时刻接入第j个边缘设备时三种网络切片中的用户感知计算任务;
所述每个基站的动作定义为:
其中,表示第i个基站在时刻t的动作,包括基站i拥有的三种网络切片资源块数计算资源数Yil(t)、边缘感知设备数以及第i个基站为第j个边缘设备分配第k个资源块时的用户资源块分配策略和分配计算资源f时的计算资源分配策略
所述每个基站的奖励函数定义为:
其中,rit表示第i个基站在时刻t的奖励函数,反映第i个基站中所有EDs的吞吐量之和;
步骤2.2,根据步骤2.1所述的多智能体随机博弈过程建模,设计多智能体知识迁移强化学习模型,如图1所示,基站i在时刻t从网络环境中观察到状态在Actor-Critic算法框架下,由Actor网络在采取动作之前选择学生或自学行为模式,然后训练各自行为模式中的网络模型,更新网络参数,从而获得最优的用户资源和计算资源分配策略;
在时刻t,基站i借助长短期记忆网络单元bi将连续z个状态和动作等历史知识作为其隐藏状态
所述学生模式是基于深度确定策略梯度模型,Actor网络输出选择学生模式的概率P′ss,当概率超过阈值G时,即P′ss>G,则基站i选择学生模式并向其他基站发送建议请求;反之,当P′ss≤G时,基站i选择自学模式;
设计多头注意力机制模型,每一基站将其他基站作为教师基站,在t时刻接收教师基站n(1≤n≤M)的状态和动作等历史信息和策略网络参数θn;考虑到多头注意力机制学习参数P1、P2和P3,可获得分配注意力权重:
其中,D是教师基站n的历史信息向量的维度;最终的策略建议是具有线性变换的权重和:
其中,Ps是策略参数解码的学习参数;
于是,学生基站i利用隐藏状态使用来自多头注意力机制模型参数获取其此时的动作:
这里将从学生模式中基站学习性能的增益定义为学生奖励学生Actor-Critic网络使用经过训练的注意力选择模型进行训练;通过最小化学生损失函数更新基站i的学生Critic网络参数
其中,是由参数为的学生目标Critic网络生成的目标值,和分别表示当前时刻t的隐藏状态和下一时刻t的隐藏状态,和分别表示当前时刻t基站i的学生策略和下一时刻t基站i的学生策略,和分别表示学生Critic网络和学生目标Critic网络的状态-行为值函数,E[·]为期望,为学生奖励函数,γ为折扣因子;
参数为μ的学生Actor网络通过策略进行策略梯度更新,如下:
所述自学模式,如果基站i的学生Actor选择自学模式,则学生Actor将基站i的隐藏状态发送到自学网络模块,每个基站采用深度Q网络(Deep QNetwork,DQN)方法,独立进行资源优化动作决策;
DQN算法框架由当前值网络和目标值网络组成,当前值网络使用带有权重的状态-动作值函数,以近似最优的状态-动作值函数,其中为基站i在时刻t的隐藏状态,为当前值网络生成的动作;目标值网络使用带有权重的状态-动作值函数,以提高整个网络的性能,其中为基站i在下一时刻t的隐藏状态,为目标值网络生成的动作;在特定的回合数后,复制当前值网络的权重以更新目标值网络的权重利用梯度下降法对当前值网络的权重进行更新,以获得最小的损失函数:
其中rit为自学奖励函数,γ为折扣因子;
同时,为了降低经验数据的相关性,算法采用经验回放策略;在隐藏状态下,基站i通过执行动作获得奖励rit,然后将隐藏状态转变为下一时刻t的隐藏状态深度神经网络将这状态转移信息保存在经验回放存储器B中;在学习过程中,从经验回放存储器B中随机抽取mini-batch的转移信息样本以训练神经网络;通过不断减少训练样本之间的相关性,可以帮助基站更好地学习和训练,以避免最优策略陷入局部最小值的问题;另外,神经网络经常会过拟合部分经验数据,通过随机抽取mini-batch转移信息样本可以有效地降低过拟合的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210185185.2/1.html,转载请声明来源钻瓜专利网。