[发明专利]一种基于多智能体深度强化学习的D2D资源分配方法有效
| 申请号: | 201910161391.8 | 申请日: | 2019-03-04 |
| 公开(公告)号: | CN109729528B | 公开(公告)日: | 2020-08-18 |
| 发明(设计)人: | 郭彩丽;李政;宣一荻;冯春燕 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | H04W16/14 | 分类号: | H04W16/14;H04W24/02;H04W76/14 |
| 代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 冀学军 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 智能 深度 强化 学习 d2d 资源 分配 方法 | ||
1.一种基于多智能体深度强化学习的D2D资源分配方法,其特征在于,具体步骤包括:
步骤一、构建蜂窝网络与D2D通信共享频谱的异构网络模型;
异构网络模型包括蜂窝基站BS、M个蜂窝下行用户以及N个D2D通信对;
设定第m个蜂窝用户为Cm,其中1≤m≤M;第n个D2D通信对为Dn,其中1≤n≤N;D2D通信对Dn中的发射用户和接收用户分别用和表示;
蜂窝下行通信链路和D2D链路通信都采用正交频分复用技术,每个蜂窝用户占用一个通信资源块RB,任意两个蜂窝链路之间没有干扰;同时允许一个蜂窝用户与多个D2D用户共享相同的RB,由D2D用户自主选择通信资源块RB和传输功率;
步骤二、基于异构网络模型中存在的干扰,建立D2D接收用户的信干噪比SINR以及蜂窝用户的SINR;
蜂窝用户Cm接收到的来自基站的第k个通信资源块RB上的信号SINR为:
PB表示基站的固定发射功率;为基站到蜂窝用户Cm的下行目标链路的信道增益;Dk代表共享第k个RB的所有D2D通信对组成的集合;表示D2D通信对Dn中发射用户的发射功率;为当多个链路共享RB时,D2D通信对Dn中发射用户到蜂窝用户Cm的干扰链路的信道增益;N0代表加性高斯白噪声的功率谱密度;
D2D通信对Dn的接收用户在第k个RB上的接收信号的SINR为:
为D2D通信对Dn的发射用户到接收用户的D2D目标链路的信道增益;为当多个链路共享RB时,基站到D2D通信对Dn的接收用户的干扰链路的信道增益;表示D2D通信对Di中发射用户的发射功率;为当多个链路共享RB时,D2D通信对Di中发射用户到接收用户的干扰链路的信道增益;
步骤三、利用蜂窝用户的SINR以及D2D接收用户的SINR分别计算蜂窝链路和D2D链路的单位带宽通信速率;
蜂窝链路的单位带宽通信速率计算公式为:
D2D链路的单位带宽通信速率计算公式为:
步骤四、利用蜂窝链路和D2D链路的单位带宽通信速率计算系统容量,并将最大化系统容量为优化目标,构建异构网络中的D2D资源分配优化模型;
优化模型如下所示:
C1:
C2:
C3:
BN×K=[bn,k]为D2D通信对的通信资源块RB的分配矩阵,bn,k为D2D通信对Dn的RB选择参数,为所有D2D通信对的发射功率共同组成的功率控制向量;
约束条件C1表示每个蜂窝用户的SINR都要大于蜂窝用户接收SINR的最小门限保证蜂窝用户的通信质量;约束条件C2表征D2D链路频谱分配约束条件,每个D2D用户对最多只能分配一个通信资源块RB;约束条件C3表征每个D2D通信对的发射用户的发射功率不能超过最大发射功率门限Pmax;
步骤五、针对时隙t,在D2D资源分配优化模型的基础上,构建每一个D2D通信对的深度强化学习模型;
具体构建步骤如下:
步骤501、针对某个D2D通信对Dp,构建在时隙t的状态特征矢量st;
为D2D通信链路的瞬时信道状态信息;为基站到该D2D通信对Dp中接收用户的干扰链路的瞬时信道状态信息;It-1为上一个时隙t-1该D2D通信对Dp中接收用户收到的干扰功率值;为上一个时隙t-1该D2D通信对Dp的邻近D2D通信对所占用的RB;为上一个时隙t-1该D2D通信对Dp的邻近蜂窝用户所占用的RB;
步骤502、同时构建该D2D通信对Dp在时隙t的回报函数rt;
rn为负回报,rn<0;
步骤503、利用该D2D通信对的状态特征矢量构建多智能体马尔可夫博弈模型的状态特征;为优化马尔可夫博弈模型,利用该D2D通信对的回报函数建立多智能体行动者评论家深度强化学习模型中的回报函数;
每个智能体马尔可夫博弈模型Γ为:
其中,是状态空间,是动作空间,rj是第j个D2D通信对的回报函数对应的回报的回报值,j∈{1,...,N};p是整个环境的状态转移概率,γ是折扣系数;
每一个D2D通信对学习的目标都是最大化该D2D通信对的总折扣回报;
总折扣回报计算公式为:
T是时间范围;γt是折扣系数的t次方;rtj是第j个D2D通信对的回报函数在时隙t的回报值;
所述的行动者评论家深度强化学习模型,由行动者和评论家组成;
训练过程中,行动者的策略使用深度神经网络做拟合,使用如下的确定性策略梯度公式进行更新,以取得最大的期望回报;
令μ={μ1,...,μN}表示所有智能体的确定性策略,θ={θ1,...,θN}表示策略所包含的参数,第j个智能体期望回报的梯度公式为:
s包含了所有智能体的状态信息,s={s1,...,sN};a包含了所有智能体的动作信息,a={a1,...,aN};是经验重放缓冲区;
评论家也使用深度神经网络来做拟合,通过最小化集中式动作-价值函数的损失函数来更新:
其中,每个样本以元组(st,at,rt,st+1)的形式记录所有智能体的历史数据,rt={rt1,...,rtN}包括了所有智能体在时隙t的回报;
步骤504、使用历史通信数据对深度强化学习模型进行线下训练,获得求解该D2D通信Dp资源分配问题的模型;
步骤六、分别对后续时隙中的每个D2D通信对提取各自的状态特征矢量,输入训练好的深度强化学习模型中,得到各个D2D通信对的资源分配方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910161391.8/1.html,转载请声明来源钻瓜专利网。





