[发明专利]一种基于多智能体深度强化学习的D2D资源分配方法有效

申请号：	201910161391.8	申请日：	2019-03-04
公开（公告）号：	CN109729528B	公开（公告）日：	2020-08-18
发明（设计）人：	郭彩丽;李政;宣一荻;冯春燕	申请（专利权）人：	北京邮电大学
主分类号：	H04W16/14	分类号：	H04W16/14;H04W24/02;H04W76/14
代理公司：	北京永创新实专利事务所 11121	代理人：	冀学军
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于智能深度强化学习 d2d 资源分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多智能体深度强化学习的D2D资源分配方法，其特征在于，具体步骤包括：

步骤一、构建蜂窝网络与D2D通信共享频谱的异构网络模型；

异构网络模型包括蜂窝基站BS、M个蜂窝下行用户以及N个D2D通信对；

设定第m个蜂窝用户为C_m，其中1≤m≤M；第n个D2D通信对为D_n，其中1≤n≤N；D2D通信对D_n中的发射用户和接收用户分别用和表示；

蜂窝下行通信链路和D2D链路通信都采用正交频分复用技术，每个蜂窝用户占用一个通信资源块RB，任意两个蜂窝链路之间没有干扰；同时允许一个蜂窝用户与多个D2D用户共享相同的RB，由D2D用户自主选择通信资源块RB和传输功率；

步骤二、基于异构网络模型中存在的干扰，建立D2D接收用户的信干噪比SINR以及蜂窝用户的SINR；

蜂窝用户C_m接收到的来自基站的第k个通信资源块RB上的信号SINR为：

P_B表示基站的固定发射功率；为基站到蜂窝用户C_m的下行目标链路的信道增益；D_k代表共享第k个RB的所有D2D通信对组成的集合；表示D2D通信对D_n中发射用户的发射功率；为当多个链路共享RB时，D2D通信对D_n中发射用户到蜂窝用户C_m的干扰链路的信道增益；N₀代表加性高斯白噪声的功率谱密度；

D2D通信对D_n的接收用户在第k个RB上的接收信号的SINR为：

为D2D通信对D_n的发射用户到接收用户的D2D目标链路的信道增益；为当多个链路共享RB时，基站到D2D通信对D_n的接收用户的干扰链路的信道增益；表示D2D通信对D_i中发射用户的发射功率；为当多个链路共享RB时，D2D通信对D_i中发射用户到接收用户的干扰链路的信道增益；

步骤三、利用蜂窝用户的SINR以及D2D接收用户的SINR分别计算蜂窝链路和D2D链路的单位带宽通信速率；

蜂窝链路的单位带宽通信速率计算公式为：

D2D链路的单位带宽通信速率计算公式为：

步骤四、利用蜂窝链路和D2D链路的单位带宽通信速率计算系统容量，并将最大化系统容量为优化目标，构建异构网络中的D2D资源分配优化模型；

优化模型如下所示：

C1:

C2:

C3:

B_N×K＝[b_n,k]为D2D通信对的通信资源块RB的分配矩阵，b_n,k为D2D通信对D_n的RB选择参数，为所有D2D通信对的发射功率共同组成的功率控制向量；

约束条件C1表示每个蜂窝用户的SINR都要大于蜂窝用户接收SINR的最小门限保证蜂窝用户的通信质量；约束条件C2表征D2D链路频谱分配约束条件，每个D2D用户对最多只能分配一个通信资源块RB；约束条件C3表征每个D2D通信对的发射用户的发射功率不能超过最大发射功率门限P_max；

步骤五、针对时隙t，在D2D资源分配优化模型的基础上，构建每一个D2D通信对的深度强化学习模型；

具体构建步骤如下：

步骤501、针对某个D2D通信对D_p，构建在时隙t的状态特征矢量s_t；

为D2D通信链路的瞬时信道状态信息；为基站到该D2D通信对D_p中接收用户的干扰链路的瞬时信道状态信息；I_t-1为上一个时隙t-1该D2D通信对D_p中接收用户收到的干扰功率值；为上一个时隙t-1该D2D通信对D_p的邻近D2D通信对所占用的RB；为上一个时隙t-1该D2D通信对D_p的邻近蜂窝用户所占用的RB；

步骤502、同时构建该D2D通信对D_p在时隙t的回报函数r_t；

r_n为负回报，r_n＜0；

步骤503、利用该D2D通信对的状态特征矢量构建多智能体马尔可夫博弈模型的状态特征；为优化马尔可夫博弈模型，利用该D2D通信对的回报函数建立多智能体行动者评论家深度强化学习模型中的回报函数；

每个智能体马尔可夫博弈模型Γ为：

其中，是状态空间，是动作空间，r^j是第j个D2D通信对的回报函数对应的回报的回报值，j∈{1,...,N}；p是整个环境的状态转移概率，γ是折扣系数；

每一个D2D通信对学习的目标都是最大化该D2D通信对的总折扣回报；

总折扣回报计算公式为：

T是时间范围；γ^t是折扣系数的t次方；r_t^j是第j个D2D通信对的回报函数在时隙t的回报值；

所述的行动者评论家深度强化学习模型，由行动者和评论家组成；

训练过程中，行动者的策略使用深度神经网络做拟合，使用如下的确定性策略梯度公式进行更新，以取得最大的期望回报；

令μ＝{μ¹,...,μ^N}表示所有智能体的确定性策略，θ＝{θ¹,...,θ^N}表示策略所包含的参数，第j个智能体期望回报的梯度公式为：

s包含了所有智能体的状态信息，s＝{s¹,...,s^N}；a包含了所有智能体的动作信息，a＝{a¹,...,a^N}；是经验重放缓冲区；