[发明专利]一种基于多智能体深度强化学习的D2D资源分配方法有效

申请号：	201910161391.8	申请日：	2019-03-04
公开（公告）号：	CN109729528B	公开（公告）日：	2020-08-18
发明（设计）人：	郭彩丽;李政;宣一荻;冯春燕	申请（专利权）人：	北京邮电大学
主分类号：	H04W16/14	分类号：	H04W16/14;H04W24/02;H04W76/14
代理公司：	北京永创新实专利事务所 11121	代理人：	冀学军
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于多智能体深度强化学习的D2D资源分配方法，属于无线通信领域。首先构建蜂窝网络与D2D通信共享频谱的异构网络模型，基于其存在的干扰，建立D2D接收用户的信干噪比SINR以及蜂窝用户的SINR，然后分别计算蜂窝链路和D2D链路的单位带宽通信速率后，以将最大化系统容量为优化目标，构建异构网络中的D2D资源分配优化模型；针对时隙t，在D2D资源分配优化模型的基础上，构建每一个D2D通信对的深度强化学习模型；分别对后续时隙中的每个D2D通信对提取各自的状态特征矢量，输入训练好的深度强化学习模型中，得到各个D2D通信对的资源分配方案。本发明优化了频谱分配和传输功率，最大化了系统容量，提供了低复杂度的资源分配算法。
搜索关键词：	一种基于智能深度强化学习 d2d 资源分配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于多智能体深度强化学习的D2D资源分配方法，其特征在于，具体步骤包括：步骤一、构建蜂窝网络与D2D通信共享频谱的异构网络模型；异构网络模型包括蜂窝基站BS、M个蜂窝下行用户以及N个D2D通信对；设定第m个蜂窝用户为C_m，其中1≤m≤M；第n个D2D通信对为D_n，其中1≤n≤N；D2D通信对D_n中的发射用户和接收用户分别用和表示；蜂窝下行通信链路和D2D链路通信都采用正交频分复用技术，每个蜂窝用户占用一个通信资源块RB，任意两个蜂窝链路之间没有干扰；同时允许一个蜂窝用户与多个D2D用户共享相同的RB，由D2D用户自主选择通信资源块RB和传输功率；步骤二、基于异构网络模型中存在的干扰，建立D2D接收用户的信干噪比SINR以及蜂窝用户的SINR；蜂窝用户C_m接收到的来自基站的第k个通信资源块RB上的信号SINR为：P_B表示基站的固定发射功率；为基站到蜂窝用户C_m的下行目标链路的信道增益；D_k代表共享第k个RB的所有D2D通信对组成的集合；表示D2D通信对D_n中发射用户的发射功率；为当多个链路共享RB时，D2D通信对D_n中发射用户到蜂窝用户C_m的干扰链路的信道增益；N₀代表加性高斯白噪声的功率谱密度；D2D通信对D_n的接收用户在第k个RB上的接收信号的SINR为：为D2D通信对D_n的发射用户到接收用户的D2D目标链路的信道增益；为当多个链路共享RB时，基站到D2D通信对D_n的接收用户的干扰链路的信道增益；表示D2D通信对D_i中发射用户的发射功率；为当多个链路共享RB时，D2D通信对D_i中发射用户到接收用户的干扰链路的信道增益；步骤三、利用蜂窝用户的SINR以及D2D接收用户的SINR分别计算蜂窝链路和D2D链路的单位带宽通信速率；蜂窝链路的单位带宽通信速率计算公式为：D2D链路的单位带宽通信速率计算公式为：步骤四、利用蜂窝链路和D2D链路的单位带宽通信速率计算系统容量，并将最大化系统容量为优化目标，构建异构网络中的D2D资源分配优化模型；优化模型如下所示：B_N×K＝[b_n,k]为D2D通信对的通信资源块RB的分配矩阵，b_n,k为D2D通信对D_n的RB选择参数，为所有D2D通信对的发射功率共同组成的功率控制向量；约束条件C1表示每个蜂窝用户的SINR都要大于蜂窝用户接收SINR的最小门限保证蜂窝用户的通信质量；约束条件C2表征D2D链路频谱分配约束条件，每个D2D用户对最多只能分配一个通信资源块RB；约束条件C3表征每个D2D通信对的发射用户的发射功率不能超过最大发射功率门限P_max；步骤五、针对时隙t，在D2D资源分配优化模型的基础上，构建每一个D2D通信对的深度强化学习模型；具体构建步骤如下：步骤501、针对某个D2D通信对D_p，构建在时隙t的状态特征矢量s_t；为D2D通信链路的瞬时信道状态信息；为基站到该D2D通信对D_p中接收用户的干扰链路的瞬时信道状态信息；I_t‑1为上一个时隙t‑1该D2D通信对D_p中接收用户收到的干扰功率值；为上一个时隙t‑1该D2D通信对D_p的邻近D2D通信对所占用的RB；为上一个时隙t‑1该D2D通信对D_p的邻近蜂窝用户所占用的RB；步骤502、同时构建该D2D通信对D_p在时隙t的回报函数r_t；r_n为负回报，r_n＜0；步骤503、利用该D2D通信对的状态特征矢量构建多智能体马尔可夫博弈模型的状态特征；为优化马尔可夫博弈模型，利用该D2D通信对的回报函数建立多智能体行动者评论家深度强化学习模型中的回报函数；每个智能体马尔可夫博弈模型Γ为：其中，是状态空间，是动作空间，r^j是第j个D2D通信对的回报函数对应的回报的回报值，j∈{1,...,N}；p是整个环境的状态转移概率，γ是折扣系数；每一个D2D通信对学习的目标都是最大化该D2D通信对的总折扣回报；总折扣回报计算公式为：T是时间范围；γ^t是折扣系数的t次方；r_t^j是第j个D2D通信对的回报函数在时隙t的回报值；步骤504、使用历史通信数据对深度强化学习模型进行线下训练，获得求解该D2D通信D_p资源分配问题的模型；步骤六、分别对后续时隙中的每个D2D通信对提取各自的状态特征矢量，输入训练好的深度强化学习模型中，得到各个D2D通信对的资源分配方案。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学，未经北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910161391.8/，转载请声明来源钻瓜专利网。

上一篇：频谱共享机制下的频点分配方法及装置
下一篇：实现网元间通信的方法、基站及存储介质

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W16-00 网络规划，例如覆盖或业务量规划工具；网络配置，例如资源划分或小区结构
H04W16-02 .在各网络组成部分当中的资源划分，例如，再用划分
H04W16-14 .频谱共享装置
H04W16-18 .网络规划工具
H04W16-22 .业务量模拟工具或模型
H04W16-24 .小区结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多智能体深度强化学习的D2D资源分配方法有效

专利文献下载