[发明专利]一种基于深度强化学习的非正交接入下行传输时间优化方法有效

申请号：	201810477039.0	申请日：	2018-05-18
公开（公告）号：	CN108668304B	公开（公告）日：	2021-08-03
发明（设计）人：	吴远;张成;倪克杰;陈佳;钱丽萍;黄亮	申请（专利权）人：	浙江工业大学
主分类号：	H04W24/02	分类号：	H04W24/02
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于深度强化学习的非正交接入下行传输时间优化方法，包括以下步骤：(1)在基站的覆盖范围下总共有I个移动用户，提出了一种满足移动用户的服务质量同时，在移动用户的下载量给定的情况下最小化基站的下行传输时间和基站总能量消耗；(2)通过强化学习算法来找到一个最优的下行传输时间t，使得有最优的下行资源消耗；(3)不断重复迭代过程直到得到最优的下行传输时间t，使得有最优的下行资源消耗。本发明提供一种最小化下行传输时间与基站总能量消耗的基于深度强化学习的非正交接入下行传输时间优化方法。
搜索关键词：	一种基于深度强化学习正交接入下行传输时间优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度强化学习的非正交接入下行传输时间优化方法，其特征在于，所述方法包括以下步骤：(1)在基站的覆盖范围下总共有I个移动用户，移动用户用集合表示，基站使用非正交接入技术同时向移动用户发送数据，其中移动用户i需要接收的数据量用表示；在保证基站发送完成所有移动用户数据量的条件下，最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM问题，DDRCM指的是下行资源消耗最小化：DDRCM：0≤t≤Tmax (1‑3)Variables：t下面将问题中的各个变量做一个说明，如下：α：下行传输时间的权重因子；β：下行传输总能量消耗的权重因子；t：基站发送数据到移动用户的下行传输时间，单位是秒；是关于t的函数，表示基站为了在给定下行传输时间t内完成发送全部移动用户数据量所需要的最小总发射功率，单位是瓦特；W：基站到移动用户的信道带宽，单位是赫兹；n0：信道背景噪声的频谱功率密度；gBi：基站到移动用户i的信道功率增益；基站需要发送到移动用户i的数据量，单位是兆比特；基站最大下载能量消耗，单位是焦耳；Tmax：基站发送数据到移动用户的最大下行传输时间，单位是秒；(2)DDRCM问题表示如下：DDRCM：s.t.constraint(1‑1)constraint(1‑2)Variable：0≤t≤TmaxDDRCM问题是在给定移动用户下载量的情况下找到最优的下行资源消耗，观察DDRCM问题知道它的目标函数只有一个变量t；(3)通过强化学习算法来寻找一个最优的下行传输时间记为t^*，该强化学习系统由智能体和环境所组成；基站的下行传输时间t和基站的最小发射功率都被编进了系统当前状态x_T，智能体在当前状态下采取动作a进入下一个状态x_T+1，同时得到环境返回的奖励r(x_T，a)；在智能体和环境不断交互更新下，下行传输时间t将不断被优化直到找到下行资源消耗的最小值，智能体的更新方式为：Qθ(xT，a)＝r(xT，a)+γmaxQθ′(xT+1，a′) (1‑5)其中，各参数定义如下：θ：评估网络中的参数；θ′：目标网络中的参数；xT：在时刻T，系统所处状态；Qθ(xT，a)：在状态xt下采取动作a所得到的Q值；r(xT，a)：在状态xt下采取动作a所得到的奖励；γ：奖励衰减比重；(4)基站的下行传输时间t和基站的最小发射功率作为深度强化学习的系统状态x_T，动作a则是对系统状态x_T的更改，如果改后的系统的整体无线资源消耗比之前的要小，则使当前奖励r(x_T，a)设为正值，反之设为负值，同时系统进入下一状态x_T+1。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810477039.0/，转载请声明来源钻瓜专利网。

上一篇：一种无线传感器网络数据流的增量式离群点检测方法
下一篇：一种移动终端呼叫方法及移动终端

同类专利

专利分类

H 电学

H04 电通信技术
H04W 无线通信网络
H04W24-00 监督，监控或测试装置
H04W24-02 .用于优化操作环境的装置
H04W24-04 .用于维护操作环境的装置
H04W24-06 .使用仿真业务量进行测试
H04W24-08 .使用真实业务量进行测试
H04W24-10 .调度测量报告

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的非正交接入下行传输时间优化方法有效

专利文献下载