[发明专利]一种基于深度强化学习的非正交接入下行传输时间优化方法有效
申请号: | 201810477039.0 | 申请日: | 2018-05-18 |
公开(公告)号: | CN108668304B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 吴远;张成;倪克杰;陈佳;钱丽萍;黄亮 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | H04W24/02 | 分类号: | H04W24/02 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
一种基于深度强化学习的非正交接入下行传输时间优化方法,包括以下步骤:(1)在基站的覆盖范围下总共有I个移动用户,提出了一种满足移动用户的服务质量同时,在移动用户的下载量 |
||
搜索关键词: | 一种 基于 深度 强化 学习 正交 接入 下行 传输 时间 优化 方法 | ||
【主权项】:
1.一种基于深度强化学习的非正交接入下行传输时间优化方法,其特征在于,所述方法包括以下步骤:(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合
表示,基站使用非正交接入技术同时向移动用户发送数据,其中移动用户i需要接收的数据量用
表示;在保证基站发送完成所有移动用户数据量的条件下,最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM问题,DDRCM指的是下行资源消耗最小化:DDRCM:![]()
![]()
0≤t≤Tmax (1‑3)Variables:t下面将问题中的各个变量做一个说明,如下:α:下行传输时间的权重因子;β:下行传输总能量消耗的权重因子;t:基站发送数据到移动用户的下行传输时间,单位是秒;
是关于t的函数,表示基站为了在给定下行传输时间t内完成发送全部移动用户数据量所需要的最小总发射功率,单位是瓦特;W:基站到移动用户的信道带宽,单位是赫兹;n0:信道背景噪声的频谱功率密度;gBi:基站到移动用户i的信道功率增益;
基站需要发送到移动用户i的数据量,单位是兆比特;
基站最大下载能量消耗,单位是焦耳;Tmax:基站发送数据到移动用户的最大下行传输时间,单位是秒;(2)DDRCM问题表示如下:DDRCM:
s.t.constraint(1‑1)constraint(1‑2)Variable:0≤t≤TmaxDDRCM问题是在给定移动用户下载量
的情况下找到最优的下行资源消耗,观察DDRCM问题知道它的目标函数只有一个变量t;(3)通过强化学习算法来寻找一个最优的下行传输时间记为t*,该强化学习系统由智能体和环境所组成;基站的下行传输时间t和基站的最小发射功率
都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,下行传输时间t将不断被优化直到找到下行资源消耗的最小值,智能体的更新方式为:Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′) (1‑5)其中,各参数定义如下:θ:评估网络中的参数;θ′:目标网络中的参数;xT:在时刻T,系统所处状态;Qθ(xT,a):在状态xt下采取动作a所得到的Q值;r(xT,a):在状态xt下采取动作a所得到的奖励;γ:奖励衰减比重;(4)基站的下行传输时间t和基站的最小发射功率
作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810477039.0/,转载请声明来源钻瓜专利网。