[发明专利]一种工作在eLAA中的基于强化学习的帧配置方法有效
申请号: | 202010584205.4 | 申请日: | 2020-06-24 |
公开(公告)号: | CN111800876B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 裴二荣;荆玉琪;周礼能;张茹;王振民;朱冰冰;杨光财 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | H04W72/04 | 分类号: | H04W72/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 工作 elaa 中的 基于 强化 学习 配置 方法 | ||
本发明涉及一种工作在eLAA中的基于强化学习的帧配置方法,属于无线通信领域。括以下步骤:S1:基站作为智能体学习环境中的可能出现的各种情况;S2:智能体获取自身eUES的上下行数据需求,在能量检测区域内的eUES及其eBS上下行数据需求,同时探测AP节点平均传输时间等信息;S3:根据当前信息在学习结果中找到最优方案的,智能体根据方案配置自身帧结构;S4:智能体根据选择的结果完成帧配置过程。本发明通过配置各用户的传输时间,能够有效提高WiFi在免授权频段接入信道成功的概率,减少冲突,同时又能保证信道内用户的公平性,最终提高信道的吞吐量。
技术领域
本发明属于无线通信领域,涉及一种工作在eLAA中的基于强化学习的帧配置方法
背景技术
LAA利用LTE载波聚合技术将授权频段与5GHz免授权频段进行载波聚合。Release13仅仅介绍了下行链路LAA操作的规范,而上行链路LAA规范则是Release 14中eLAA的一部分。RAN#70次会议上将LAA技术的侧重放到了TDD 即非授权频段上下行共存的讨论上来,更名为eLAA。eLAA技术是将LTEeNB 部署于5GHz非授权频段以增加可用通信带宽,有助于缓解授权频段的频谱压力,在保障非授权频段已有设备通信质量的前提下,充分利用非授权频段丰富资源,为移动终端带来更佳的用户体验,提高整个LTE系统的通信性能。
LTE-TDD模式中,每一个无线帧的长度共计10ms,由10个1ms的子帧组成。eLAA使用新的Type3结构,该结构除第一个子帧为下行(DL)帧以外,其它位置的子帧可任意组合,不再局限于传统LTE中的七种固定配置。
Qlearning是强化学习算法中value-based的算法,已被广泛用于求解未知环境下的优化问题。Q(s,a)就是在某一时刻的s状态下(s∈S),采取动作a(a∈A) 动作能够获得收益的期望,环境会根据智能体的动作反馈相应的回报,所以算法的主要思想就是将状态与动作构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。
Qlearning包括智能体(Agent)、环境状态(environment)、奖励(reward)、动作(action)四个部分,可以将问题抽象成一个马尔科夫决策过程(MDP),该过程包括有限,离散的环境状态的集合S={s1,s2,s3,…,sn},有限,离散的学习者动作的集合A={a1,a2,a3,...,an},学习者的策略π:S→A和标量的成本反馈信号r等基本要素。通过与环境不断的交互学习,学习者积累经验,形成一套动作选择策略。在每一轮的学习中,学习者根据当前环境状态st∈S。在已有策略π中选择ai∈A;动作完成后环境状态变为st+1∈S,同时学习者接收到环境产生的反馈信号rt(st,at);学习者根据反馈信号判断是否合理并更新策略,进入下一轮学习。
Q-table的更新过程如下,其中α为学习率,γ为奖励性衰变系数,采用时间差分法的方法进行更新。
Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)-Q(s,a) ]
上式就是Q-learning更新的公式,根据下一个状态s′中选取最大的Q(s′,a′) 值乘以衰变γ加上真实回报值为Q现实值,而根据过往Q表里面的Q(s,a)作为Q 估计。Q表经过多次的更新收敛到最优策略ω*,表示为:
ω*=arg minaQ(st,at)
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010584205.4/2.html,转载请声明来源钻瓜专利网。