[发明专利]一种基于强化学习的波束训练方法有效
申请号: | 202110548704.2 | 申请日: | 2021-05-20 |
公开(公告)号: | CN113285740B | 公开(公告)日: | 2023-02-14 |
发明(设计)人: | 杨绿溪;张天怡;徐佩钦;周京鹏;俞菲;徐琴珍 | 申请(专利权)人: | 东南大学 |
主分类号: | H04B7/0426 | 分类号: | H04B7/0426;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 孙建朋 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 波束 训练 方法 | ||
本发明公开了一种基于强化学习的波束训练方法,包括以下步骤,在初始时隙内,基站搜索整个码本找到最佳波束作为发送波束;初始化强化学习Q值估计网络、目标Q值网络和经验池;在每一个时隙内,通过上一时隙内的波束训练结果得到状态,并输入Q值估计网络,得到动作;在时隙内执行动作,计算奖励值,并根据波束训练结果得到状态;在时隙的剩余时间内传输有效数据,并将交互数据存入经验池;在数据传输的后台训练网络,更新Q值估计网络和目标Q值网络的网络参数。本发明利用强化学习DQN算法进行波束训练,可以自适应地调整待训练的波束集合,从而极大地减小了波束训练的开销,提升了系统的有效可达速率。
技术领域
本发明属于毫米波波束训练技术领域,尤其涉及一种基于强化学习的波束训练方法。
背景技术
在波束形成技术中,信道状态信息往往起着至关重要的作用。目前提出的大部分波束形成算法通常都依赖于完整的信道状态信息,而这在毫米波通信中是很难获得的。
由于毫米波信道的稀疏性,波束训练成为了一种有效的获取信道状态信息的方法,从而可以实现高增益的波束赋形。通常在波束训练过程中,会按照某种性能指标,比如接收信号强度最大化,来进行穷举搜索或自适应搜索,在发射机和接收机端的候选波束集合中选取最优的波束进行通信。
然而在毫米波大规模天线阵列系统中,基于穷搜和自适应搜索的波束训练算法具有很大的开销。并且,在实际动态场景中,毫米波信道变化非常快,信道相干时间很短,不足以进行频繁精确的波束训练。
为了减小波束训练的开销,可以提取和利用训练历史中的有用信息,以此减小其后训练过程中的波束搜索空间。机器学习的发展促进了这一想法的实现,由此产生了基于机器学习的波束训练算法。现有的基于机器学习的波束训练算法中,有一类是基于监督学习设计的,这需要提前收集大量的训练样本。然而收集训练样本的成本往往很高,在动态变化的复杂环境中甚至是无法完成的。并且当场景变化时就需要重新收集新的样本。另一类是基于多臂老虎机模型的波束训练算法,这是一种轻量级的强化学习方法,提取和利用有效历史信息的能力较为有限。因此,需要更高效的智能算法来更好地从环境中学习并且利用提取的信息。
发明内容
本发明目的在于提供一种基于强化学习的波束训练方法,以解决波束训练的开销大,需要事先收集训练样本,需要动态信道建模的先验知识,不能自适应地调整待训练的波束集合的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种基于强化学习的波束训练方法,包括以下步骤:
步骤1、在初始时隙内,基站搜索整个码本C找到波束作为发送波束;
步骤2、初始化强化学习Q值估计网络、目标Q值网络和经验池D;
步骤3、在每一个时隙t内,通过上一时隙t-1内的波束训练结果得到时隙t的状态信息st,并将st输入Q值估计网络,得到动作价值估计值,选取价值最大的动作at;
步骤4、在时隙t内执行动作at,计算奖励值rt,并根据波束训练结果得到下一时隙t+1的状态信息st+1;
步骤5、在时隙t的剩余时间内传输有效数据,并将交互数据(st,at,rt,st+1)存入经验池;
步骤6、在数据传输的后台训练网络,更新Q值估计网络和目标Q值网络的网络参数。
进一步的,步骤1还包括以下步骤:
步骤1.1、通过对波束空间的均匀采样来构建码本:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110548704.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于家电铰链件焊接的转盘式自动焊接装置
- 下一篇:一种自适应式投影装置