[发明专利]一种基于强化学习的波束训练方法有效

申请号：	202110548704.2	申请日：	2021-05-20
公开（公告）号：	CN113285740B	公开（公告）日：	2023-02-14
发明（设计）人：	杨绿溪;张天怡;徐佩钦;周京鹏;俞菲;徐琴珍	申请（专利权）人：	东南大学
主分类号：	H04B7/0426	分类号：	H04B7/0426;G06N3/08
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	孙建朋
地址：	211102 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习波束训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于强化学习的波束训练方法，包括以下步骤，在初始时隙内，基站搜索整个码本找到最佳波束作为发送波束；初始化强化学习Q值估计网络、目标Q值网络和经验池；在每一个时隙内，通过上一时隙内的波束训练结果得到状态，并输入Q值估计网络，得到动作；在时隙内执行动作，计算奖励值，并根据波束训练结果得到状态；在时隙的剩余时间内传输有效数据，并将交互数据存入经验池；在数据传输的后台训练网络，更新Q值估计网络和目标Q值网络的网络参数。本发明利用强化学习DQN算法进行波束训练，可以自适应地调整待训练的波束集合，从而极大地减小了波束训练的开销，提升了系统的有效可达速率。

技术领域

本发明属于毫米波波束训练技术领域，尤其涉及一种基于强化学习的波束训练方法。

背景技术

在波束形成技术中，信道状态信息往往起着至关重要的作用。目前提出的大部分波束形成算法通常都依赖于完整的信道状态信息，而这在毫米波通信中是很难获得的。

由于毫米波信道的稀疏性，波束训练成为了一种有效的获取信道状态信息的方法，从而可以实现高增益的波束赋形。通常在波束训练过程中，会按照某种性能指标，比如接收信号强度最大化，来进行穷举搜索或自适应搜索，在发射机和接收机端的候选波束集合中选取最优的波束进行通信。

然而在毫米波大规模天线阵列系统中，基于穷搜和自适应搜索的波束训练算法具有很大的开销。并且，在实际动态场景中，毫米波信道变化非常快，信道相干时间很短，不足以进行频繁精确的波束训练。

为了减小波束训练的开销，可以提取和利用训练历史中的有用信息，以此减小其后训练过程中的波束搜索空间。机器学习的发展促进了这一想法的实现，由此产生了基于机器学习的波束训练算法。现有的基于机器学习的波束训练算法中，有一类是基于监督学习设计的，这需要提前收集大量的训练样本。然而收集训练样本的成本往往很高，在动态变化的复杂环境中甚至是无法完成的。并且当场景变化时就需要重新收集新的样本。另一类是基于多臂老虎机模型的波束训练算法，这是一种轻量级的强化学习方法，提取和利用有效历史信息的能力较为有限。因此，需要更高效的智能算法来更好地从环境中学习并且利用提取的信息。

发明内容

本发明目的在于提供一种基于强化学习的波束训练方法,以解决波束训练的开销大，需要事先收集训练样本，需要动态信道建模的先验知识，不能自适应地调整待训练的波束集合的技术问题。

为解决上述技术问题，本发明的具体技术方案如下：

一种基于强化学习的波束训练方法，包括以下步骤:

步骤1、在初始时隙内，基站搜索整个码本C找到波束作为发送波束；

步骤2、初始化强化学习Q值估计网络、目标Q值网络和经验池D；

步骤3、在每一个时隙t内，通过上一时隙t-1内的波束训练结果得到时隙t的状态信息s_t，并将s_t输入Q值估计网络，得到动作价值估计值，选取价值最大的动作a_t；

步骤4、在时隙t内执行动作a_t，计算奖励值r_t，并根据波束训练结果得到下一时隙t+1的状态信息s_t+1；

步骤5、在时隙t的剩余时间内传输有效数据，并将交互数据(s_t,a_t,r_t,s_t+1)存入经验池；

步骤6、在数据传输的后台训练网络，更新Q值估计网络和目标Q值网络的网络参数。

进一步的，步骤1还包括以下步骤：

步骤1.1、通过对波束空间的均匀采样来构建码本：