[发明专利]一种基于深度强化学习的无人机辅助智能反射表面主被动传输优化方法在审
申请号: | 202211118912.X | 申请日: | 2022-09-13 |
公开(公告)号: | CN115767581A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 杨滨帆;李兴池 | 申请(专利权)人: | 中国计量大学 |
主分类号: | H04W24/02 | 分类号: | H04W24/02 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 万尾甜;韩介梅 |
地址: | 310018 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 无人机 辅助 智能 反射 表面 被动 传输 优化 方法 | ||
1.一种基于深度强化学习的无人机(UAV)辅助智能反射表面(IRS)主被动传输优化方法,其特征在于,该方法基于UAV-IRS辅助物联网设备的上行链路通信系统实现,所述的UAV-IRS辅助物联网设备的上行链路通信系统包括一个具有Nr根接收天线的基站BS、K个具有单根发射天线的地面物联网IoT设备、一个集成L个智能反射表面单元于一体的无人机UAV,所述地面物联网设备的主动信号采用M-QAM星座调制,UAV被动信号采用广义正交反射调制;所述优化方法包括以下步骤:
1)对无人机可移动区域范围建立笛卡尔坐标系,表示在时隙n下无人机与IRS的三维坐标位置,n=1,2,...,N,N为时隙总数,其中,表示UAV在水平方向上的坐标,表示UAV在垂直方向上的坐标;[xBS,yBS,zBS]表示基站所在坐标位置,表示第k个IoT设备的坐标,k=1,2,...,K,K表示物联网设备总个数;
2)设定UAV在垂直方向上可移动的高度范围:其中,Hmin和Hmax分别表示UAV在垂直方向上的最大和最小高度;在每个时隙下无人机移动的持续时间的取值范围:为其中,tmin和tmax分别表示UAV在时隙n下持续的最小和最大时间;
3)根据步骤1)和步骤2),通过距离与时间来计算出UAV在单位时间内的速度,UAV在时隙n的水平飞行速度表示为:
其中,为UAV在水平方向上最大移动速度,同时,UAV在时隙n的垂直方向飞行速度表示为:
其中,表示UAV在垂直方向上最大移动速度;若和等于0,则表示该时隙n下,UAV分别在水平方向和垂直方向处于静止状态;
4)根据步骤3)计算得到UAV在水平和垂直方向的速度后,UAV在时隙n下所需能耗表示为:
其中,P1、P2、P3、P4分别表示悬停状态下UAV的叶片轮廓功率、悬停状态下UAV的诱导功率、UAV在上升或下降状态下的恒定功率和UAV控制IRS所需功率;vtip表示UAV旋翼桨叶的尖端速度,d0表示UAV自身阻力比,l表示UAV的风轮实度,ρ表示空气密度,G表示旋翼桨盘面积,v0表示UAV在悬停时平均桨叶感应速度;
5)对空地通信的信道进行建模,IoT-UAV和UAV-BS被建模为存在确定性视线分量的莱斯衰落信道;IoT-UAV链路的莱斯衰落信道模型和UAV-BS链路的莱斯衰落信道模型分别表示为:
其中,κ1、κ2分别表示两个链路的莱斯因子,和分别为IoT-UAV链路和UAV-BS链路的确定性视线路径;和分别表示IoT-UAV链路和UAV-BS链路的具有瑞利分布的非Los路径,非Los路径的每个元素都遵循的复高斯分布;
确定性视线路径的计算公式为:
其中,λ表示波长,d表示相邻两个IRS元件的间距,并假设且IRS元件之间没有耦合,ψAoA是到达的角度;考虑无人机的移动性所带来的信道衰落,在莱斯衰落信道模型基础上需要计算路径距离所带来的信道衰落,包含路径损失的IoT-UAV链路和UAV-BS链路分别被进一步表示为:
和
其中,τ表示路径损失指数,fc为载波频率,c为光速,和分别表示时隙n下第k个IoT设备与UAV之间的直接距离和UAV与BS之间的直接距离;由时隙n下被调度IoT的坐标和UAV的坐标计算得到,具体的计算公式为:
由时隙n下UAV的坐标和BS的坐标计算得到,可以被表示为:
6)假设对IoT设备和UAV设备的输入比特流进行分组,每组分别被分为B1=log2M、B2=log2Q位比特,Q和M均满足2的整数次幂,M表示IoT设备采用M-QAM星座调制阶数,Q表示IRS分组后的广义正交反射模式个数;
7)将IRS的L个反射单元划分为相邻的Lg组,每组由L/Lg个反射单元组成,假设L可以被Lg整除,从Lg组中激活g组IRS元件用于反射同相信号,1≤g≤Lg,其余Lg-g组重新激活用于产生正交信号以最大化主动信号的接受信噪比,共有种组合的广义正交反射模式,表示二项式系数,从种组合中选取前Q个广义正交反射模式用于UAV信息比特的传输;每一个广义正交反射模式表示为:
其中,1表示该IRS元件用于同相反射,j表示该IRS元件反射相位顺时针旋转
8)主动信号所映射的每一个星座符号si经过功率归一化且满足E[|si|2]=1,i=1,2,...,M;B1位比特用于IoT的主动信号选择星座符号索引,B2位比特用于被动信号选择IRS的广义正交反射模式索引从而为近端UAV传输信息;接收时假定信道状态信息是完全已知的,接收信号表示为:
其中,diag(·)表示元素在主对角线上的对角矩阵,P表示IoT设备的固定发射功率,是加性高斯白噪声AWGN,其遵循分布CN(0,N0INr),其中,INr表示单位矩阵,N0为复数噪声方差;
9)利用最大似然(ML)检测器对IoT的主动信号和UAV的被动信号进行联合检测:
其中,和分别表示接收端检测出主动信号索引与被动信号索引,通过索引值还原出相对应的比特信息;
10)在时隙n下,系统总的成功传输比特数表示为:
其中,Bw表示带宽,表示步骤9)中检测出成功传输的比特数,表示在时隙n下是否调度第k个IoT设备与基站通信;
11)在给定总时隙N下,能耗的优化问题被定义为:
其中,目标函数是在所有时隙下UAV的总能量消耗最小化;
在总时隙下,接收端所接收到的全部成功传输比特数为为综合衡量UAV-IRS系统的能效指标,其目标函数可以进一步表示为:
利用深度Q网络DQN来求解次优解,所述的深度Q网络DQN的构建过程如步骤12)-16):
12)将UAV作为代理对象,当前时隙下UAV的三维坐标位置作为状态,基于当前状态S(n)输入到DQN的神经网络中,网络输出的离散动作行为A(n),在A(n)中包含无人机分别在水平、垂直、调度和持续时间上的索引信息,DQN使用Qvalue来评估动作的价值以决定是否选择该动作A(n);环境Env根据UAV在当前状态S(n)执行动作A(n)后进入下一个状态S(n+1),并进行打分和给予奖励R(n);
13)定义状态动作其中,a1(n)表示在水平方向上的运动索引,a2(n)表示在垂直方向上的运动索引,为IoT的调度,为持续时间的离散变量,其时间间隔为Δt;根据公式(16),奖励函数被定义为:
其中,ζ={1,200}为惩罚系数,当UAV集成IRS的飞行区域超出指定移动区域的可控范围时,Env给予负反馈ζ=200;
14)Env根据执行的动作A(n)更新状态S(n+1)时,Δx={0,+xu,-xu},xu表示x坐标轴上相邻两个坐标点之间的间距;同理,Δy={0,+yu,-yu},yu表示y纵坐标轴上相邻两个坐标点之间的间距;Δz={0,+zu,-zu},zu表示z坐标轴上相邻两个坐标之间的间距;
15)步骤12)中的Qvalue被定义为:
Qvalue(S(n),A(n))=E[U(n)|S(n),A(n)] (18)
其中,E表示期望,U(n)表示折扣回报;U(n)被表示为:
U(n)=R(n)+γR(n+1)+γ2R(n+2)+… (19)
其中,γ表示折扣回报因子;Qvalue(S(n),A(n))为回报U(n)的条件期望,其目的是为了将U(n)中n时隙以后所涉及到的状态和动作消掉,并对当前状态S(n)采取动作A(n)的好坏进行打分;通过公式(18),DQN在学习过程中采取遍历最大值的策略找出Qvalue最大值所对应的一个动作A(n),所述遍历最大值的策略函数表示为:
其中,π′(·)表示策略函数;
16)在深度强化学习中需要收集训练集数据,每一个数据集表示为:
其中,S(n)为当前状态、A(n)为需要执行的动作、R(n)为基于当前状态S(n)执行动作A(n)所获得的奖励、S(n+1)为执行动作A(n)进入下一个状态;UAV与环境进行交互来获取训练数据后,将每一条数据存入到经验池Bbuff中,当经验池中数据集的数量达到设定阈值Msize后,DQN开始对神经网络进行训练,在训练的过程中随着UAV与环境不断交互动态获取最新数据来替换经验池中陈旧的数据集。
2.根据权利要求1所述的基于深度强化学习的无人机辅助智能反射表面主被动传输优化方法,其特征在于,深度Q网络DQN的训练方法具体为:
a)神经网络模型的输入层个数为3、隐藏层神经元个数为20、输出层个数与UAV的行为A(n)个数相关,A(n)个数为水平方向上包含5个离散动作、垂直方向上包含3个离散动作,离散时间变量与Δt的精确度有关,假设Δt可以被tmax-tmin整除;神经元的激活函数使用线性整流(ReLU)函数:
在选择动作A(n)时设置贪婪度为ε=0.9,学习速率lr=0.005,经验池大小为Msize=3200;
b)设置UAV的初始坐标位置为S(0)=[0,0,Hmax],与Env交互并随机获取有效数据存储到经验池Bbuff中,当经验池中的数据量达到设定阈值Msize时,神经网络开始训练;
c)对经验池中的数据进行批训练,批训练数据量的大小为Mbath=25,Mbath<<Msize;将训练数据分批送入神经网络中,逐层进行前向计算,直至输出层;
d)使用均方误差损失函数计算出损失:
L(w)=E[R(n)+γQvalue(S(n+1),A(n+1)|w)-Qvalue(S(n),A(n)|w)2] (23)
其中,L(w)为损失函数,w为神经网络的权重参数;
e)通过链式法则,逐层计算出损失函数关于各层的梯度进行反向传播,利用随机梯度下降算法对神经网络的权重参数进行更新:
其中,w′为更新后的权重参数,lr为学习速率,表示对损失函数中的w进行求导;
f)设置全局变量T,基于步骤a)-e)重复训练神经网络T次后,观察模型是否收敛,若收敛则保存模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国计量大学,未经中国计量大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211118912.X/1.html,转载请声明来源钻瓜专利网。