[发明专利]基于深度强化学习的多无人机基站协同覆盖路径规划方法在审

申请号：	202310021781.1	申请日：	2023-01-07
公开（公告）号：	CN116227767A	公开（公告）日：	2023-06-06
发明（设计）人：	管昕洁;许昱雯;万夕里;张毅晔;徐波	申请（专利权）人：	南京工业大学;江苏省未来网络创新研究院
主分类号：	G06Q10/047	分类号：	G06Q10/047;G06F30/27;G06F18/20;G06N3/04;G06N3/092;G06F111/08
代理公司：	南京科阔知识产权代理事务所(普通合伙) 32400	代理人：	苏兴建
地址：	211899 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习无人机基站协同覆盖路径规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的多无人机基站协同覆盖路径规划方法，首先设计深度强化学习模型，然后在仿真环境下，无人机群与环境进行交互，获取训练数据，采样训练数据进行仿真训练，最终实现对目标地面节点的协同覆盖路径规划；

其特征在于，设计深度强化学习模型包括以下步骤：

步骤一、定义马尔可夫模型：对马尔科夫决策过程五元组(S,A,P,R,γ)对无人机基站的约束条件进行建模；无人机基站是由无人机搭载的基站，在下文中简称无人机；

步骤二、以步骤一建模得到的马尔科夫决策过程五元组(S,A,P,R,γ)为基础，设计深度确定性策略梯度DDPG算法，该DDPG算法是使用基础深度强化学习的；

步骤三、对DDPG算法的经验缓存池进行改进，通过对经验缓存池所存储的经验数据进行分类，将获取的经验数据放入不同的经验缓存池中；

所述步骤一中：

步骤1.1、确定无人机的所处状态S：

在目标区域内随机分布有m个位置固定的地面节点和n架无人机；

无人机状态S包含：在t时刻，无人机i所在的位置和能耗以及每个地面节点受到的信号损耗L₁,...,L_u,...,L_m；则无人机i在t时刻状态表示为：

为无人机i在t时刻的坐标；为无人机i从初始位置飞行到在t时刻位置时的能耗；

步骤1.2、确定无人机的动作集合A：

无人机i在飞行过程中飞行速度固定，下一步移动方向为a_t∈(0,2π)或者悬停动作a_t＝0；其中，悬停动作是指无人机覆盖到地面节点后需要保持当前位置不变；则无人机i的动作为：a_t∈[0,2π)；

步骤1.3、定义无人机在t时刻的状态s且采取动作a的条件下，能够到达下一输入状态s'的状态转移概率函数P为：

步骤1.4、确定无人机的奖励函数R：

设地面节点覆盖状态的集合B＝{b₁,b₂,...,b_u,...,b_m}；其中b_u为第u个地面节点的覆盖状态，为布尔域{0，1}；若b_u＝1，则此地面节点已被无人机覆盖，若b_u＝0则此地面节点未被无人机覆盖；

覆盖率α^t为已被覆盖的地面节点数量与总地面节点数量m之比，在t时刻覆盖率为：

每架无人机的覆盖范围是一个半径为R_c的圆，无人机对目标地面节点的覆盖效果从圆心到四周由强到弱依次递减；第u个地面节点被首次覆盖的效果程度公式为：

其中λ为覆盖效果常数；

规划最优路径需要实现地面节点从初始状态转变为目标状态，地面节点的初始状态为未覆盖状态，目标状态为被无人机覆盖状态；设计覆盖效率为覆盖地面节点率和覆盖效果的协同公式，覆盖效率E_c公式为：

定义奖励函数，表示无人机在当前状态下，选择某动作后得到的反馈；基础奖励公式为：

其中覆盖率增量：Δα^t＝α^t-α^t-1，第i架无人机能耗增量：基础奖励r_t°作为奖励函数R的奖励值；

步骤1.5、定义折扣因子γ，其中γ∈(0，1)；计算整个过程中的累计奖励值，奖励值将随着时间推移而产生折扣，折扣系数越大，即越注重长期收益；

所述步骤二中：

步骤2.1、采用表演者-评论者Actor-Critic构架，一个网络为表演者Actor，另一个网络为评论者Critic，两个网络互相激励互相竞争；

随机初始化Critic网络的网络状态-行为值函数Q(s,a|θ^Q)，Actor网络的策略函数μ(s,a|θ^μ)；将Critic网络和Actor网络的权重复制到各自网络的目标网络参数，即θ^Q→θ^Q′、θμ→θ^μ′，其中θ^Q、θ^μ分别表示Critic网络参数和Actor网络参数，θ^Q′、θ^μ′分别表示Critic目标网络参数和Actor目标网络参数；

步骤2.2、任务开始时，无人机i的初始状态为

随着任务进行，根据当前状态s_t，作出动作a_t，公式为：

a_t＝μ(s_t|θ^μ)+β

其中β为随机噪声；

执行动作a_t，获得奖励r_t和新的状态s_t+1；

步骤2.3、从步骤2.2中得到经验条(s_t,a_t,r_t,s_t+1)；将经验条保存于经验池之中；

从经验池中随机提取部分样本进行训练，假设(s_i,a_i,r_i,s_i+1)为随机采样的一批数据，进行TD target训练，目标网络Y_i表示为：

Y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)

其中μ′表示对s_i+1进行分析得到的策略，Q′表示在s_i+1时采取μ′策略得到的状态-行为值；

步骤2.4、更新Critic网络，计算最小化损失函数L为：

其中N表示从经验池中抽取的用于动作探索的随机样本数；

步骤2.5、更新Actor网络参数θ^μ，使用策略梯度下降算法的函数为：