[发明专利]基于深度强化学习的多无人机基站协同覆盖路径规划方法在审
| 申请号: | 202310021781.1 | 申请日: | 2023-01-07 |
| 公开(公告)号: | CN116227767A | 公开(公告)日: | 2023-06-06 |
| 发明(设计)人: | 管昕洁;许昱雯;万夕里;张毅晔;徐波 | 申请(专利权)人: | 南京工业大学;江苏省未来网络创新研究院 |
| 主分类号: | G06Q10/047 | 分类号: | G06Q10/047;G06F30/27;G06F18/20;G06N3/04;G06N3/092;G06F111/08 |
| 代理公司: | 南京科阔知识产权代理事务所(普通合伙) 32400 | 代理人: | 苏兴建 |
| 地址: | 211899 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 强化 学习 无人机 基站 协同 覆盖 路径 规划 方法 | ||
1.一种基于深度强化学习的多无人机基站协同覆盖路径规划方法,首先设计深度强化学习模型,然后在仿真环境下,无人机群与环境进行交互,获取训练数据,采样训练数据进行仿真训练,最终实现对目标地面节点的协同覆盖路径规划;
其特征在于,设计深度强化学习模型包括以下步骤:
步骤一、定义马尔可夫模型:对马尔科夫决策过程五元组(S,A,P,R,γ)对无人机基站的约束条件进行建模;无人机基站是由无人机搭载的基站,在下文中简称无人机;
步骤二、以步骤一建模得到的马尔科夫决策过程五元组(S,A,P,R,γ)为基础,设计深度确定性策略梯度DDPG算法,该DDPG算法是使用基础深度强化学习的;
步骤三、对DDPG算法的经验缓存池进行改进,通过对经验缓存池所存储的经验数据进行分类,将获取的经验数据放入不同的经验缓存池中;
所述步骤一中:
步骤1.1、确定无人机的所处状态S:
在目标区域内随机分布有m个位置固定的地面节点和n架无人机;
无人机状态S包含:在t时刻,无人机i所在的位置和能耗以及每个地面节点受到的信号损耗L1,...,Lu,...,Lm;则无人机i在t时刻状态表示为:
为无人机i在t时刻的坐标;为无人机i从初始位置飞行到在t时刻位置时的能耗;
步骤1.2、确定无人机的动作集合A:
无人机i在飞行过程中飞行速度固定,下一步移动方向为at∈(0,2π)或者悬停动作at=0;其中,悬停动作是指无人机覆盖到地面节点后需要保持当前位置不变;则无人机i的动作为:at∈[0,2π);
步骤1.3、定义无人机在t时刻的状态s且采取动作a的条件下,能够到达下一输入状态s'的状态转移概率函数P为:
步骤1.4、确定无人机的奖励函数R:
设地面节点覆盖状态的集合B={b1,b2,...,bu,...,bm};其中bu为第u个地面节点的覆盖状态,为布尔域{0,1};若bu=1,则此地面节点已被无人机覆盖,若bu=0则此地面节点未被无人机覆盖;
覆盖率αt为已被覆盖的地面节点数量与总地面节点数量m之比,在t时刻覆盖率为:
每架无人机的覆盖范围是一个半径为Rc的圆,无人机对目标地面节点的覆盖效果从圆心到四周由强到弱依次递减;第u个地面节点被首次覆盖的效果程度公式为:
其中λ为覆盖效果常数;
规划最优路径需要实现地面节点从初始状态转变为目标状态,地面节点的初始状态为未覆盖状态,目标状态为被无人机覆盖状态;设计覆盖效率为覆盖地面节点率和覆盖效果的协同公式,覆盖效率Ec公式为:
定义奖励函数,表示无人机在当前状态下,选择某动作后得到的反馈;基础奖励公式为:
其中覆盖率增量:Δαt=αt-αt-1,第i架无人机能耗增量:基础奖励rt°作为奖励函数R的奖励值;
步骤1.5、定义折扣因子γ,其中γ∈(0,1);计算整个过程中的累计奖励值,奖励值将随着时间推移而产生折扣,折扣系数越大,即越注重长期收益;
所述步骤二中:
步骤2.1、采用表演者-评论者Actor-Critic构架,一个网络为表演者Actor,另一个网络为评论者Critic,两个网络互相激励互相竞争;
随机初始化Critic网络的网络状态-行为值函数Q(s,a|θQ),Actor网络的策略函数μ(s,a|θμ);将Critic网络和Actor网络的权重复制到各自网络的目标网络参数,即θQ→θQ′、θμ→θμ′,其中θQ、θμ分别表示Critic网络参数和Actor网络参数,θQ′、θμ′分别表示Critic目标网络参数和Actor目标网络参数;
步骤2.2、任务开始时,无人机i的初始状态为
随着任务进行,根据当前状态st,作出动作at,公式为:
at=μ(st|θμ)+β
其中β为随机噪声;
执行动作at,获得奖励rt和新的状态st+1;
步骤2.3、从步骤2.2中得到经验条(st,at,rt,st+1);将经验条保存于经验池之中;
从经验池中随机提取部分样本进行训练,假设(si,ai,ri,si+1)为随机采样的一批数据,进行TD target训练,目标网络Yi表示为:
Yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
其中μ′表示对si+1进行分析得到的策略,Q′表示在si+1时采取μ′策略得到的状态-行为值;
步骤2.4、更新Critic网络,计算最小化损失函数L为:
其中N表示从经验池中抽取的用于动作探索的随机样本数;
步骤2.5、更新Actor网络参数θμ,使用策略梯度下降算法的函数为:
其中表示Critic网络状态-行为值函数梯度,表示Actor网络策略函数梯度,μ(si)表示在Actor网络输入状态si时选取的动作策略,表示状态si时Critic网络状态-行为值函数,表示状态si时Actor网络策略函数;
步骤2.6、用副本网络计算目标网络值,这些目标网络的权重参数通过跟踪学习网络延迟更新;同时利用当前的网络参数,逐步更新相应的Critic和Actor目标网络:
θQ′←τθQ+(1-τ)θQ
θμ′←τθμ+(1-τ)θμ
其中τ表示更新比例系数,τ∈(0,1);
所述步骤三中:
步骤3.1、将经验池分为Msuccess和Mfailure,分别存储成功和失败两种飞行经验;从经验池Msuccess和Mfailure中分别抽取若干条经验,对神经网络进行训练;
步骤3.2、设置从两个经验池中按比例采样:
其中,ηsuccess、ηfailure分别是从经验池Msuccess和Mfailure中抽取的样本数,ψ是总采样数,β∈[0,1]是成功样本率,表示从经验池Msuccess中抽取到经验的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业大学;江苏省未来网络创新研究院,未经南京工业大学;江苏省未来网络创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310021781.1/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





