[发明专利]基于深度强化学习的多无人机基站协同覆盖路径规划方法在审

专利信息
申请号: 202310021781.1 申请日: 2023-01-07
公开(公告)号: CN116227767A 公开(公告)日: 2023-06-06
发明(设计)人: 管昕洁;许昱雯;万夕里;张毅晔;徐波 申请(专利权)人: 南京工业大学;江苏省未来网络创新研究院
主分类号: G06Q10/047 分类号: G06Q10/047;G06F30/27;G06F18/20;G06N3/04;G06N3/092;G06F111/08
代理公司: 南京科阔知识产权代理事务所(普通合伙) 32400 代理人: 苏兴建
地址: 211899 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 强化 学习 无人机 基站 协同 覆盖 路径 规划 方法
【权利要求书】:

1.一种基于深度强化学习的多无人机基站协同覆盖路径规划方法,首先设计深度强化学习模型,然后在仿真环境下,无人机群与环境进行交互,获取训练数据,采样训练数据进行仿真训练,最终实现对目标地面节点的协同覆盖路径规划;

其特征在于,设计深度强化学习模型包括以下步骤:

步骤一、定义马尔可夫模型:对马尔科夫决策过程五元组(S,A,P,R,γ)对无人机基站的约束条件进行建模;无人机基站是由无人机搭载的基站,在下文中简称无人机;

步骤二、以步骤一建模得到的马尔科夫决策过程五元组(S,A,P,R,γ)为基础,设计深度确定性策略梯度DDPG算法,该DDPG算法是使用基础深度强化学习的;

步骤三、对DDPG算法的经验缓存池进行改进,通过对经验缓存池所存储的经验数据进行分类,将获取的经验数据放入不同的经验缓存池中;

所述步骤一中:

步骤1.1、确定无人机的所处状态S:

在目标区域内随机分布有m个位置固定的地面节点和n架无人机;

无人机状态S包含:在t时刻,无人机i所在的位置和能耗以及每个地面节点受到的信号损耗L1,...,Lu,...,Lm;则无人机i在t时刻状态表示为:

为无人机i在t时刻的坐标;为无人机i从初始位置飞行到在t时刻位置时的能耗;

步骤1.2、确定无人机的动作集合A:

无人机i在飞行过程中飞行速度固定,下一步移动方向为at∈(0,2π)或者悬停动作at=0;其中,悬停动作是指无人机覆盖到地面节点后需要保持当前位置不变;则无人机i的动作为:at∈[0,2π);

步骤1.3、定义无人机在t时刻的状态s且采取动作a的条件下,能够到达下一输入状态s'的状态转移概率函数P为:

步骤1.4、确定无人机的奖励函数R:

设地面节点覆盖状态的集合B={b1,b2,...,bu,...,bm};其中bu为第u个地面节点的覆盖状态,为布尔域{0,1};若bu=1,则此地面节点已被无人机覆盖,若bu=0则此地面节点未被无人机覆盖;

覆盖率αt为已被覆盖的地面节点数量与总地面节点数量m之比,在t时刻覆盖率为:

每架无人机的覆盖范围是一个半径为Rc的圆,无人机对目标地面节点的覆盖效果从圆心到四周由强到弱依次递减;第u个地面节点被首次覆盖的效果程度公式为:

其中λ为覆盖效果常数;

规划最优路径需要实现地面节点从初始状态转变为目标状态,地面节点的初始状态为未覆盖状态,目标状态为被无人机覆盖状态;设计覆盖效率为覆盖地面节点率和覆盖效果的协同公式,覆盖效率Ec公式为:

定义奖励函数,表示无人机在当前状态下,选择某动作后得到的反馈;基础奖励公式为:

其中覆盖率增量:Δαt=αtt-1,第i架无人机能耗增量:基础奖励rt°作为奖励函数R的奖励值;

步骤1.5、定义折扣因子γ,其中γ∈(0,1);计算整个过程中的累计奖励值,奖励值将随着时间推移而产生折扣,折扣系数越大,即越注重长期收益;

所述步骤二中:

步骤2.1、采用表演者-评论者Actor-Critic构架,一个网络为表演者Actor,另一个网络为评论者Critic,两个网络互相激励互相竞争;

随机初始化Critic网络的网络状态-行为值函数Q(s,a|θQ),Actor网络的策略函数μ(s,a|θμ);将Critic网络和Actor网络的权重复制到各自网络的目标网络参数,即θQ→θQ′、θμ→θμ′,其中θQ、θμ分别表示Critic网络参数和Actor网络参数,θQ′、θμ′分别表示Critic目标网络参数和Actor目标网络参数;

步骤2.2、任务开始时,无人机i的初始状态为

随着任务进行,根据当前状态st,作出动作at,公式为:

at=μ(stμ)+β

其中β为随机噪声;

执行动作at,获得奖励rt和新的状态st+1

步骤2.3、从步骤2.2中得到经验条(st,at,rt,st+1);将经验条保存于经验池之中;

从经验池中随机提取部分样本进行训练,假设(si,ai,ri,si+1)为随机采样的一批数据,进行TD target训练,目标网络Yi表示为:

Yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′)

其中μ′表示对si+1进行分析得到的策略,Q′表示在si+1时采取μ′策略得到的状态-行为值;

步骤2.4、更新Critic网络,计算最小化损失函数L为:

其中N表示从经验池中抽取的用于动作探索的随机样本数;

步骤2.5、更新Actor网络参数θμ,使用策略梯度下降算法的函数为:

其中表示Critic网络状态-行为值函数梯度,表示Actor网络策略函数梯度,μ(si)表示在Actor网络输入状态si时选取的动作策略,表示状态si时Critic网络状态-行为值函数,表示状态si时Actor网络策略函数;

步骤2.6、用副本网络计算目标网络值,这些目标网络的权重参数通过跟踪学习网络延迟更新;同时利用当前的网络参数,逐步更新相应的Critic和Actor目标网络:

θQ′←τθQ+(1-τ)θQ

θμ′←τθμ+(1-τ)θμ

其中τ表示更新比例系数,τ∈(0,1);

所述步骤三中:

步骤3.1、将经验池分为Msuccess和Mfailure,分别存储成功和失败两种飞行经验;从经验池Msuccess和Mfailure中分别抽取若干条经验,对神经网络进行训练;

步骤3.2、设置从两个经验池中按比例采样:

其中,ηsuccess、ηfailure分别是从经验池Msuccess和Mfailure中抽取的样本数,ψ是总采样数,β∈[0,1]是成功样本率,表示从经验池Msuccess中抽取到经验的概率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业大学;江苏省未来网络创新研究院,未经南京工业大学;江苏省未来网络创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310021781.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top