[发明专利]基于多智能体深度强化学习的无人机集群动态覆盖方法有效
申请号: | 202210688998.3 | 申请日: | 2022-06-17 |
公开(公告)号: | CN114879742B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 邵晋梁;张蕴霖;石磊;麻壮壮;白利兵;程玉华 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 成都行之智信知识产权代理有限公司 51256 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 智能 深度 强化 学习 无人机 集群 动态 覆盖 方法 | ||
1.一种基于多智能体深度强化学习的无人机集群动态覆盖方法,其特征在于,包括以下步骤:
(1)、搭建无人机集群动态覆盖目标区域模型;
在二维空间上设置M个待覆盖的目标点,使用集合表示,其中pj表示第j个目标点的位置坐标;设执行任务的无人机集群共有N架无人机,使用集合表示,用表示第i架无人机在t时刻的位置,用表示第i架无人机在t时刻的速度;
(2)、搭建无人机动力学模型;
设t时刻第i架无人机以驱动力作为控制输入,其中,分别表示t时刻从右、左、上、下四个方向施加到第i架无人机的驱动力;
建立第i架无人机的动力学模型:
其中,表示t时刻第i架无人机的加速度,η为比例系数,m为无人机的质量;无人机t+1时刻位置与速度的更新迭代公式为:
其中,Δt表示时间间隔;
(3)、搭建无人机集群的动态覆盖模型;
(3.1)、定义t时刻第i架无人机的观测信息
其中,表示每个目标点所需的覆盖能量,表示在[0,t]内第j个目标点接受到的覆盖能量;
(3.2)、定义t时刻的状态st;
(3.3)、构建无人机集群的动态覆盖模型;
(3.3.1)、搭建无人机的策略网络及目标策略网络;
策略网络采用三层感知机结构,策略网络的输入为观测信息正向传播后策略网络的输出表示为其中,θi表示策略网络待训练的网络参数;
目标策略网络与策略网络结构相同,目标策略网络的输入为观测正向传播后目标策略网络的输出表示为其中,表示目标策略网络待训练的网络参数;
(3.3.2)、搭建无人机的价值网络与目标价值网络;
价值网络采用三层感知机结构,价值网络的输入为状态st与驱动力正向传播后价值网络的输出表示为其中,ψi表示价值网络待训练的网络参数;
目标价值网络与价值网络结构相同,目标价值网络的输入为状态st与驱动力正向传播后目标价值网络的输出表示为其中,表示目标价值网络待训练的网络参数;
(4)、训练无人机集群动态覆盖决策模型
(4.1)、设定最大训练轮数Ne,初始化当前训练轮数e=1,e=1,2,…,Ne;设置无人机集群每轮最长控制时间T,初始化当前控制时刻t=1,t=1,2,…,T;初始化经验池为空集;初始化网络参数θi,ψi和目标网络参数为随机值;
(4.2)、在第e轮训练中,设第i架无人机仅能获取其探测半径ri内的信息,通过二维的钟型函数计算第i架无人机的传感器在t时刻对第j个目标点的信息获取率
其中,为传感器与目标点欧式距离;
(4.3)、设无人机均具有相同的探测功率Mp,计算第i架无人机在t时刻对第j个目标点覆盖的探测功率
(4.4)、计算第j个目标点在[0,t]内接受到的覆盖能量
(4.5)、利用公式(3)、(4)计算第i架无人机在t时刻的观测信息与状态st,将输入到策略网络中,通过正向传播得到然后令驱动力ω表示随机噪声;
(4.6)、第i架无人机将驱动力代入式(1)计算出下一时刻预期的位置和速度然后通过公式(7)计算[0,t+1]内预期的探测能量最后利用与计算t+1时刻的预期的状态st+1;计算从st转移到st+1的奖励值R;将组成样本存入经验池中;
(4.7)、判断状态st+1对应通信网络是否失去连通,若未失去连通,则进入(4.8);否则,反之则将驱动力所有无人机的当前位置与预期位置输入到动作矫正器中,动作矫正器经计算输出矫正后的动作再令驱动力等于矫正后的动作:然后返回步骤(4.6);
(4.8)、第i架无人机随机对经验池进行采样,获得一批次的样本集并根据样本集中的样本其中,s′表示状态s对应的下一时刻的状态,s′对应的观察信息为o′i,对应输入的驱动力为u′i;按照下式分别计算策略网络和价值网络的损失函数值:
其中,表示样本个数;
(4.9)、按照下式更新目标策略网络和目标价值网络的参数:
其中,τ表示更新步长;
(4.10)、第i架无人机执行执行完成后若此时所有的目标点均满足覆盖需求,即则进入(4.12),反之进入(4.11);
(4.11)、判断本轮控制时刻t是否超出设定上限,即t≥T,如满足,则本轮训练结束,进入(4.12);否则,令t=t+1,再返回至步骤(4.2);
(4.12)、判断当前训练轮数e是否小于最大训练轮数Ne,即e<Ne,若满足条件,则令e=e+1,随机初始化无人机集群的位置和速度,并重置当前控制时刻t←0,并返回(4.2);否则,结束训练,得到训练好的策略网络模型;
(5)、保存训练好的策略网络模型参数θi,i=1,...,N,在动态覆盖实施的每个时刻t,每架无人机均会收集观测信息其控制决策将由策略网络进行计算:当时,覆盖结束,场景中所有目标点的探测需求均已满足。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210688998.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低振动的旋流泵蜗壳
- 下一篇:一种基于快速连接结构的节能型展览装置