[发明专利]基于多智能体深度强化学习的无人机集群动态覆盖方法有效

申请号：	202210688998.3	申请日：	2022-06-17
公开（公告）号：	CN114879742B	公开（公告）日：	2023-07-04
发明（设计）人：	邵晋梁;张蕴霖;石磊;麻壮壮;白利兵;程玉华	申请（专利权）人：	电子科技大学
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	成都行之智信知识产权代理有限公司 51256	代理人：	温利平
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于智能深度强化学习无人机集群动态覆盖方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多智能体深度强化学习的无人机集群动态覆盖方法，其特征在于，包括以下步骤：

(1)、搭建无人机集群动态覆盖目标区域模型；

在二维空间上设置M个待覆盖的目标点，使用集合表示，其中p_j表示第j个目标点的位置坐标；设执行任务的无人机集群共有N架无人机，使用集合表示，用表示第i架无人机在t时刻的位置，用表示第i架无人机在t时刻的速度；

(2)、搭建无人机动力学模型；

设t时刻第i架无人机以驱动力作为控制输入，其中，分别表示t时刻从右、左、上、下四个方向施加到第i架无人机的驱动力；

建立第i架无人机的动力学模型：

其中，表示t时刻第i架无人机的加速度，η为比例系数，m为无人机的质量；无人机t+1时刻位置与速度的更新迭代公式为：

其中，Δt表示时间间隔；

(3)、搭建无人机集群的动态覆盖模型；

(3.1)、定义t时刻第i架无人机的观测信息

其中，表示每个目标点所需的覆盖能量，表示在[0,t]内第j个目标点接受到的覆盖能量；

(3.2)、定义t时刻的状态s^t；

(3.3)、构建无人机集群的动态覆盖模型；

(3.3.1)、搭建无人机的策略网络及目标策略网络；

策略网络采用三层感知机结构，策略网络的输入为观测信息正向传播后策略网络的输出表示为其中，θ_i表示策略网络待训练的网络参数；

目标策略网络与策略网络结构相同，目标策略网络的输入为观测正向传播后目标策略网络的输出表示为其中，表示目标策略网络待训练的网络参数；

(3.3.2)、搭建无人机的价值网络与目标价值网络；

价值网络采用三层感知机结构，价值网络的输入为状态s^t与驱动力正向传播后价值网络的输出表示为其中，ψ_i表示价值网络待训练的网络参数；

目标价值网络与价值网络结构相同，目标价值网络的输入为状态s^t与驱动力正向传播后目标价值网络的输出表示为其中，表示目标价值网络待训练的网络参数；

(4)、训练无人机集群动态覆盖决策模型

(4.1)、设定最大训练轮数N_e，初始化当前训练轮数e＝1，e＝1,2,…,N_e；设置无人机集群每轮最长控制时间T，初始化当前控制时刻t＝1，t＝1,2,…,T；初始化经验池为空集；初始化网络参数θ_i,ψ_i和目标网络参数为随机值；

(4.2)、在第e轮训练中，设第i架无人机仅能获取其探测半径r_i内的信息，通过二维的钟型函数计算第i架无人机的传感器在t时刻对第j个目标点的信息获取率

其中，为传感器与目标点欧式距离；

(4.3)、设无人机均具有相同的探测功率M_p，计算第i架无人机在t时刻对第j个目标点覆盖的探测功率

(4.4)、计算第j个目标点在[0,t]内接受到的覆盖能量

(4.5)、利用公式(3)、(4)计算第i架无人机在t时刻的观测信息与状态s^t，将输入到策略网络中，通过正向传播得到然后令驱动力ω表示随机噪声；

(4.6)、第i架无人机将驱动力代入式(1)计算出下一时刻预期的位置和速度然后通过公式(7)计算[0,t+1]内预期的探测能量最后利用与计算t+1时刻的预期的状态s^t+1；计算从s^t转移到s^t+1的奖励值R；将组成样本存入经验池中；

(4.7)、判断状态s^t+1对应通信网络是否失去连通，若未失去连通，则进入(4.8)；否则，反之则将驱动力所有无人机的当前位置与预期位置输入到动作矫正器中，动作矫正器经计算输出矫正后的动作再令驱动力等于矫正后的动作：然后返回步骤(4.6)；

(4.8)、第i架无人机随机对经验池进行采样，获得一批次的样本集并根据样本集中的样本其中，s′表示状态s对应的下一时刻的状态，s′对应的观察信息为o′_i，对应输入的驱动力为u′_i；按照下式分别计算策略网络和价值网络的损失函数值：

其中，表示样本个数；

(4.9)、按照下式更新目标策略网络和目标价值网络的参数：

其中，τ表示更新步长；

(4.10)、第i架无人机执行执行完成后若此时所有的目标点均满足覆盖需求，即则进入(4.12)，反之进入(4.11)；

(4.11)、判断本轮控制时刻t是否超出设定上限，即t≥T，如满足，则本轮训练结束，进入(4.12)；否则，令t＝t+1，再返回至步骤(4.2)；

(4.12)、判断当前训练轮数e是否小于最大训练轮数N_e，即e＜N_e，若满足条件，则令e＝e+1，随机初始化无人机集群的位置和速度，并重置当前控制时刻t←0，并返回(4.2)；否则，结束训练，得到训练好的策略网络模型；

(5)、保存训练好的策略网络模型参数θ_i,i＝1,...,N，在动态覆盖实施的每个时刻t，每架无人机均会收集观测信息其控制决策将由策略网络进行计算：当时，覆盖结束，场景中所有目标点的探测需求均已满足。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210688998.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种低振动的旋流泵蜗壳
下一篇：一种基于快速连接结构的节能型展览装置

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多智能体深度强化学习的无人机集群动态覆盖方法有效

专利文献下载