[发明专利]一种基于分层强化学习的无人机集群对抗策略优化方法在审

申请号：	202310560013.3	申请日：	2023-05-17
公开（公告）号：	CN116520884A	公开（公告）日：	2023-08-01
发明（设计）人：	傅妍芳;孙泽龙;雷凯麟;曹子建;杨博;高领航;李秦洁;罗千庆;梁洪涛	申请（专利权）人：	西安工业大学
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	西安凯多思知识产权代理事务所(普通合伙) 61290	代理人：	王鲜凯
地址：	710021 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于分层强化学习无人机集群对抗策略优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于分层强化学习的无人机集群对抗策略优化方法，其特征在于步骤如下：

步骤1、想定场景设计：环境设计以无人机为主要作战单元，战场选择在空旷的固定区域；作战双方为敌对的红蓝双方，各方作战单元以同构兵力进行推演，或以异构兵力进行推演；

所述兵力包括武器装备的数量和型号；

所述作战单元包括挂载空空导弹的空战作战单元，一种是挂载对地导弹的轰炸作战单元，另一种是挂载电子战干扰/反干扰雷达的电子作战单元；

所述场景设计包括但不限于红蓝双方作战型号，单元数量，挂载单元，地理位置和天气状况；

步骤2：按照步骤1的场景设计，利用仿真推演平台进行仿真，得到无人机集群中每个无人机智能体的固定GUID获取单元的动作和状态(Sn,An)，其中St表示当前状态，At集表示当前动作；

所有无人机智能体的特征状态和特征动作组成状态空间和动作空间，以(St，At)作为表示；

以(x₀,y₀,z₀)表示无人机在当前三维空间中的坐标,(c₀,s₀)表示无人机当前航向和速度；通过雷达探测装置，获得敌方作战单位的坐标，高度，速度信息，通过计算敌我双方单元的相对距离来引导无人机去进行作战；

步骤3：构建智能体算法框架，实现分层结构：

所述智能体网络是以QMIX算法为核心，构建强化学习智能体模型，智能体网络结构分为三层，上下两层由MLP全连接层神经网络构成，中间是GRU隐藏层神经网络；混合网络是由一个超网络和一个非线性网络构成，超网络将全局状态St作为输入，输出为混合网络的权值和偏移量作为非线性网络的参数；上下两层智能体采用如上所述相同的结构；

所述每个智能体在环境中的状态和动作输入进智能体网络，经过三层神经网络生成单个智能体的Q_i值函数，所有的Q_i值函数输入到混合网络中，混合网络是一个前馈神经网络，经过单调混合产生整体的Q_tot值函数；

所述智能体网络参数：

所述智能体网络的奖励函数：

所述上一层智能体根据当前的状态计算出下一步的动作，调用下层的智能体，并把这个动作拼接到下层智能体的状态之中，在下一层智能体执行一段时间之后，在把这一段时间内产生的状态拼接、奖励汇总，作为上一层智能体的状态和奖励，然后上层智能体再根据当前的状态和奖励进行下一步动作的选择，如此循环往复，直至想定结束。

2.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法，其特征在于：所述步骤1中，想定中的环境安全性限制条件有以下两点：

1、空速限制：空速大于70km/h时，导弹发射按钮锁定，导弹不能发射，当空速在安全射击范围时，且敌方单元处于可攻击范围内，即自动攻击；

2、安全时间限制：无人机起飞一定时间内不能进行导弹发射，到达安全时间后才可以发射。

3.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法，其特征在于：所述动作方面，对战场区域进行表格划分，以智能体为中心建立运动九宫格，对于上层智能体，无人机编队每一时刻所采取的动作A_n＝(编队运动方向)，以九宫格作为方向分布，中间5代表当前阶段的点位，1代表左后方位，2代表正后方，3代表右后方位置，4代表正左方，6代表正右方，7代表左前方位置，8代表正前方，9代表右前方位置，无人机编队通过这些指令选择下一步运动的方向。

4.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法，其特征在于：所述下层智能体，其动作空间包括高度和速度；所述动作空间action_space＝(3，3)，高度动作为：0：保持；1：升高；2：降低；速度动作为：0：保持；

1：加速；2；减速。

5.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法，其特征在于：所述智能体网络的训练流程：程序端运行程序开始进行仿真，读取智能体算法的配置和环境中想定的配置文件进行初始化；然后想定启动，智能体初始模型建立，开始在想定中进行训练；智能体获取环境中本身观测到的状态以及本身当前的状态和动作，根据智能体模型选择下一步的动作然后进行仿真，获取动作结束后的奖励情况，把当前的状态和动作以及奖励放入经验缓冲池中，同时智能体根据当前情况再选择下一步的动作，重复之前的步骤，每一步都会判断训练过程中是否达到了程序设计中的结束要求，如果达到，训练结束，如果没有达到，则继续进行训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安工业大学，未经西安工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310560013.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种新型无线脉冲烙铁及其使用方法
下一篇：一种用于电动汽车的充电调度方法与系统

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于分层强化学习的无人机集群对抗策略优化方法在审

专利文献下载