[发明专利]一种基于分层强化学习的无人机集群对抗策略优化方法在审
| 申请号: | 202310560013.3 | 申请日: | 2023-05-17 |
| 公开(公告)号: | CN116520884A | 公开(公告)日: | 2023-08-01 |
| 发明(设计)人: | 傅妍芳;孙泽龙;雷凯麟;曹子建;杨博;高领航;李秦洁;罗千庆;梁洪涛 | 申请(专利权)人: | 西安工业大学 |
| 主分类号: | G05D1/10 | 分类号: | G05D1/10 |
| 代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 王鲜凯 |
| 地址: | 710021 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 分层 强化 学习 无人机 集群 对抗 策略 优化 方法 | ||
1.一种基于分层强化学习的无人机集群对抗策略优化方法,其特征在于步骤如下:
步骤1、想定场景设计:环境设计以无人机为主要作战单元,战场选择在空旷的固定区域;作战双方为敌对的红蓝双方,各方作战单元以同构兵力进行推演,或以异构兵力进行推演;
所述兵力包括武器装备的数量和型号;
所述作战单元包括挂载空空导弹的空战作战单元,一种是挂载对地导弹的轰炸作战单元,另一种是挂载电子战干扰/反干扰雷达的电子作战单元;
所述场景设计包括但不限于红蓝双方作战型号,单元数量,挂载单元,地理位置和天气状况;
步骤2:按照步骤1的场景设计,利用仿真推演平台进行仿真,得到无人机集群中每个无人机智能体的固定GUID获取单元的动作和状态(Sn,An),其中St表示当前状态,At集表示当前动作;
所有无人机智能体的特征状态和特征动作组成状态空间和动作空间,以(St,At)作为表示;
以(x0,y0,z0)表示无人机在当前三维空间中的坐标,(c0,s0)表示无人机当前航向和速度;通过雷达探测装置,获得敌方作战单位的坐标,高度,速度信息,通过计算敌我双方单元的相对距离来引导无人机去进行作战;
步骤3:构建智能体算法框架,实现分层结构:
所述智能体网络是以QMIX算法为核心,构建强化学习智能体模型,智能体网络结构分为三层,上下两层由MLP全连接层神经网络构成,中间是GRU隐藏层神经网络;混合网络是由一个超网络和一个非线性网络构成,超网络将全局状态St作为输入,输出为混合网络的权值和偏移量作为非线性网络的参数;上下两层智能体采用如上所述相同的结构;
所述每个智能体在环境中的状态和动作输入进智能体网络,经过三层神经网络生成单个智能体的Qi值函数,所有的Qi值函数输入到混合网络中,混合网络是一个前馈神经网络,经过单调混合产生整体的Qtot值函数;
所述智能体网络参数:
所述智能体网络的奖励函数:
所述上一层智能体根据当前的状态计算出下一步的动作,调用下层的智能体,并把这个动作拼接到下层智能体的状态之中,在下一层智能体执行一段时间之后,在把这一段时间内产生的状态拼接、奖励汇总,作为上一层智能体的状态和奖励,然后上层智能体再根据当前的状态和奖励进行下一步动作的选择,如此循环往复,直至想定结束。
2.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法,其特征在于:所述步骤1中,想定中的环境安全性限制条件有以下两点:
1、空速限制:空速大于70km/h时,导弹发射按钮锁定,导弹不能发射,当空速在安全射击范围时,且敌方单元处于可攻击范围内,即自动攻击;
2、安全时间限制:无人机起飞一定时间内不能进行导弹发射,到达安全时间后才可以发射。
3.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法,其特征在于:所述动作方面,对战场区域进行表格划分,以智能体为中心建立运动九宫格,对于上层智能体,无人机编队每一时刻所采取的动作An=(编队运动方向),以九宫格作为方向分布,中间5代表当前阶段的点位,1代表左后方位,2代表正后方,3代表右后方位置,4代表正左方,6代表正右方,7代表左前方位置,8代表正前方,9代表右前方位置,无人机编队通过这些指令选择下一步运动的方向。
4.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法,其特征在于:所述下层智能体,其动作空间包括高度和速度;所述动作空间action_space=(3,3),高度动作为:0:保持;1:升高;2:降低;速度动作为:0:保持;
1:加速;2;减速。
5.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法,其特征在于:所述智能体网络的训练流程:程序端运行程序开始进行仿真,读取智能体算法的配置和环境中想定的配置文件进行初始化;然后想定启动,智能体初始模型建立,开始在想定中进行训练;智能体获取环境中本身观测到的状态以及本身当前的状态和动作,根据智能体模型选择下一步的动作然后进行仿真,获取动作结束后的奖励情况,把当前的状态和动作以及奖励放入经验缓冲池中,同时智能体根据当前情况再选择下一步的动作,重复之前的步骤,每一步都会判断训练过程中是否达到了程序设计中的结束要求,如果达到,训练结束,如果没有达到,则继续进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工业大学,未经西安工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310560013.3/1.html,转载请声明来源钻瓜专利网。





