[发明专利]一种基于分层强化学习的无人机集群对抗策略优化方法在审

专利信息
申请号: 202310560013.3 申请日: 2023-05-17
公开(公告)号: CN116520884A 公开(公告)日: 2023-08-01
发明(设计)人: 傅妍芳;孙泽龙;雷凯麟;曹子建;杨博;高领航;李秦洁;罗千庆;梁洪涛 申请(专利权)人: 西安工业大学
主分类号: G05D1/10 分类号: G05D1/10
代理公司: 西安凯多思知识产权代理事务所(普通合伙) 61290 代理人: 王鲜凯
地址: 710021 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 分层 强化 学习 无人机 集群 对抗 策略 优化 方法
【权利要求书】:

1.一种基于分层强化学习的无人机集群对抗策略优化方法,其特征在于步骤如下:

步骤1、想定场景设计:环境设计以无人机为主要作战单元,战场选择在空旷的固定区域;作战双方为敌对的红蓝双方,各方作战单元以同构兵力进行推演,或以异构兵力进行推演;

所述兵力包括武器装备的数量和型号;

所述作战单元包括挂载空空导弹的空战作战单元,一种是挂载对地导弹的轰炸作战单元,另一种是挂载电子战干扰/反干扰雷达的电子作战单元;

所述场景设计包括但不限于红蓝双方作战型号,单元数量,挂载单元,地理位置和天气状况;

步骤2:按照步骤1的场景设计,利用仿真推演平台进行仿真,得到无人机集群中每个无人机智能体的固定GUID获取单元的动作和状态(Sn,An),其中St表示当前状态,At集表示当前动作;

所有无人机智能体的特征状态和特征动作组成状态空间和动作空间,以(St,At)作为表示;

以(x0,y0,z0)表示无人机在当前三维空间中的坐标,(c0,s0)表示无人机当前航向和速度;通过雷达探测装置,获得敌方作战单位的坐标,高度,速度信息,通过计算敌我双方单元的相对距离来引导无人机去进行作战;

步骤3:构建智能体算法框架,实现分层结构:

所述智能体网络是以QMIX算法为核心,构建强化学习智能体模型,智能体网络结构分为三层,上下两层由MLP全连接层神经网络构成,中间是GRU隐藏层神经网络;混合网络是由一个超网络和一个非线性网络构成,超网络将全局状态St作为输入,输出为混合网络的权值和偏移量作为非线性网络的参数;上下两层智能体采用如上所述相同的结构;

所述每个智能体在环境中的状态和动作输入进智能体网络,经过三层神经网络生成单个智能体的Qi值函数,所有的Qi值函数输入到混合网络中,混合网络是一个前馈神经网络,经过单调混合产生整体的Qtot值函数;

所述智能体网络参数:

所述智能体网络的奖励函数:

所述上一层智能体根据当前的状态计算出下一步的动作,调用下层的智能体,并把这个动作拼接到下层智能体的状态之中,在下一层智能体执行一段时间之后,在把这一段时间内产生的状态拼接、奖励汇总,作为上一层智能体的状态和奖励,然后上层智能体再根据当前的状态和奖励进行下一步动作的选择,如此循环往复,直至想定结束。

2.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法,其特征在于:所述步骤1中,想定中的环境安全性限制条件有以下两点:

1、空速限制:空速大于70km/h时,导弹发射按钮锁定,导弹不能发射,当空速在安全射击范围时,且敌方单元处于可攻击范围内,即自动攻击;

2、安全时间限制:无人机起飞一定时间内不能进行导弹发射,到达安全时间后才可以发射。

3.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法,其特征在于:所述动作方面,对战场区域进行表格划分,以智能体为中心建立运动九宫格,对于上层智能体,无人机编队每一时刻所采取的动作An=(编队运动方向),以九宫格作为方向分布,中间5代表当前阶段的点位,1代表左后方位,2代表正后方,3代表右后方位置,4代表正左方,6代表正右方,7代表左前方位置,8代表正前方,9代表右前方位置,无人机编队通过这些指令选择下一步运动的方向。

4.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法,其特征在于:所述下层智能体,其动作空间包括高度和速度;所述动作空间action_space=(3,3),高度动作为:0:保持;1:升高;2:降低;速度动作为:0:保持;

1:加速;2;减速。

5.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法,其特征在于:所述智能体网络的训练流程:程序端运行程序开始进行仿真,读取智能体算法的配置和环境中想定的配置文件进行初始化;然后想定启动,智能体初始模型建立,开始在想定中进行训练;智能体获取环境中本身观测到的状态以及本身当前的状态和动作,根据智能体模型选择下一步的动作然后进行仿真,获取动作结束后的奖励情况,把当前的状态和动作以及奖励放入经验缓冲池中,同时智能体根据当前情况再选择下一步的动作,重复之前的步骤,每一步都会判断训练过程中是否达到了程序设计中的结束要求,如果达到,训练结束,如果没有达到,则继续进行训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工业大学,未经西安工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310560013.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top