[发明专利]多无人平台协同对抗的实时重决策方法和系统有效
申请号: | 202110269461.9 | 申请日: | 2021-03-12 |
公开(公告)号: | CN113128021B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 王国强;陈宇轩;罗贺;蒋儒浩;马滢滢;胡笑旋;夏维;唐奕城;靳鹏;马华伟;王浩丞 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06F17/18;G06F111/02 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 无人 平台 协同 对抗 实时 决策 方法 系统 | ||
1.一种多无人平台协同对抗的实时重决策方法,其特征在于,所述重决策方法由计算机执行,所述方法包括:
实时获取多无人平台协同对抗时的无人平台状态数据;
计算所述无人平台状态数据的奖励回报;
基于预先构建的Actor网络对所述无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案;
基于预先构建的Critic网络对所述无人平台状态数据进行处理,得到重决策价值函数;基于所述奖励回报和所述重决策价值函数计算TD误差;
基于所述TD误差更新所述Actor网络和Critic网络;
多无人平台执行所述多无人平台重决策方案,得到多无人平台协同对抗数据,并作为下一回合的无人平台状态数据,以使更新后的Actor网络对无人平台状态数据进行处理,得到下一回合的多无人平台重决策方案,直至多无人平台重决策方案使得多无人平台协同对抗结束;
所述奖励回报包括:无人平台态势优势奖励回报和无人平台能力优势回报;
所述无人平台态势优势奖励回报包括:距离优势奖励回报、角度优势奖励回报和速度优势奖励回报;
所述无人平台能力优势奖励回报包括:武器射程优势奖励回报、武器角度优势奖励回报和武器速度优势奖励回报;
所述距离优势奖励回报的计算方法包括:
其中:r31表示距离优势奖励回报;DRmax为雷达最大搜索距离;DMmax为导弹攻击距离;表示为我方的第i架无人平台到敌方的第j架无人平台的距离;m为影响因子,表示距离因素对武器射程的影响;
所述速度优势奖励回报的计算方法包括:
其中:r32表示速度优势奖励回报;Vmax表示无人平台最大速度;vb表示敌方无人平台速度;
所述角度优势奖励回报的计算方法包括:
其中:r33表示角度优势奖励回报;表示我方无人平台方位角;为我方第i架无人平台,以及我方第i架无人平台到敌方第j架无人平台连线间的夹角;表示敌方无人平台方位角;为敌方第j架无人平台,以及敌方第j架无人平台到我方第i架无人平台连线间的夹角。
2.如权利要求1所述的重决策方法,其特征在于,所述无人平台状态数据包括:无人平台横坐标、无人平台纵坐标、无人平台飞行高度、无人平台飞行速度、无人平台横滚角、无人平台航向角、无人平台俯仰角、无人平台余弹数量和无人平台类型。
3.如权利要求1所述的重决策方法,其特征在于,所述预先构建的Actor网络采用全连接神经网络,包括:1个输入层、2个隐藏层和1个输出层;
所述基于预先构建的Actor网络对所述无人平台状态数据进行处理,得到当前回合的多无人平台重决策方案,包括:
将所述无人平台状态数据输入到预先构建的Actor网络中,得到重决策触发结果的概率;
基于所述重决策触发结果的概率获取当前回合的重决策触发结果;
对所述重决策触发结果进行标准化处理,得到当前回合的多无人平台重决策方案。
4.如权利要求3所述的重决策方法,其特征在于,所述重决策触发结果包括:战术决策、目标分配和不进行重决策。
5.如权利要求1所述的重决策方法,其特征在于,所述重决策价值函数的计算方法包括:
其中:
Vπ(st)表示第t个回合中Critic网络的重决策价值函数;
Qπ(st,a)表示第t个回合中采取多无人平台重决策方案a的状态值函数;
A表示所有的多无人平台重决策方案;
a表示第t个回合中得到的多无人平台重决策方案;
π(a|st)表示第t个回合采取多无人平台重决策方案a的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110269461.9/1.html,转载请声明来源钻瓜专利网。