[发明专利]一种空中博弈仿真方法及装置有效
| 申请号: | 202211176772.1 | 申请日: | 2022-09-26 | 
| 公开(公告)号: | CN115470710B | 公开(公告)日: | 2023-06-06 | 
| 发明(设计)人: | 陈敏杰;吴斌星 | 申请(专利权)人: | 北京鼎成智造科技有限公司 | 
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/0442;G06N20/00 | 
| 代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李奉瑾 | 
| 地址: | 100193 北京市海淀区西北*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 空中 博弈 仿真 方法 装置 | ||
1.一种空中博弈仿真方法,其特征在于,所述方法包括:
S1、获取配置参数,利用仿真模块生成空中博弈仿真环境;
S2、构建第一智能算法模型;所述第一智能算法模型用于生成控制第一方空中力量的指令;具体的:
所述第一智能算法模型包括深度神经网络以及强化学习算法,深度神经网络采用LSTM网络,强化学习算法采用PPO算法;
网络模型配置:构建特征提取层、构建隐藏层、构建输出层、构建价值输出层;
算法参数配置:设置经验池大小、batch大小、KL散度初始系数、学习率等;
观测空间配置:观测空间包含第一方空中力量的状态、第二方空中力量的状态、蓝方导弹的状态以及红方导弹的状态;所述观测空间是指神经网络输入的大小;
行为空间配置:行为空间包括飞机的机动目标点、是否发弹;所述行为空间配置是指神经网络输出的大小;
对第一态势信息按照观测空间的配置进行特征编码,得到传入LSTM网络的策略特征,经LSTM网络的特征提取层、构建隐藏层、构建输出层以及构建价值输出层输出策略动作,经多策略动作解码,得到第一指令;
在训练阶段,智能算法模型利用初始模型对接收的第一态势信息做出决策,得到第一指令,作用于仿真模块,仿真模块的状态发生变化,重复执行该步骤,得到大量的仿真环境训练样本,每个样本包括:态势信息、指令、奖赏;智能算法模型从训练样本中挑选样本使用PPO算法进行梯度计算,并更新初始模型的参数;
S3、基于所述空中博弈仿真环境,对所述第一智能算法模型进行训练,得到第二智能算法模型,具体包括:
S31、基于所述空中博弈仿真环境,利用所述仿真模块生成第一态势信息;所述态势信息包括第一方空中力量信息、第二方空中力量信息、环境数据信息;所述第一方空中力量信息与所述第二方空中力量信息为对抗双方;
S32、利用所述第一智能算法模型,对所述第一态势信息进行处理,得到第一指令;所述第一指令用于控制第一方空中力量;
S33、利用地图模块和混合现实模块,向操作员展示所述第一态势信息,得到第一交互信息;具体的:
从混合现实模块中获取操作员的视野方位;
利用地图模块,对所述第一态势信息和所述操作员的视野方位进行处理,生成视野战场环境信息;
利用混合现实模块,将所述视野战场环境信息展示给操作员,得到第一交互信息;
S34、利用预设的规则算法模型,对所述第一交互信息进行处理,得到第二指令;所述第二指令用于控制第二方空中力量;
S35、根据所述第一指令和所述第二指令,仿真模块进行步长推进,生成第二态势信息;
S36、利用预设的训练判定模型,对所述第二态势信息进行判断,得到第一判断结果;所述预设的训练判定模型用于判定第一智能算法模型是否达到预设的效果;所述预设的训练判定模型包括奖励函数、终止函数以及制定训练的平均奖励目标;
奖励函数的设置方法为:如果超时,奖励值减9分;智能算法控制方的智能体死亡,奖励值减10分;敌方实体死亡,奖励值加2分;智能算法控制方无导弹,奖励值加2分;敌方无导弹,奖励值加4分;
所述奖励函数定义了强化学习中的目标,在每一步中,奖励函数设定了智能体的目标值,智能体的唯一目标就是最大化奖励值;
终止函数的设置方法:到达终止时间,和/或,一方实体全部死亡和/或,双方导弹都无剩余;所述终止函数在每个回合的每个步长下,都会从环境中获取到环境状态、判断当前状态是否要终止;如果终止,将进入下一个回合;
所述制定训练的平均奖励目标为平均奖励值稳定收敛不小于8分;
S37、当所述第一判断结果为否时,将所述第二态势信息更改为第一态势信息,触发执行利用所述第一智能算法模型,对所述第一态势信息进行处理,得到第一指令;所述第一指令用于控制第一方空中力量;
当所述第一判断结果为是时,停止训练,得到第二智能算法模型;
S4、对所述第二智能算法模型进行评估,得到评估结果。
2.根据权利要求1所述的空中博弈仿真方法,其特征在于,所述利用预设的训练判定模型,对所述第二态势信息进行判断,得到第一判断结果,包括:
根据所述第二态势信息,利用预设的训练判定模型中奖励函数、终止函数进行计算,得到所述第一智能算法模型的奖励值;
判断所述奖励值是否达到预设奖励阈值,得到第一判断结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京鼎成智造科技有限公司,未经北京鼎成智造科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211176772.1/1.html,转载请声明来源钻瓜专利网。





