[发明专利]知识驱动下的兵棋推演智能决策方法有效
| 申请号: | 202110775172.6 | 申请日: | 2021-07-08 |
| 公开(公告)号: | CN113435598B | 公开(公告)日: | 2022-06-21 |
| 发明(设计)人: | 程光权;马扬;刘忠;黄金才;梁星星;冯旸赫 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06N5/04 | 分类号: | G06N5/04 |
| 代理公司: | 长沙大珂知识产权代理事务所(普通合伙) 43236 | 代理人: | 伍志祥 |
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 知识 驱动 推演 智能 决策 方法 | ||
1.知识驱动下的兵棋推演智能决策方法,应用于知识驱动下的兵棋推演智能决策框架,其特征在于,所述兵棋推演智能决策框架包括智能决策系统与推演环境,所述兵棋推演智能决策方法包括以下步骤:
推演环境间隔仿真步长向智能决策系统传递态势信息,所述态势信息包括直接态势和整合态势;
智能决策系统将所述直接态势和整合态势进行融合;
根据想定任务确定对抗实体的核心目标,根据所述核心目标划分对抗实体的阶段任务;
对抗实体结合战场知识和智能决策进行实体控制;
在不同的想定任务下,分配各指令动作的优先级;
其中,对抗实体包括多个智能体,强化学习的智能体在每个时间步t从状态空间S中接收该时间步的状态st,根据策略分布π(at|st),从动作空间A中选择该时间步的执行动作at,根据奖赏函数R(st,at,st+1)和状态转移函数P(st+1|st,at),推演环境返回一个奖赏值rt+1,并将状态转移到下一时刻st+1,重复上述步骤直到终止状态的智能体获得带折扣的累计奖赏值
2.根据权利要求1所述的知识驱动下的兵棋推演智能决策方法,其特征在于,所述直接态势包括甲方实体和乙方实体的探测信息,所述直接态势的处理包括对态势的数值转换、数值清洗和归一化。
3.根据权利要求1所述的知识驱动下的兵棋推演智能决策方法,其特征在于,每个阶段任务可进一步划分为次级任务。
4.根据权利要求1所述的知识驱动下的兵棋推演智能决策方法,其特征在于,智能体学习的目标是最大化返回奖赏值。
5.根据权利要求1所述的知识驱动下的兵棋推演智能决策方法,其特征在于,所述实体控制包括状态控制、移动控制和打击控制,所述状态控制包括对传感器开关控制和组件参数调节;移动控制包括机动参数控制、航迹规划和特殊动作,打击控制包括弹目匹配、打击时机选择。
6.根据权利要求5所述的知识驱动下的兵棋推演智能决策方法,其特征在于,所述打击控制由战场知识决定打击距离,并在打击决策时采用基于威胁度评估的弹目匹配方法。
7.根据权利要求5所述的知识驱动下的兵棋推演智能决策方法,其特征在于,所述打击控制还包括采用Qmix多智能体强化学习算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110775172.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种连接灵活的光缆接头盒
- 下一篇:一种分缸式自由活塞发电机的储气中冷器





