[发明专利]一种基于深度强化学习的智能兵棋推演决策方法在审
| 申请号: | 202310612393.0 | 申请日: | 2023-05-26 |
| 公开(公告)号: | CN116596343A | 公开(公告)日: | 2023-08-15 |
| 发明(设计)人: | 费蓉;陈汭竹;李爱民;吴丽丽;马梦阳;王宏博 | 申请(专利权)人: | 西安理工大学 |
| 主分类号: | G06Q10/0637 | 分类号: | G06Q10/0637;G06Q10/063;G06F30/27;G06F18/241;G06N3/0464;G06N3/082;G06N3/092;G06N3/047 |
| 代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 张莹 |
| 地址: | 710048 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 智能 推演 决策 方法 | ||
本发明公开了一种基于深度强化学习的智能兵棋推演决策方法,包括:构建兵棋推演环境中智能体的状态空间;构建适用于兵棋智能推演环境下低优势策略‑价值网络架构;构建作战场景判断模型,作为环境奖励来源依据;在兵棋推演系统中搭建智能决策系统;对所述步骤1至4得到的智能体状态空间、低优势策略‑价值网络架构、作战场景判断模型和智能决策系统所构成的深度神经网络进行训练,得到基于深度强化学习的智能兵棋推演决策模型;在所述智能兵棋推演决策模型中,对当前作战场景状态下的战术兵棋智能体作战决策进行求解。通过上述方式,本发明能够改进战术兵棋智能体在作战推演中产生作战决策的效率,加快作战策略网络训练过程的收敛速度。
技术领域
本发明属于深度强化学习领域,特别是涉及一种基于深度强化学习的智能兵棋推演决策方法。
背景技术
随着高新技术在军事领域的不断发展运用,武器装备的性能参数越来越多、造价越来越高,现代作战体系越来越复杂,作战训练成本也同步激增。为控制训练成本,节约人力物力资源,各国使用仿真技术模拟作战训练。近年来,以深度强化学习为代表的人工智能技术快速发展,使得直接从模拟战场原始数据中快速提取特征,从而对战场态势进行描述、感知并进一步自主决策成为可能。兵棋推演可以模拟对抗的流程和结果,其结果对实际对抗具有借鉴意义。将人工智能技术应用于兵棋推演,形成战术兵棋智能体,对培养智能化作战指挥员打赢未来战争具有深远意义。
兵棋推演中最常见的形式是双方博弈,在该形式下,通常推演双方分别控制甲方和乙方,在指定的任务想定下,对己方资源进行规划和调度,从而完成既定对抗意图。目前,深度强化学习的研究主要应用于博弈方向以及人机对抗上,其中深度Q学习网络(Deep Q-learning Network,DQN)能很好的完成对环境状态的态势理解与决策构建的准确性;同时记忆函数的引入将在可自我博弈的基础上完成对模型的快速训练和较好的准确性。但是在兵棋推演系统中智能体设计上,面对瞬息万变的战场环境与错综复杂的作战场景,智能体在数据学习上周期漫长,策略产出与模型训练收敛时都需要较长时间,尤其是基于深度强化学习的思想和方式实现智能算法,虽然提高了AI在兵棋系统的对抗推演水准,但是较长周期的策略产出是其最大的弊端。
现有技术1CN114722998A中,公开了一种基于CNN-PPO的兵棋推演智能体构建方法。该现有技术采集兵棋推演平台的初始态势数据,并对初始态势数据进行预处理,获得目标态势数据;构建影响力地图模块,将目标态势数据输入影响力地图模块,输出获得影响力特征;基于卷积神经网络和近端策略优化构建混合神经网络模型,将目标态势数据和影响力特征拼接后,输入混合神经网络模型进行模型迭代训练,直到目标函数最小、网络收敛,实现CNN-PPO智能体的构建。该现有技术用于改进在兵棋推演这一复杂场景中智能体计算决策的效率,加快智能体训练过程的收敛速度,但是缺乏有效方法对实际作战场景下智能体策略进行评估,导致其策略的准确性可能不高。
现有技术2CN113723013A中,公开了一种用于连续空间兵棋推演的多智能体决策方法。该方法构建连续空间兵棋推演场景,得到用于兵棋推演的战场环境数据,多智能体进行初始化;构建经验重访数据集;多个智能体进行本地观测;基于CNN提取推演多智能体的多实体特征;多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入,利用基于课程学习奖赏的Q学习训练多智能体;利用训练完成的多智能体进行对战决策。但是,该方法适配于兵棋推演中离散空间性能较差,这种离散空间是指智能体是在有限动作下,战场状态是随每一回合的推演而有限变化的;同时,缺乏有效评估方法对智能体策略进行合理评估。
发明内容
本发明主要解决的技术问题是提供一种基于深度强化学习的智能兵棋推演决策方法,旨在帮助战术兵棋智能体加快产出作战决策。
为解决上述技术问题,本发明提供一种基于深度强化学习的智能兵棋推演决策方法,所述方法包括:
步骤1:构建兵棋推演环境中智能体的状态空间;
步骤2:构建适用于兵棋智能推演环境下低优势策略-价值网络架构;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310612393.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗水树电缆绝缘材料及其制备方法
- 下一篇:倾斜裁断装置
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





