[发明专利]一种基于双经验池DDPG网络的兵棋推演智能决策方法有效
申请号: | 202210244709.0 | 申请日: | 2022-03-14 |
公开(公告)号: | CN114611669B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 张震;臧兆祥 | 申请(专利权)人: | 三峡大学 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/08;G06N20/00 |
代理公司: | 北京东方盛凡知识产权代理有限公司 11562 | 代理人: | 张换君 |
地址: | 443002*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 经验 ddpg 网络 推演 智能 决策 方法 | ||
本发明公开了一种基于双经验池DDPG网络的兵棋推演智能决策方法,包括:获取兵棋推演数据,构建双经验池DDPG模型;对兵棋推演数据进行预处理,将预处理后的数据向量化,获得向量化数据;将向量化数据输入双经验池DDPG模型进行训练,双经验池DDPG模型达到预设收敛程度时完成训练,基于训练完成的双经验池DDPG模型生成兵棋推演智能决策。本发明相较于一般的强化学习架构,收敛速度更快,节省了训练时间,更快地学习到了整体策略。将双经验池DDPG结构应用于兵棋推演中,利用双经验池对训练速度的提升,更快地训练出可用的神经网络模型。通过对高质量样本的筛选和利用,在一定程度上改善了模型表现依赖于样本质量的问题。
技术领域
本发明属于智能决策领域,特别是涉及一种基于双经验池DDPG网络的兵棋推演智能决策方法。
背景技术
智能决策的目的是利用人类的知识并借助计算机通过人工智能方法来解决复杂的决策问题。典型的复杂决策问题如兵棋推演。兵棋推演是军事演习中的常见对抗样式,用沙盘代替实地,用不同的棋子代替不同的兵力,基于后台数据库和电子态势信息,最大限度地模拟实地实兵对抗,可用来检验战略战术,并能给指挥官以战法策略上的启发。随着人工智能技术的发展,智能决策与兵棋推演融合成为了兵棋推演和人工智能领域的研究热点,针对兵棋推演智能决策的研究取得了不少成果,这些成果有望切实地提升部队战斗力,深化军事智能化进程。
现有的智能决策方法主要分为两种:
规则型:例如决策树方法,通过设定不同局面下采取的不同应对策略来解决决策问题。这类技术的主要问题是兵棋推演中局面复杂度高,通过判断局面来进行动作的规则型智能体所需设置的分支过多,且随着问题的复杂度上升,整个决策树的复杂度呈指数级增长。
学习型:用深度学习和强化学习技术构建一定的网络模型,将战场态势当做网络的输入,己方兵力需采取的动作作为网络的输出,通过一定的评价,来更新网络的参数,实现整个决策框架的学习,经过一定时间的训练后,网络模型可以直接进行对战。这类技术的主要限制在于,网络模型的收敛速度受样本质量的影响较大,收敛速度没有保证。
发明内容
本发明的目的是提供一种基于双经验池DDPG网络的兵棋推演智能决策方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种基于双经验池DDPG网络的兵棋推演智能决策方法,包括:
获取兵棋推演数据,构建双经验池DDPG模型;
对所述兵棋推演数据进行预处理,将预处理后的数据向量化,获得向量化数据;
将所述向量化数据输入所述双经验池DDPG模型进行训练,所述双经验池DDPG模型达到预设收敛程度时完成训练,基于训练完成的双经验池DDPG模型生成兵棋推演智能决策。
可选的,获取兵棋推演数据的过程中包括,运行兵棋推演环境,并在所述兵棋推演环境中获取兵棋推演数据;
所述兵棋推演数据包括:己方实体属性信息、敌方已被发现的实体属性信息、推演时间、地图属性信息、记分板信息;
其中所述己方实体属性信息包括己方单位的剩余血量、己方单位的位置、己方单位的剩余弹药量;
所述敌方已被发现的实体属性信息包括敌方剩余血量和敌方位置;
所述地图属性信息包括高程和编号;
所述记分板信息包括目前获得的分数信息。
可选的,对所述兵棋推演数据进行预处理的过程中,所述预处理的方式采用数据清洗,所述数据清洗包括:
对采集的所述兵棋推演数据进行数据提取,获得规范化数据;
对所述规范化数据进行分类和冗余数据剔除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三峡大学,未经三峡大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210244709.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示面板及显示装置
- 下一篇:能耗计算方法、系统、设备及存储介质