[发明专利]一种基于深度强化学习的智能兵棋推演决策方法在审

专利信息
申请号: 202310612393.0 申请日: 2023-05-26
公开(公告)号: CN116596343A 公开(公告)日: 2023-08-15
发明(设计)人: 费蓉;陈汭竹;李爱民;吴丽丽;马梦阳;王宏博 申请(专利权)人: 西安理工大学
主分类号: G06Q10/0637 分类号: G06Q10/0637;G06Q10/063;G06F30/27;G06F18/241;G06N3/0464;G06N3/082;G06N3/092;G06N3/047
代理公司: 北京中济纬天专利代理有限公司 11429 代理人: 张莹
地址: 710048 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 强化 学习 智能 推演 决策 方法
【权利要求书】:

1.一种基于深度强化学习的智能兵棋推演决策方法,其特征在于,包括以下步骤:

步骤1:构建兵棋推演环境中智能体的状态空间;

步骤2:构建适用于兵棋智能推演环境下低优势策略-价值网络架构;

步骤3:构建作战场景判断模型,作为环境奖励来源依据;

步骤4:在兵棋推演系统中搭建智能决策系统;

步骤5:对所述步骤1至4得到的智能体状态空间、低优势策略-价值网络架构、作战场景判断模型和智能决策系统所构成的深度神经网络进行训练,得到基于深度强化学习的智能兵棋推演决策模型;

步骤6:在所述智能兵棋推演决策模型中,对当前作战场景状态下的战术兵棋智能体作战决策进行求解。

2.根据权利要求1所述基于深度强化学习的智能兵棋推演决策方法,其特征在,所述步骤1中的具体按以下步骤实施:

步骤1.1:构建适用于兵棋推演环境中的战场态势实体分类模型;

所述实体分类模型基于卷积神经网络,结合战场态势图信息,将仿真数据划分为敌情,我情,战场环境三类;

步骤1.2:接收兵棋推演系统中仿真数据,输入至战场态势实体分类模型,得到模型分类结果;

步骤1.3:根据分类结果,构建包含地形矩阵,兵棋位置矩阵,上一步矩阵和是否为先手矩阵的n维战场态势信息矩阵。

3.根据权利要求1所述基于深度强化学习的智能兵棋推演决策方法,其特征在于,所述步骤2中的具体按以下步骤实施:

步骤2.1:构建初步的传统策略网络架构,策略网络π(a|s;θ)用于近似策略函数π,给出当前状态s下的动作a,通过策略梯度算法中梯度上升方式更新网络参数θ;

步骤2.2:对传统策略网络架构的策略梯度引入基准线进行改进,构建基准线为状态-价值函数Vπ(st)的低优势策略网络;

步骤2.3:构建价值网络V(s;w)架构,其中w为价值网络的神经网络参数;s表示战场状态;V为状态-价值函数,输入为战场状态s,输出为数值。价值网络V(s;w)用于近似状态-价值函数,其输出数值用于评判当前状态对于智能体的好坏程度,以改进策略网络,梯度下降方式更新网络参数w;

由于动作-价值函数Qπ是对回报Ut的期望,因此可用强化方法中观测到的折扣回报ut拟合Qπ,则可得到预测误差为:

δt=V(st;ω)-ut

得到梯度:

梯度下降更新状态-价值网络中参数ω,其中γ为学习率:

步骤2.4:构建经验回放池。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310612393.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top