[发明专利]一种基于深度强化学习的智能兵棋推演决策方法在审
| 申请号: | 202310612393.0 | 申请日: | 2023-05-26 |
| 公开(公告)号: | CN116596343A | 公开(公告)日: | 2023-08-15 |
| 发明(设计)人: | 费蓉;陈汭竹;李爱民;吴丽丽;马梦阳;王宏博 | 申请(专利权)人: | 西安理工大学 |
| 主分类号: | G06Q10/0637 | 分类号: | G06Q10/0637;G06Q10/063;G06F30/27;G06F18/241;G06N3/0464;G06N3/082;G06N3/092;G06N3/047 |
| 代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 张莹 |
| 地址: | 710048 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 智能 推演 决策 方法 | ||
1.一种基于深度强化学习的智能兵棋推演决策方法,其特征在于,包括以下步骤:
步骤1:构建兵棋推演环境中智能体的状态空间;
步骤2:构建适用于兵棋智能推演环境下低优势策略-价值网络架构;
步骤3:构建作战场景判断模型,作为环境奖励来源依据;
步骤4:在兵棋推演系统中搭建智能决策系统;
步骤5:对所述步骤1至4得到的智能体状态空间、低优势策略-价值网络架构、作战场景判断模型和智能决策系统所构成的深度神经网络进行训练,得到基于深度强化学习的智能兵棋推演决策模型;
步骤6:在所述智能兵棋推演决策模型中,对当前作战场景状态下的战术兵棋智能体作战决策进行求解。
2.根据权利要求1所述基于深度强化学习的智能兵棋推演决策方法,其特征在,所述步骤1中的具体按以下步骤实施:
步骤1.1:构建适用于兵棋推演环境中的战场态势实体分类模型;
所述实体分类模型基于卷积神经网络,结合战场态势图信息,将仿真数据划分为敌情,我情,战场环境三类;
步骤1.2:接收兵棋推演系统中仿真数据,输入至战场态势实体分类模型,得到模型分类结果;
步骤1.3:根据分类结果,构建包含地形矩阵,兵棋位置矩阵,上一步矩阵和是否为先手矩阵的n维战场态势信息矩阵。
3.根据权利要求1所述基于深度强化学习的智能兵棋推演决策方法,其特征在于,所述步骤2中的具体按以下步骤实施:
步骤2.1:构建初步的传统策略网络架构,策略网络π(a|s;θ)用于近似策略函数π,给出当前状态s下的动作a,通过策略梯度算法中梯度上升方式更新网络参数θ;
步骤2.2:对传统策略网络架构的策略梯度引入基准线进行改进,构建基准线为状态-价值函数Vπ(st)的低优势策略网络;
步骤2.3:构建价值网络V(s;w)架构,其中w为价值网络的神经网络参数;s表示战场状态;V为状态-价值函数,输入为战场状态s,输出为数值。价值网络V(s;w)用于近似状态-价值函数,其输出数值用于评判当前状态对于智能体的好坏程度,以改进策略网络,梯度下降方式更新网络参数w;
由于动作-价值函数Qπ是对回报Ut的期望,因此可用强化方法中观测到的折扣回报ut拟合Qπ,则可得到预测误差为:
δt=V(st;ω)-ut,
得到梯度:
梯度下降更新状态-价值网络中参数ω,其中γ为学习率:
步骤2.4:构建经验回放池。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310612393.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗水树电缆绝缘材料及其制备方法
- 下一篇:倾斜裁断装置
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





