[发明专利]一种用于连续空间兵棋推演的多智能体决策方法在审

申请号：	202111063370.6	申请日：	2021-09-10
公开（公告）号：	CN113723013A	公开（公告）日：	2021-11-30
发明（设计）人：	黄魁华;程光权;黄金才;成清;付阳辉;黄亭飞;梁星星	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06F30/27	分类号：	G06F30/27;G06N3/04;G06N3/08
代理公司：	长沙大珂知识产权代理事务所(普通合伙) 43236	代理人：	伍志祥
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于连续空间推演智能决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种用于连续空间兵棋推演的多智能体决策方法，包括以下步骤：构建连续空间兵棋推演场景，得到用于兵棋推演的战场环境数据，多智能体进行初始化；构建经验重访数据集；多个智能体进行本地观测；基于CNN提取推演多智能体的多实体特征；多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入，利用基于课程学习奖赏的Q学习训练多智能体；利用训练完成的多智能体进行对战决策；该发明中基于CNN的多实体特征提取方法收敛速度超过了基于全连接网络的特征提取方法；基于探索奖赏和竞争奖赏相结合的课程学习奖赏方法，克服了稀疏奖赏对动作指导不足、收敛慢的问题，使得多智能体的决策效率更高，决策方案更贴合对战实际。

技术领域

本发明属于智能决策领域，具体涉及一种用于连续空间兵棋推演的多智能体决策方法。

背景技术

在早期的兵棋推演领域中，多采用网格化的离散数据特征对当前的局势进行判断。但随着技术的进步，越来越多的连续化状态空间的兵棋推演平台被推出。这类平台相较于之前的平面化兵棋推演平台，将整个推演环境从二维拓展到了空间三维领域，对推演单元的状态描述从离散的网格发展到连续的三维空间，推演更加真实。兵棋推演平台的发展，相应的也带来了学习训练的难度，包含状态空间爆炸，动作连续、长时奖励的影响，多智能体的合作与对抗等。在这类平台中，基于全连接(Full Connect，FC)网络的特征提取方式处理上述问题时，收敛较慢。同时仅使用稀疏的竞争奖励无法对智能体进行有效的训练。

发明内容

本发明的目的是，提供一种用于连续空间兵棋推演的多智能体决策方法，该方法采用基于卷积神经网络(CNN)的特征提取方法，优于基于全连接(Full Connect，FC)的特征提取方法，收敛速度更快；该方法利用探索奖赏和竞争奖赏相结合的课程学习奖赏塑造Q学习算法，收敛速度更快，对智能体动作的指导性更强，使得多智能体在连续空间兵棋推演中的决策效率更高，决策方案更贴合对战实际。。

本发明采用值分解网络的思想，分别输出每个智能体的动作。在智能体的输入端，通过通信的方式，将各个智能体的观测进行融合，同时多智能体的本地观测也作为一部分输入。在训练阶段，将包含了联合动作奖赏的竞争奖赏传给智能体，还将单个智能体的私有探索奖赏同样进行回传，保证了多智能体对基本动作的学习。

本发明的技术方案是：一种用于连续空间兵棋推演的多智能体决策方法，其特征在于，包括以下步骤：

步骤1，构建连续空间的兵棋推演场景，得到用于兵棋推演的战场环境数据，多智能体进行初始化；

步骤2，构建经验重访数据集，所述的经验重访数据集D_t＝{e₁,e₂,...,e_t}存储了多智能体在每一个时间步的经验e_t＝(s_t,a_t,r_t,s_t+1)，包含当前的状态s_t，采取的动作a_t，当前转移获得的奖赏r_t以及下一个时间步的状态s_t+1；构建目标函数，所述目标函数为：