[发明专利]一种用于连续空间兵棋推演的多智能体决策方法在审
| 申请号: | 202111063370.6 | 申请日: | 2021-09-10 |
| 公开(公告)号: | CN113723013A | 公开(公告)日: | 2021-11-30 |
| 发明(设计)人: | 黄魁华;程光权;黄金才;成清;付阳辉;黄亭飞;梁星星 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/04;G06N3/08 |
| 代理公司: | 长沙大珂知识产权代理事务所(普通合伙) 43236 | 代理人: | 伍志祥 |
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 连续 空间 推演 智能 决策 方法 | ||
本发明公开一种用于连续空间兵棋推演的多智能体决策方法,包括以下步骤:构建连续空间兵棋推演场景,得到用于兵棋推演的战场环境数据,多智能体进行初始化;构建经验重访数据集;多个智能体进行本地观测;基于CNN提取推演多智能体的多实体特征;多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入,利用基于课程学习奖赏的Q学习训练多智能体;利用训练完成的多智能体进行对战决策;该发明中基于CNN的多实体特征提取方法收敛速度超过了基于全连接网络的特征提取方法;基于探索奖赏和竞争奖赏相结合的课程学习奖赏方法,克服了稀疏奖赏对动作指导不足、收敛慢的问题,使得多智能体的决策效率更高,决策方案更贴合对战实际。
技术领域
本发明属于智能决策领域,具体涉及一种用于连续空间兵棋推演的多智能体决策方法。
背景技术
在早期的兵棋推演领域中,多采用网格化的离散数据特征对当前的局势进行判断。但随着技术的进步,越来越多的连续化状态空间的兵棋推演平台被推出。这类平台相较于之前的平面化兵棋推演平台,将整个推演环境从二维拓展到了空间三维领域,对推演单元的状态描述从离散的网格发展到连续的三维空间,推演更加真实。兵棋推演平台的发展,相应的也带来了学习训练的难度,包含状态空间爆炸,动作连续、长时奖励的影响,多智能体的合作与对抗等。在这类平台中,基于全连接(Full Connect,FC)网络的特征提取方式处理上述问题时,收敛较慢。同时仅使用稀疏的竞争奖励无法对智能体进行有效的训练。
发明内容
本发明的目的是,提供一种用于连续空间兵棋推演的多智能体决策方法,该方法采用基于卷积神经网络(CNN)的特征提取方法,优于基于全连接(Full Connect,FC)的特征提取方法,收敛速度更快;该方法利用探索奖赏和竞争奖赏相结合的课程学习奖赏塑造Q学习算法,收敛速度更快,对智能体动作的指导性更强,使得多智能体在连续空间兵棋推演中的决策效率更高,决策方案更贴合对战实际。。
本发明采用值分解网络的思想,分别输出每个智能体的动作。在智能体的输入端,通过通信的方式,将各个智能体的观测进行融合,同时多智能体的本地观测也作为一部分输入。在训练阶段,将包含了联合动作奖赏的竞争奖赏传给智能体,还将单个智能体的私有探索奖赏同样进行回传,保证了多智能体对基本动作的学习。
本发明的技术方案是:一种用于连续空间兵棋推演的多智能体决策方法,其特征在于,包括以下步骤:
步骤1,构建连续空间的兵棋推演场景,得到用于兵棋推演的战场环境数据,多智能体进行初始化;
步骤2,构建经验重访数据集,所述的经验重访数据集Dt={e1,e2,...,et}存储了多智能体在每一个时间步的经验et=(st,at,rt,st+1),包含当前的状态st,采取的动作at,当前转移获得的奖赏rt以及下一个时间步的状态st+1;构建目标函数,所述目标函数为:
其中,Q为Q值,即目标函数,α为学习率,γ为奖励性衰变系数;
步骤3,多个智能体进行本地观测;
步骤4,基于CNN提取推演多智能体的多实体特征;
步骤5,所述的多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入,利用基于课程学习奖赏的Q学习训练多智能体;
步骤6,利用训练完成的多智能体进行对战决策;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111063370.6/2.html,转载请声明来源钻瓜专利网。





