[发明专利]一种用于连续空间兵棋推演的多智能体决策方法在审
| 申请号: | 202111063370.6 | 申请日: | 2021-09-10 |
| 公开(公告)号: | CN113723013A | 公开(公告)日: | 2021-11-30 |
| 发明(设计)人: | 黄魁华;程光权;黄金才;成清;付阳辉;黄亭飞;梁星星 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/04;G06N3/08 |
| 代理公司: | 长沙大珂知识产权代理事务所(普通合伙) 43236 | 代理人: | 伍志祥 |
| 地址: | 410073 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 连续 空间 推演 智能 决策 方法 | ||
1.一种用于连续空间兵棋推演的多智能体决策方法,其特征在于,包括以下步骤:
步骤1,构建连续空间的兵棋推演场景,得到用于兵棋推演的战场环境数据,多智能体进行初始化;
步骤2,构建经验重访数据集,所述的经验重访数据集Dt={e1,e2,...,et}存储了多智能体在每一个时间步的经验et=(st,at,rt,st+1),包含当前的状态st,采取的动作at,当前步转移获得的奖赏rt以及下一个时间步的状态st+1;构建目标函数,所述目标函数为:
其中,Q为Q值,即目标函数,α为学习率,γ为奖励性衰变系数;
步骤3,多个智能体进行本地观测;
步骤4,基于CNN提取推演多智能体的多实体特征;
步骤5,所述的多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入,利用基于课程学习奖赏的Q学习训练多智能体;
步骤6,利用训练完成的多智能体进行对战决策;
所述步骤5中,所述课程学习奖赏是探索奖赏和竞争奖赏相结合的课程学习奖赏方法;所述探索奖赏是指在训练的起始阶段,多智能体学习基本的动作使用的密集私有奖赏,探索奖赏随着仿真训练的推进逐渐趋向于零;所述竞争奖赏是指稀疏全局奖赏,是仿真结果的胜负奖赏。
2.根据权利要求步骤1所述的用于连续空间兵棋推演的多智能体决策方法,其特征在于,所述步骤1中构建连续空间的兵棋推演场景,即将连续空间兵棋推演场景形式化的定义为分布式局部观测MDP过程,具体表示为如下七元组(I,S,{Ai},{Zi},T,R,O);其中,I表示有限的智能体的集合;S表示状态集;{Ai}表示智能体i的动作集;{Zi}表示智能体i的观测集;T表示所有智能体的联合状态T(s'|s,{a1,...,an})转移,s'∈S,s∈S,a1,...,an∈{Ai};R表示全局动作奖赏;O表示单个智能体的观测模型。
3.根据权利要求1所述的用于连续空间兵棋推演的多智能体决策方法,其特征在于,所述步骤4中基于CNN提取推演多智能体的多实体特征的方法为:用一个1×n的横向卷积核,对单实体的信息压缩成为一个值,通过输出多个通道,将实体信息压缩为多个值;之后通过m×1的纵向卷积核对多个实体的信息进行融合压缩。
4.根据权利要求1所述的用于连续空间兵棋推演的多智能体决策方法,其特征在于,所述步骤5中探索奖赏和竞争奖赏相结合的课程学习奖赏方法通过线性退火因子μ来实现;在仿真时刻t,获得的探索奖赏为竞争奖赏为该仿真片段的总步长为T,T即时刻,表示该次仿真结束,获得胜负结果,则获得的奖赏值为:
μt:1→0,t:0→T
线性退火因子μt随着仿真时间推进不断降低,逐渐趋近于零。
5.根据权利要求1所述的用于连续空间兵棋推演的多智能体决策方法,其特征在于,采用值分解网络的思想,分别输出每个智能体的动作;在多智能体的输入端,通过通信的方式,将各个智能体的观测进行融合;同时各个智能体的本地观测作为一部分输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111063370.6/1.html,转载请声明来源钻瓜专利网。





