[发明专利]面向多要素联合指控的分层多智能体增强学习方法在审

申请号：	202111530472.4	申请日：	2021-12-14
公开（公告）号：	CN114330651A	公开（公告）日：	2022-04-12
发明（设计）人：	路鹰;郑本昌;惠俊鹏;黄虎;李君;张佳;任金磊;阎岩;王振亚;范佳宣;李丝然;何昳頔;李博遥;吴志壕;刘峰;范中行;张旭辉;陈海鹏;赵大海;韩特;矫慧;古月;郭晶	申请（专利权）人：	中国运载火箭技术研究院
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	中国航天科技专利中心 11009	代理人：	范晓毅
地址：	100076 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向要素联合指控分层智能增强学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种面向多要素联合指控的分层多智能体增强学习方法，针对强化学习的状态空间、动作空间和奖励机制进行建模，在多智能体环境下分别进行研究和设计，将Actor‑Critic网络的思想融入多智能体环境之中，形成顶层制定规划，底层执行的智能决策框架，并在模型中使用多层次的结构分别学习不同层次的策略来提高模型解决复杂问题的能力，实现了底层的并行训练，进而实现了智能体的自主行动规划。

技术领域

本发明属于军事对抗领域技术领域，具体涉及一种面向多要素联合指控的分层多智能体增强学习方法。

背景技术

在军事对抗领域，对各兵种单元能力认知，既包括个体单元能力认知，更重要的是对组合兵力单元的能力认知。这种能力认知是作战策略制定与进行任务分配的前提，对于提升战斗力具有重要意义。

随着人工智能的快速发展，AI从节约人力和时间、提高推演效率、支撑复杂推演提升到了打造指挥对抗领域的智能蓝军和辅助参谋的高度。所谓智能蓝军，就是让系统充当既定假想“蓝军”“绿军”参加演习。通过对有限样本数据的不断深度学习、强化学习，使得对手变得更加专业、更像假想蓝军，从而实现局部乃至全局的人机对抗。所谓辅助参谋，就是计算机系统充当隐藏于幕后的我方部分指挥力量、参谋力量，实现识别态势、发布计划、自主决策、监控行动、调整任务等功能，为我方指挥提供实时精准参谋。强化学习作为近几年崛起的深度学习中不同于有无监督学习的新兴技术，在实践中主要存在三个难点：奖励函数的设置由于只能依赖开发者对游戏局势的判断和游戏规则的分析，因此在复杂场景下十分困难；由于环境的复杂和智能体状态空间的维度一般都较大，因此实际训练中智能体只能从少量的行为中能够获取奖励；对于大规模强化学习问题，网络会十分不稳定，导致结果难以重现。

发明内容

本发明的目的在于克服上述缺陷，提供一种面向多要素联合指控的分层多智能体增强学习方法，针对强化学习的状态空间、动作空间和奖励机制进行建模，在多智能体环境下分别进行研究和设计，将Actor-Critic网络的思想融入多智能体环境之中，形成顶层制定规划，底层执行的智能决策框架，并在模型中使用多层次的结构分别学习不同层次的策略来提高模型解决复杂问题的能力，实现了底层的并行训练，进而实现了智能体的自主行动规划。

为实现上述发明目的，本发明提供如下技术方案：

一种面向多要素联合指控的分层多智能体增强学习方法，包括以下步骤：

S1预设智能体推演环境；

S2针对智能体推演环境，建立以状态为输入，以动作为输出的智能体强化学习模型，并利用奖励机制对智能体强化学习模型进行训练，得到智能体强化学习模型的最佳策略；

所述智能体强化学习模型采用Actor-Critic网络架构，包括一个判别层和与各智能体一一对应的决策层，所述各决策层用于根据智能体当前局部观察所得状态预测智能体的动作，并输出至智能体推演环境，得到新的总体状态并输注至判别层，判别层根据当前总体状态、新的总体状态及奖励机制对决策层进行反馈，更新决策层策略。

进一步的，所述步骤S2中，输入智能体强化学习模型的状态空间包括智能体当前夺控点得分，智能体所处的地形类型，智能体观察模式，或剩余弹药数中的一种或一种以上；

状态空间中的状态类型及各状态区间采用缺省验证的方式进行优化。

进一步的，所述步骤S2中，智能体强化学习模型的动作空间包括移动，射击等简单动作中的一种或一种以上；动作空间采用离散动作或归一化后的连续动作，所述连续动作归一化的方法为将连续动作映射到[-1，1]之间；

当动作空间采用归一化后的连续动作空间时，步骤S2中Actor-Critic网络的判别层中设有与归一化后的连续动作空间相对应的激活函数。

进一步的，所述步骤S2中，智能体强化学习模型输出的各动作抽象为带参数的函数形式：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国运载火箭技术研究院，未经中国运载火箭技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111530472.4/2.html，转载请声明来源钻瓜专利网。