[发明专利]智能体的协同对战方法及装置有效

申请号：	202111495010.3	申请日：	2021-12-09
公开（公告）号：	CN113893539B	公开（公告）日：	2022-03-25
发明（设计）人：	黄茗;王滨;原鑫;李波	申请（专利权）人：	中国电子科技集团公司第十五研究所
主分类号：	A63F13/52	分类号：	A63F13/52;G06K9/62;G06N3/08
代理公司：	北京秉文同创知识产权代理事务所(普通合伙) 11859	代理人：	赵星;陈少丽
地址：	100083 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	智能协同方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种智能体的协同对战方法、装置、终端设备和存储介质，通过确定智能体进行对战的虚拟空战场景；根据虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，根据状态值，确定与状态值对应的动作的奖励值；根据虚拟空战场景、动作空间信息、状态空间信息和奖励值，对初始强化学习模型进行训练，当初始强化学习模型处于收敛状态时，得到目标强化学习模型；采用目标强化学习模型与规则智能体进行对战，克服了目标奖励困难和不稳定的问题，多智能体的策略进行变化时，不会影响多智能体的强化学习。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种智能体的协同对战方法、装置、终端设备和存储介质。

背景技术

多个无人作战飞机在进行空战自主机动决策时，需要进行决策认知和协同配合。因为无人作战飞机的环境比较复杂，同时需要考虑飞机之间的协同，如何实现作战飞机的自主控制是一个研究重点。

传统的无人机控制依赖于专家知识，通过专家对环境的判断和经验构建规则，来应对不同的情况，但是这要求专家具备很高的经验知识，同时考虑所有的情况耗费大量的时间精力。随着人工智能技术的发展，深度学习不断应用到各个领域。强化学习是近年来比较受关注的一个研究方向，强化学习在智能机器人、游戏博弈、无人车等应用领域中取得了一系列的成果。

强化学习主要基于马尔科夫决策过程，根据当前的环境和状态选择执行动作后，通过计算回报的大小来判断所选动作的合理性。强化学习从过去的经验中不断学习来获取知识，从而不需要大量的标签数据，同时也可以减少对专家的依赖。强化学习最初应用于单智能体的场景，在单智能体的场景中，智能体所在的环境是稳定的。但是在多智能体的强化学习中，环境是复杂多变的，状态空间会随着智能体的增加呈指数级增长，可能出现维度爆炸的问题，计算复杂；同时存在目标奖励确定困难和不稳定性的问题，多智能体之间因为合作和任务不同会影响到奖励函数的定义，而且每个智能体策略发生变化时，其余智能体的策略也会发生变化，影响算法最终的收敛性。

发明内容

本发明意在提供一种智能体的协同对战方法、装置、终端设备和存储介质，以解决现有技术中存在的不足，本发明要解决的技术问题通过以下技术方案来实现。

第一个方面，本发明实施例提供一种智能体的协同对战方法，所述方法包括：

确定智能体进行对战的虚拟空战场景；

根据所述虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，其中，所述动作空间信息至少包括动作值，所述状态空间信息至少包括状态值；

根据所述状态值，确定与所述状态值对应的动作的奖励值；

根据所述虚拟空战场景、动作空间信息、状态空间信息和所述奖励值，对初始强化学习模型进行训练，当所述初始强化学习模型处于收敛状态时，得到目标强化学习模型；

采用所述目标强化学习模型与规则智能体进行对战。

可选地，所述动作空间信息至少包括：初始指令和动作指令，其中，所述初始指令至少包括初始化实体指令、航线巡逻指令、区域巡逻指令、机动参数调整指令、跟随指令和打击目标指令中的一种或多种，所述动作指令至少包括移动动作、攻击动作、躲避动作、区域巡逻动作和无动作中的一种或多种。

可选地，所述状态空间信息包括虚拟空战场景下的所有智能体的状态信息，以及各个智能体之间的关联关系，各个智能体的状态信息还包括是否存活和智能体类型，所述各个智能体之间的关联关系至少包括智能体之间的距离。

可选地，所述根据所述虚拟空战场景，确定一个或多个智能体的动作空间信息和状态空间信息，包括：

在所述虚拟空战场景内，设置每个智能体的局部观测信息为，全局观察空间为，；每个智能体的动作为；