[发明专利]一种基于集群影响度的战场博弈策略强化学习训练方法在审
| 申请号: | 202110877724.4 | 申请日: | 2021-08-01 |
| 公开(公告)号: | CN113705828A | 公开(公告)日: | 2021-11-26 |
| 发明(设计)人: | 侯松林;蒋煜;胡昊;汪亮;陶先平 | 申请(专利权)人: | 南京大学 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/04;G06N3/08;A63F3/02 |
| 代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 金子娟 |
| 地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 集群 影响 战场 博弈 策略 强化 学习 训练 方法 | ||
本发明提供的一种基于集群影响度的战场博弈策略强化学习训练方法,通过集群影响度的分析结果并结合强化学习技术,可以有效克服开放战场环境具有的作战单位数目大、战争迷雾等挑战,并通过采用强化学习进行交叉训练保证决策模型可以不断提高自身决策水平,有效应对开放战场环境学习困难的问题,有助于军事战场中的人机协同决策等情况,可广泛应用于局域作战、反恐等领域的决策问题。
技术领域
本发明属于机器人学习技术领域,涉及智能博弈和军事决策技术,具体为一种基于集群影响度的战场博弈策略强化学习训练方法。
背景技术
近年来,随着深度学习在计算机视觉和自然语言处理等领域取得显著成绩,越来越多的研究者将深度学习和强化学习结合,形成深度强化学习,并在诸多决策领域取得了令人瞩目的成绩,例如DeepMind团队开发的AlphaGo就曾击败了人类顶尖围棋选手。博弈对抗战场环境通常具有作战单位数目大、战争迷雾、对抗性强和决策空间大等特点,这些特点使得开放战场决策难度高,而深度强化学习在围棋、游戏等领域取得的成功,使得基于强化学习的训练开放战场环境下的智能博弈策略成为了当前研究领域的热点。
发明内容
本发明的目的在于克服博弈对抗战场环境具有的挑战,提供一种基于集群影响度的战场博弈策略强化学习训练方法,依据集群影响度分析结果,采用强化学习训练智能博弈策略,在复杂的博弈对抗战场环境中做出及时、精准、有效的决策指令。
本发明提出的技术方案为:
一种基于集群影响度的战场博弈策略强化学习训练方法,其特征在于,包括:
步骤1)构建以神经网络为基础的强化学习策略模型,作为敌方策略模型和我方策略模型,并分别设置敌我双方策略模型的初始化参数;
步骤2)设一个战场空间单元内属于同一阵营的所有作战单位为一个集群,按照当前战场的战场空间单元的划分,以及当前战场中我方和敌方的所有作战单位的分布,对我方和敌方分别构建多个集群;
对于每个集群,根据其包含的各作战单位的作战能力建立该集群对整个战场胜负影响的集群影响度;
步骤3)结合我方观察范围内的敌方集群的影响度与我方各作战单位的信息,形成当前我方策略模型强化学习的输入状态,完成状态到动作的映射;
步骤4)根据下一时刻的集群影响度的分析结果计算集群压制奖赏,结合战损奖赏得到我方策略模型的总即时奖赏,并将“状态-动作-奖赏”元组加入训练样本集;
步骤5)战场博弈对局结束后,根据博弈对抗得到的训练样本计算我方策略模型强化学习的损失函数,并通过梯度下降方法更新优化我方策略模型;
步骤6)在预设的最大交替训练次数范围内,每隔一定轮数对当前训练的我方策略模型测试其胜率,当我方策略模型满足阶段训练目标后,冻结其学习参数;
步骤7)将当前待训练的敌方策略模型转换为我方策略模型,将步骤6)中冻结学习参数的我方策略模型作为对手,进行敌我双方的身份转换,重复执行步骤2)至步骤6)的训练过程,得到优化的敌我双方战场博弈策略模型。
在上述方案的基础上,进一步改进或优选的方案还包括:
进一步的,所述步骤2)具体包括:
将宏观的战场空间按照长为lcell,宽为wcell的矩形进行分割,形成战场空间单元集C,为实现以集群为核心的战场态势表示,依据作战单位u与各集群中心点的距离确定作战单位所属集群Ci,具体公式如下:
设集群的影响度是由集群中的每个个体作战单位的影响度决定,计算每个作战单位的影响度,作战单位的影响度计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110877724.4/2.html,转载请声明来源钻瓜专利网。





