[发明专利]基于强化学习的无人机对抗博弈训练控制方法在审
申请号: | 202110464589.0 | 申请日: | 2021-04-28 |
公开(公告)号: | CN113282100A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 俞扬;詹德川;周志华;郭天豪;管聪;庞竟成;罗凡明;张云天;袁雷;陈雄辉 | 申请(专利权)人: | 南京大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10;G06N20/20 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 无人机 对抗 博弈 训练 控制 方法 | ||
本申请公开了一种基于强化学习的无人机对抗博弈训练控制方法,包括如下步骤:使主智能体与对手池中所有对手对战并统计所述主智能体的胜率;判断所述主智能体的胜率是否满足预设要求;如果所述主智能体的胜率满足预设要求,则根据所述主智能体的胜率选择对抗对手;使主智能体与所述对抗对手训练直至所述主智能体策略收敛。本申请的有益之处在于。本申请的有益之处在于提供了一种行之有效的基于强化学习的无人机对抗博弈训练控制方法从而使主智能体具有更强学习能力。
技术领域
本申请涉及无人机控制领域,具体涉及一种基于强化学习的无人机对抗博弈训练控制方法。
背景技术
无人机作战在现代军事中占据重要的地位,无人机作战以其“零生命”风险、更强作战能力以及更能适应恶劣作战环境的优势,成为未来战争中不可或缺的一环,然而真实的无人机对抗训练代价较大,无人机容易损坏,训练成本高。为了解决真实环境中训练代价大的问题,近年来,基于对抗环境的无人机对抗引起关注并得到一定的发展。传统无人机模拟对抗主要是采用自动化控制的方法,人工建模,依赖相关领域专家制定对战策略。在复杂变化的环境下,存在大量对战规则中没有考虑到的情况,对战规则无法处理所有复杂的环境,能力较低,如何提升智能体的对抗能力意义巨大且得到广泛关注。
近年来随着深度学习在众多领域的广泛应用,深度强化学习算法在机器人控制、游戏等领域取得一系列的成果。强化学习应用在仅有一个基于规则的对手的对抗环境中,难以从零学习如何去击败对战能力中等的对手,原因在于随机策略与基于规则的对手水平相差巨大,即使通过多局对战,也难以学习到击败对手的策略,通过强化学习学到一个超越基于规则的对手更加困难。
因此在无人机控制领域,尚没有一种行之有效的对抗博弈训练控制方法。
发明内容
为了解决现有技术的不足之处,本申请提供了一种基于强化学习的无人机对抗博弈训练控制方法,包括如下步骤:
使主智能体与对手池中所有对手对战并统计所述主智能体的胜率;
判断所述主智能体的胜率是否满足预设要求;
如果所述主智能体的胜率满足预设要求,则根据所述主智能体的胜率选择对抗对手;
使主智能体与所述对抗对手训练直至所述主智能体策略收敛。
进一步地,所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤:
初始化所述主智能体利用者;
使所述主智能体作为所述主智能体利用者的对手进行对抗训练至所述主智能体利用者策略收敛。
进一步地,所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤:
将所述主智能体利用者加入对手池。
进一步地,所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤:
对所述主智能体策略加扰动因子。
进一步地,所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤:
将加扰动因子的策略加入对手池。
进一步地,所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤:
收集对抗数据;
模仿学习获得初始化策略;
构建对手池。
进一步地,所述基于强化学习的无人机对抗博弈训练控制方法还包括如下步骤:
初始化策略作为当前策略;
以当前策略与规则对对手进行对抗训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110464589.0/2.html,转载请声明来源钻瓜专利网。