[发明专利]一种基于强化学习与网络模型蒸馏的无人机飞行控制方法有效
申请号: | 202110442229.0 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113110550B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 俞扬;詹德川;周志华;刘亚文;管聪;秦熔均;庞竟成;张云天 | 申请(专利权)人: | 南京大学 |
主分类号: | G05D1/08 | 分类号: | G05D1/08;G05D1/10 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 网络 模型 蒸馏 无人机 飞行 控制 方法 | ||
本发明公开一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,构建无人机环境模拟器;基于强化学习算法,在不同场景中进行大规模训练,得到最优控制策略,以此构建无人机飞行控制系统;基于网络模型蒸馏技术,通过教师网络和学生网络计算辅助控制信息,量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应能力,以此构建无人机辅助控制系统。本发明基于强化学习算法,通过在模拟器中大规模训练,使无人机自主学习控制策略,构建无人机控制系统;基于网络模型蒸馏技术,通过量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应程度,以此规避陌生场景,减少安全风险。
技术领域
本发明涉及一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,属于无人机飞行控制技术领域。
背景技术
随着科技进步及无人机技术水平的提升,无人机在日常生活中越发重要,广泛应用于日常运输、灾难救援、军事科技等领域。目前,传统的基于规则的控制方法,一般根据无人机当前的观测信息和无人机的自身状态,基于人为构造的规则做出判断,采取相应的动作。基于规则的控制方法可以快速部署,在简单稳定的环境中(如日常运输等)稳定运行;但是在复杂多变的场景中(如灾难救援、军事科技等),人为构造的规则无法覆盖所有可能出现的场景,无人机无法对规则未覆盖的场景做出正确判断,导致无法完成相应任务。
近年来深度强化学习技术取得了极大的进步,深度强化学习不同于传统的监督学习或者非监督学习,其以获取最大的累计奖励为目标,以试错的方式与环境进行大量的交互,最终可以学到最优或者接近最优的策略。目前深度强化学习在游戏、围棋、无人驾驶、电商推荐系统等领域都取得了较广泛的应用。然而强化学习策略在实际应用中,存在一定的安全隐患。由强化学习训练得到的无人机飞行策略,无法在与模拟器差异较大的场景中稳定工作,甚至可能导致安全事故。一些基于元学习的方法,可以将一个场景中训练的策略迁移到另一个类似场景中,可以一定程度提升策略的泛化性,但是仍然无法解决潜在的安全隐患。
发明内容
发明目的:为了解决基于规则控制方法的缺陷以及强化学习应用过程中的潜在风险,本发明提供一种基于强化学习与网络模型蒸馏的无人机飞行控制方法。本发明基于强化学习算法,通过模拟器中大规模训练,无人机能够自主学习最优的控制策略,适应更加复杂的场景;基于网络模型蒸馏技术,通过量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应程度,以此规避适应程度低的陌生场景,降低安全风险。
技术方案:一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,包含以下步骤:
(1)模拟真实无人机的观测及飞行控制,构建无人机环境模拟器;(2)基于强化学习算法,在不同场景中进行训练,得到最优控制策略,以此构建无人机飞行控制系统;(3)基于网络模型蒸馏技术,通过教师网络和学生网络计算辅助控制信息,量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应能力,以此构建无人机辅助控制系统。
所述步骤(2)基于强化学习算法,构建无人机飞行控制系统。基于强化学习算法,设计神经网络结构,定义相关网络损失函数,并设置强化学习算法超参数。使用强化学习策略控制无人机,在多个场景中进行训练,无人机自主学得在不同场景下的最优策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110442229.0/2.html,转载请声明来源钻瓜专利网。