[发明专利]一种基于强化学习与网络模型蒸馏的无人机飞行控制方法有效
申请号: | 202110442229.0 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113110550B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 俞扬;詹德川;周志华;刘亚文;管聪;秦熔均;庞竟成;张云天 | 申请(专利权)人: | 南京大学 |
主分类号: | G05D1/08 | 分类号: | G05D1/08;G05D1/10 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 网络 模型 蒸馏 无人机 飞行 控制 方法 | ||
1.一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,其特征在于,包含以下步骤:
(1)模拟真实无人机的观测及飞行控制,构建无人机环境模拟器;
(2)基于强化学习算法,在不同场景中进行训练,得到最优控制策略,以此构建无人机飞行控制系统;
(3)基于网络模型蒸馏技术,通过教师网络和学生网络计算辅助控制信息,量化当前场景与训练场景的差异,构建无人机辅助控制系统;
所述步骤(3)基于网络模型蒸馏技术,构建无人机辅助控制系统,通过量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应程度;构建教师网络和学生网络,将无人机状态S输入两个网络,获取其输出值VT、VS;模型蒸馏阶段,通过均方误差损失函数Lmse(θ)=E[(VT-VS)2],随机更新学生网络中的一半参数,使得学生网络逐渐学到教师网络蒸馏出的知识;应用阶段中,将|VT-VS|作为辅助控制信息,用于量化当前场景与训练场景的差异,展示控制策略对当前场景的适应能力。
2.根据权利要求1所述的基于强化学习与网络模型蒸馏的无人机飞行控制方法,其特征在于,所述步骤(2)基于强化学习算法,构建无人机飞行控制系统;基于强化学习算法,设计神经网络结构,定义相关网络损失函数,并设置强化学习算法超参数;使用强化学习策略控制无人机,在多个场景中进行训练,无人机自主学得在不同场景下的最优策略。
3.根据权利要求1所述的基于强化学习与网络模型蒸馏的无人机飞行控制方法,其特征在于,所述辅助控制信息|VT-VS|值小于阈值说明控制策略对当前场景适应能力强;辅助控制信息|VT-VS|值大于阈值说明当前场景与训练场景差异大,控制策略对当前场景适应能力差,应该停止使用强化学习策略,以此规避安全风险。
4.根据权利要求1所述的基于强化学习与网络模型蒸馏的无人机飞行控制方法,其特征在于,所述教师网络和学生网络的模型结构应相同或相似,以使其学习能力相近;所述教师网络和学生网络的模型结构应相同或相似指的是两个网络的模型结构应相同或相似,即网络层数相差不超过一层、相同层的参数数量相差不超过16个。
5.根据权利要求1所述的基于强化学习与网络模型蒸馏的无人机飞行控制方法,其特征在于,所述步骤(1)在物理引擎中,模拟真实世界的实体和场景,无人机环境模拟器包括无人机、无人机起点、无人机终点、空中障碍物和敌机;基于模拟器中的摄像头、雷达传感器模拟真实无人机的观测状态;基于真实无人机的飞行操作设置无人机的动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110442229.0/1.html,转载请声明来源钻瓜专利网。