[发明专利]一种基于强化学习和迁移学习的无人机自主飞行训练方法在审

专利信息
申请号: 202110441572.3 申请日: 2021-04-23
公开(公告)号: CN113281999A 公开(公告)日: 2021-08-20
发明(设计)人: 俞扬;詹德川;周志华;黄军富;庞竟成;张云天;管聪;陈雄辉 申请(专利权)人: 南京大学
主分类号: G05B13/04 分类号: G05B13/04;G06N3/04;G06N20/20
代理公司: 南京乐羽知行专利代理事务所(普通合伙) 32326 代理人: 李玉平
地址: 210023 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 迁移 无人机 自主 飞行 训练 方法
【权利要求书】:

1.一种基于强化学习和迁移学习的无人机自主飞行训练方法,其特征在于,包括如下步骤:

(1)创建无人机仿真模拟器环境;

(2)构建基于深度学习的环境转移模型fα,即“当前状态-当前动作”对到下一状态的映射,并随机初始化该映射;

(3)构建强化学习的A3C算法,并随机初始化其飞行策略πθ

(4)构建基于深度学习的环境逆转移模型f'β,即“当前状态-下一状态”对到当前动作的映射,并随机初始化该映射;

(5)收集无人机操作员和飞行策略πθ在现实环境下操作无人机进行飞行得到的飞行数据,即连续的“状态-动作”对组成的轨迹数据;

(6)基于现实飞行数据,更新环境转移模型fα;(7)使用fα和f'β进行基于动作校正的迁移学习,校正飞行策略πθ,得到飞行策略π',并在模拟器执行π'得到模拟飞行数据;

(8)基于模拟飞行数据,使用A3C算法更新飞行策略πθ,同时更新环境逆转移模型f'β

重复(5)-(8),直至策略πθ收敛;最终得到策略πθ作为的现实无人机的初始飞行策略。

2.根据权利要求1所述的基于强化学习和迁移学习的无人机自主飞行训练方法,其特征在于,基于空气动力学模型、无人机模型和无人可能机遇到飞行场景和飞行任务构建仿真模拟器,并使用Unreal4游戏引擎进行可视化;仿真模拟器中包括无人机、飞行场景和飞行任务,在仿真模拟器中,无人机在飞行过程中随着时间推移,自身的飞行状态会发生变化,模拟环境也会不断的产生各种障碍物;其过程用马尔可夫决策过程表示,用五元组<S,A,P,R,γ>表示,其中S为状态空间,A为动作空间,P为状态转移概率,R为从环境得到的单步奖赏,γ为累计奖赏的折扣因子。

3.根据权利要求1所述的基于强化学习和迁移学习的无人机自主飞行训练方法,其特征在于,使用无人机操作员和模拟器飞行策略πθ对无人机进行操控,收集现实环境中无人机的飞行数据,提取所有的三元组(s,a,s'),其中s为当前状态,a为当前动作,s'为下一状态,得到用于训练现实的环境的状态转移模型的数据集Dreal={(s1,a1,s2),(s2,a2,s3),...,(sn-1,an-1,sn)}。

4.根据权利要求1所述的基于强化学习和迁移学习的无人机自主飞行训练方法,其特征在于,以“当前状态-当前动作”对作为特征,下一状态作为标签,进行回归学习,训练现实环境的状态转移模型fα,通过最小化转移损失函数:更新转移模型的神经网络参数α。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110441572.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top