[发明专利]一种基于强化学习和迁移学习的无人机自主飞行训练方法在审
申请号: | 202110441572.3 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113281999A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 俞扬;詹德川;周志华;黄军富;庞竟成;张云天;管聪;陈雄辉 | 申请(专利权)人: | 南京大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G06N3/04;G06N20/20 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 迁移 无人机 自主 飞行 训练 方法 | ||
1.一种基于强化学习和迁移学习的无人机自主飞行训练方法,其特征在于,包括如下步骤:
(1)创建无人机仿真模拟器环境;
(2)构建基于深度学习的环境转移模型fα,即“当前状态-当前动作”对到下一状态的映射,并随机初始化该映射;
(3)构建强化学习的A3C算法,并随机初始化其飞行策略πθ;
(4)构建基于深度学习的环境逆转移模型f'β,即“当前状态-下一状态”对到当前动作的映射,并随机初始化该映射;
(5)收集无人机操作员和飞行策略πθ在现实环境下操作无人机进行飞行得到的飞行数据,即连续的“状态-动作”对组成的轨迹数据;
(6)基于现实飞行数据,更新环境转移模型fα;(7)使用fα和f'β进行基于动作校正的迁移学习,校正飞行策略πθ,得到飞行策略π',并在模拟器执行π'得到模拟飞行数据;
(8)基于模拟飞行数据,使用A3C算法更新飞行策略πθ,同时更新环境逆转移模型f'β;
重复(5)-(8),直至策略πθ收敛;最终得到策略πθ作为的现实无人机的初始飞行策略。
2.根据权利要求1所述的基于强化学习和迁移学习的无人机自主飞行训练方法,其特征在于,基于空气动力学模型、无人机模型和无人可能机遇到飞行场景和飞行任务构建仿真模拟器,并使用Unreal4游戏引擎进行可视化;仿真模拟器中包括无人机、飞行场景和飞行任务,在仿真模拟器中,无人机在飞行过程中随着时间推移,自身的飞行状态会发生变化,模拟环境也会不断的产生各种障碍物;其过程用马尔可夫决策过程表示,用五元组<S,A,P,R,γ>表示,其中S为状态空间,A为动作空间,P为状态转移概率,R为从环境得到的单步奖赏,γ为累计奖赏的折扣因子。
3.根据权利要求1所述的基于强化学习和迁移学习的无人机自主飞行训练方法,其特征在于,使用无人机操作员和模拟器飞行策略πθ对无人机进行操控,收集现实环境中无人机的飞行数据,提取所有的三元组(s,a,s'),其中s为当前状态,a为当前动作,s'为下一状态,得到用于训练现实的环境的状态转移模型的数据集Dreal={(s1,a1,s2),(s2,a2,s3),...,(sn-1,an-1,sn)}。
4.根据权利要求1所述的基于强化学习和迁移学习的无人机自主飞行训练方法,其特征在于,以“当前状态-当前动作”对作为特征,下一状态作为标签,进行回归学习,训练现实环境的状态转移模型fα,通过最小化转移损失函数:更新转移模型的神经网络参数α。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110441572.3/1.html,转载请声明来源钻瓜专利网。