[发明专利]一种基于强化学习和迁移学习的无人机自主飞行训练方法在审

申请号：	202110441572.3	申请日：	2021-04-23
公开（公告）号：	CN113281999A	公开（公告）日：	2021-08-20
发明（设计）人：	俞扬;詹德川;周志华;黄军富;庞竟成;张云天;管聪;陈雄辉	申请（专利权）人：	南京大学
主分类号：	G05B13/04	分类号：	G05B13/04;G06N3/04;G06N20/20
代理公司：	南京乐羽知行专利代理事务所(普通合伙) 32326	代理人：	李玉平
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习迁移无人机自主飞行训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习和迁移学习的无人机自主飞行训练方法，其特征在于，包括如下步骤：

(1)创建无人机仿真模拟器环境；

(2)构建基于深度学习的环境转移模型f_α，即“当前状态-当前动作”对到下一状态的映射，并随机初始化该映射；

(3)构建强化学习的A3C算法，并随机初始化其飞行策略π_θ；

(4)构建基于深度学习的环境逆转移模型f'_β，即“当前状态-下一状态”对到当前动作的映射，并随机初始化该映射；

(5)收集无人机操作员和飞行策略π_θ在现实环境下操作无人机进行飞行得到的飞行数据，即连续的“状态-动作”对组成的轨迹数据；

(6)基于现实飞行数据，更新环境转移模型f_α；(7)使用f_α和f'_β进行基于动作校正的迁移学习，校正飞行策略π_θ，得到飞行策略π'，并在模拟器执行π'得到模拟飞行数据；

(8)基于模拟飞行数据，使用A3C算法更新飞行策略π_θ，同时更新环境逆转移模型f'_β；

重复(5)-(8)，直至策略π_θ收敛；最终得到策略π_θ作为的现实无人机的初始飞行策略。

2.根据权利要求1所述的基于强化学习和迁移学习的无人机自主飞行训练方法，其特征在于，基于空气动力学模型、无人机模型和无人可能机遇到飞行场景和飞行任务构建仿真模拟器，并使用Unreal4游戏引擎进行可视化；仿真模拟器中包括无人机、飞行场景和飞行任务，在仿真模拟器中，无人机在飞行过程中随着时间推移，自身的飞行状态会发生变化，模拟环境也会不断的产生各种障碍物；其过程用马尔可夫决策过程表示，用五元组＜S,A,P,R,γ＞表示，其中S为状态空间，A为动作空间，P为状态转移概率，R为从环境得到的单步奖赏，γ为累计奖赏的折扣因子。

3.根据权利要求1所述的基于强化学习和迁移学习的无人机自主飞行训练方法，其特征在于，使用无人机操作员和模拟器飞行策略π_θ对无人机进行操控，收集现实环境中无人机的飞行数据，提取所有的三元组(s,a,s')，其中s为当前状态，a为当前动作，s'为下一状态，得到用于训练现实的环境的状态转移模型的数据集D_real＝{(s₁,a₁,s₂),(s₂,a₂,s₃),...,(s_n-1,a_n-1,s_n)}。

4.根据权利要求1所述的基于强化学习和迁移学习的无人机自主飞行训练方法，其特征在于，以“当前状态-当前动作”对作为特征，下一状态作为标签，进行回归学习，训练现实环境的状态转移模型f_α，通过最小化转移损失函数：更新转移模型的神经网络参数α。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110441572.3/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习和迁移学习的无人机自主飞行训练方法在审

专利文献下载