[发明专利]一种无人机强化学习训练系统的实现方法在审
申请号: | 202210336281.2 | 申请日: | 2022-04-01 |
公开(公告)号: | CN114415737A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 李光;李延波;张建军;俞光日 | 申请(专利权)人: | 天津七一二通信广播股份有限公司 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 天津企兴智财知识产权代理有限公司 12226 | 代理人: | 薛萌萌 |
地址: | 300462 天津市*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无人机 强化 学习 训练 系统 实现 方法 | ||
1.一种无人机强化学习训练系统,其特征在于:包括系统控制模块、无人机仿真训练模块、X-Plane Gym模块、强化学习算法模块和数据存储模块;
系统控制模块从强化学习算法模块获得无人机的控制参数,并将获得的控制参数通过X-Plane Gym模块提供的GYM标准接口发送给X-Plane Gym模块;X-Plane Gym模块将收到的控制参数转化为X-Plane仿真环境可识别动作,所述可识别动作包括升级杆、副翼杆、方向舵、油门、起落架、襟翼的控制动作,然后通过XPC接口发送给X-Plane仿真环境;X-Plane仿真环境按照接收到的升级杆、副翼杆、方向舵、油门、起落架、襟翼的控制动作完成无人机飞行控制,并将执行完上述动作后无人机的状态通过XPC接口反馈给X-Plane Gym模块;X-Plane Gym模块根据收到的无人机状态信息,计算出当前动作的奖励,并通过GYM标准接口将状态与奖励信息发送给系统控制模块;系统控制模块将收到的状态与奖励信息保存到数据存储模块;数据存储模块收到状态与奖励信息后完成数据的收集与存储;
整个系统在系统控制模块的控制下重复从强化学习算法模块获得无人机的控制参数,并通过X-Plane Gym模块将控制参数发送给X-Plane仿真环境,X-Plane仿真环境执行完动作后将无人机的状态反馈给X-Plane Gym模块,X-Plane Gym模块根据状态信息计算出奖励后,将状态与奖励信息发给系统控制模块,系统控制模块将状态与奖励信息保存到数据存储模块的过程,当数据存储模块中的数据积累到可以训练强化学习算法模块需要的批量数据后,系统控制模块从数据存储模块批量抽取数据,然后用抽取的数据训练强化学习算法模块中的算法。
2.根据权利要求1所述的一种无人机强化学习训练系统,其特征在于:无人机仿真训练模块包括基于X-Plane软件的无人机仿真训练模块;
通过X-Plane软件提供的二次开发接口,将强化学习算法输出飞机的连续动作向量,转化为飞机的状态向量。
3.根据权利要求1所述的一种无人机强化学习训练系统,其特征在于:通过X-PlaneGym模块的通信接口完成系统控制模块与X-Plane软件的信息交互,通信接口在工作时包括以下操作:网络端口配置、控制和获取飞机动作、获取和设置飞机状态。
4.根据权利要求3所述的一种无人机强化学习训练系统,其特征在于:X-Plane Gym模块结合OpenAI Gym的二次开发接口,实现对无人机仿真环境的环境复位、获取状态、关闭环境操作。
5.根据权利要求3所述的一种无人机强化学习训练系统,其特征在于:X-Plane Gym模块根据不同的任务设计奖励函数,通过奖励函数完成对无人机执行动作的评价。
6.根据权利要求3所述的一种无人机强化学习训练系统,其特征在于:X-Plane Gym模块实现动作、状态参数向量的归一化;
强化学习算法模块从X-Plane Gym模块中获取当前动作下的状态空间向量,X-PlaneGym模块直接从X-Plane的仿真环境中获取的飞机原始的状态信息,包括飞机的经度、纬度、高度、俯仰角、横滚角、油门、海拔高度信息。
7. 根据权利要求6所述的一种无人机强化学习训练系统,其特征在于:针对飞机的经度、纬度、高度、俯仰角、横滚角、油门、海拔高度信息,在X-Plane Gym模块中对输出给强化学习算法的状态信息进行归一化处理。
8.根据权利要求2所述的一种无人机强化学习训练系统,其特征在于:飞机的连续动作向量为6维向量,包括升级杆、副翼杆、方向舵、油门、起落架、襟翼。
9.一种无人机强化学习训练系统的实现方法,应用权利要求1-8任一所述的一种无人机强化学习训练系统,其特征在于,包括以下步骤:
步骤A:通过系统控制模块调用强化学习算法模块中的强化学习算法,生成控制飞机的动作;
步骤B:通过系统控制模块通过调用X-Plane Gym模块的step函数将动作发送给X-Plane软件;
步骤C:通过X-Plane软件执行步骤A中生成的生成控制飞机的动作,并仿真出飞机下一时刻的状态;
步骤D:通过X-Plane Gym模块从X-Plane软件获取飞机状态,通过奖励函数计算出动作的奖励值;
步骤E: X-Plane Gym模块通过step函数将飞机状态、奖励值、是否结束信息反馈给系统控制模块;
步骤F:系统控制模块,将状态、奖励值、是否结束信息保存到训练数据存储资源池中;
系统控制模块判断数据存储模块中的数据量是否到达可以训练强化学习算法模块中算法所需要的数据数量;如果未到达则重复执行步骤A到步骤F过程完成数据收集与存储;如果到达则系统控制模块从数据存储模块中批量抽取训练数据,并用抽取的数据训练强化学习算法模块中的算法,然后再启动上述步骤A到步骤F过程完成数据收集与存储,并且执行数据抽取与强化学习算法模块中的算法训练过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津七一二通信广播股份有限公司,未经天津七一二通信广播股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210336281.2/1.html,转载请声明来源钻瓜专利网。