[发明专利]面向移动平台基于专家经验的DDPG无人机降落方法在审
申请号: | 202210742166.5 | 申请日: | 2022-06-28 |
公开(公告)号: | CN115033022A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 张平;罗黎明 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 黄月莹 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 移动 平台 基于 专家 经验 ddpg 无人机 降落 方法 | ||
1.面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,包括以下步骤:
步骤1、构建无人机移动平台降落的马尔科夫模型;
步骤2、构建DDPG算法中的神经网络;
步骤3、无人机和目标状态更新;
步骤4、在仿真模拟器中构建无人机着陆场景,使用基于专家经验的确定性策略梯度方法训练无人机面向移动平台进行降落。
2.根据权利要求1所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,马尔科夫模型为(S,A,O,R,γ),其中S为神经网络的输入状态,A为无人机的输出动作,O为无人机传感器的观测空间,R为奖励函数,γ为折扣因子。
3.根据权利要求1所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,步骤1-1、定义马尔科夫模型的状态空间,输入状态S:
结合无人机状态和移动平台状态,设定输入状态为:
S=[Suav,Splatform]
其中无人机状态xuav、yuav、zuav表示无人机在三维平面上的位置,为无人机沿X、Y、Z轴的速度分量;
移动平台状态:Splatform=[xplatform,yplatform,zplatform],xplatform、yplatform、zplatform表示无人机在三维平面上的位置;
步骤1-2、定义马尔科夫模型的动作空间,即无人机的输出动作A:
输出动作A表示无人机接收到外界反馈信号,即无人机离移动目标的远近,针对自身状态所采集的动作集;设定输出动作为:
其中,为无人机沿X、Y、Z轴的速度分量,结合实际应用对无人机的速度进行约束:其中分别代表无人机的最小、最大速度;
步骤1-3、定义马尔科夫模型的观测空间,即传感器的观测空间O:
利用雷达传感器对无人机和目标的位置进行判断和获取;设定观测空间为:
O=[D]
其中,无人机与目标的之间的相对距离D为:
步骤1-4、定义奖励函数R:
利用传感器获取无人机与移动平台的位置信息,通过对无人机进行距离奖惩、碰撞奖惩和时间奖惩,综合得到奖励函数R,表示无人机在当前状态下选取某一动作时所获得的反馈值:综合无人机距离奖励和避碰奖励,得到奖励函数R为:
其中,λ4、λ5分别表示距离奖励避碰奖励的权重系数;
步骤1-5、定义折扣因子γ:
设定折扣因子0γ1,用于计算整个过程中的回报累计值;当γ值越大,表示越注重长期收益。
4.根据权利要求3所述的面向移动平台基于专家经验的DDPG无人机降落方法,其特征在于,距离奖励函数为:
其中为距离奖励函数,λ1、λ2为两项奖励的权重值;Dt代表无人机与移动平台当前t时刻之间的欧式距离;L为设置的常数值;若Dt≥L,则给予一个与距离Dt成正比的负惩罚奖励;若DtL,则在正常数c1的基础上,再给予一个与距离Dt成反比的正奖励;
避碰奖励为:
其中Dt是无人机与移动平台当前t时刻之间的欧式距离,当不发生碰撞时碰撞惩罚奖励为0,如果无人机发生碰撞,在给予c2常数的负惩罚基础上,再给予与移动平台距离成正比的负惩罚奖励,λ3为碰撞系数常数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210742166.5/1.html,转载请声明来源钻瓜专利网。