[发明专利]一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法在审
申请号: | 202210687553.3 | 申请日: | 2022-06-17 |
公开(公告)号: | CN114967472A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 吴吉莹;杨忠;廖禄伟;何乃峰;王志永;王灿 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 徐红梅 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无人机 轨迹 跟踪 状态 补偿 深度 确定性 策略 梯度 控制 方法 | ||
1.一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法,其特征在于,包括以下步骤:
S1、建立无人机动态跟踪的马尔可夫决策过程元组S,A,P,R,γ,S是有限状态集,A是有限控制量集,P是基于控制量的状态转移概率矩阵,R是基于状态和控制量的奖励函数,γ为衰减因子;
S2、建立无人机动态跟踪的运动状态方程;
S3、分别构建第一控制网络、第一评价网路、第一补偿网络以及对应的具有相同网络结构的第二控制网络、第二评价网络、第二补偿网络;
S4、执行各网络,获得状态转移过程,并将所有状态转移过程存入经验回放池;
将无人机当前状态st分别输入到第一评价网络、第一控制网络和第一补偿网络,将第一控制网络的输出输入第一补偿网络,同时将第一控制网络的输出与第一补偿网络的输出相加并加入随机噪声后作为第一控制量a与环境交互获得奖励Rt+1,并使无人机进入下一状态st+1,指导无人机执行跟踪动态目标,同时将第一控制量作为第一评价网络的输入,第一评价网络根据无人机当前状态st和第一控制量进行价值评价,输出第一评价价值;将无人机下一状态st+1分别输入到第二评价网络、第二控制网络和第二补偿网络,将第二控制网络的输出输入第二补偿网络,同时将第二控制网络的输出与第二补偿网络的输出相加作为第二控制量输入第二评价网络,第二评价网络根据无人机下一状态st+1和第二控制量进行价值评价,输出第二评价价值,第二评价价值通过与奖励的运算获得目标价值QTarget;接着系统重复上述过程,将无人机下一状态st+1作为下一过程中的当前状态st进行后续过程,将上述过程中的st,a,Rt+1,st+1描述为一个转移过程,经过多次环境交互后产生多个转移过程均用(st,a,Rt+1,st+1)表示,将所有状态转移过程(st,a,Rt+1,st+1)存入经验回放池;
S5、从经验回放池中随机批量采样X个转移过程(si,ai,Ri+1,si+1),i=1,2,…,X为采样顺序,计算各第一评价价值和目标价值的时序差分误差,通过目标梯度函数更新各网络参数,直至符合训练目标,并保存各网络模型;
S6、无人机进行轨迹跟踪任务时,设定目标跟踪位置,将无人机当前状态输入到训练好的第一控制网络模型,然后执行该网络模型的输出控制量,更新无人机状态,如此往复,完成目标跟踪任务。
2.根据权利要求1所述的一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法,其特征在于,步骤S1中无人机动态跟踪的马尔可夫决策过程元组S,A,P,R,γ具体为:
其中,st是当前状态,是属于状态集S中的一组状态,px、py、pz分别是无人机在笛卡尔坐标系下的三个坐标轴方向上的位置坐标,分别是无人机在笛卡尔坐标系下的三个坐标轴方向上的速度,tx、ty、tz分别是无人机在笛卡尔坐标系下的三个坐标轴方向上的目标位置坐标,a是该控制量集A中的一组控制量表示,分别是无人机在笛卡尔坐标系下的三个坐标轴方向上的加速度,表示状态转移概率矩阵P中的一组转移概率,表示从当前状态st经过控制量a、转移到下一状态st+1的转移概率,在此过程中获得的奖励为Rt+1,以上变量中的下标t和t+1分别表示当前时间步和下一时间步,表示奖励函数R中的一组奖励值,即从当前状态st经过控制量a后获得的奖励,St是当前时间步t的有限状态集,At是当前时间步t的有限控制量集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210687553.3/1.html,转载请声明来源钻瓜专利网。