[发明专利]基于深度强化学习的自主水下航行器轨迹跟踪控制方法有效

专利信息
申请号: 201810535773.8 申请日: 2018-05-30
公开(公告)号: CN108803321B 公开(公告)日: 2020-07-10
发明(设计)人: 宋士吉;石文杰 申请(专利权)人: 清华大学
主分类号: G05B13/04 分类号: G05B13/04
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 廖元秋
地址: 100084*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了一种基于深度强化学习的自主水下航行器轨迹跟踪控制方法,属于深度强化学习和智能控制领域。首先定义AUV轨迹跟踪控制问题;然后建立AUV轨迹跟踪问题的马尔科夫决策过程模型;接着构建混合策略‑评价网络,该网络由多个策略网络和评价网络构成;最后由构建的混合策略‑评价网络求解AUV轨迹跟踪控制的目标策略,对于多个评价网络,通过定义期望贝尔曼绝对误差来评估每个评价网络的性能,在每个时间步只更新性能最差的一个评价网络,对于多个策略网络,在每个时间步随机选择一个策略网络,并采用确定性策略梯度进行更新,最终学习到的策略为所有策略网络的均值。本发明不易受到恶劣AUV历史跟踪轨迹的影响,精度高。
搜索关键词: 基于 深度 强化 学习 自主 水下 航行 轨迹 跟踪 控制 方法
【主权项】:
1.一种基于深度强化学习的自主水下航行器轨迹跟踪控制方法,其特征在于,该方法包括以下步骤:1)定义自主水下航行器AUV轨迹跟踪控制问题定义AUV轨迹跟踪控制问题包括四个部分:确定AUV系统输入、确定AUV系统输出、定义轨迹跟踪控制误差和建立AUV轨迹跟踪控制目标;具体步骤如下:1‑1)确定AUV系统输入令AUV系统输入向量为τk=[ξkk]T,其中ξk、δk分别为AUV的螺旋桨推力和舵角,下标k表示第k个时间步;ξk、δk的取值范围分别为分别为最大的螺旋桨推力和最大舵角;1‑2)确定AUV系统输出令AUV系统输出向量为ηk=[xk,yk,ψk]T,其中xk、yk分别为第k个时间步AUV在惯性坐标系I‑XYZ下沿X、Y轴的坐标,ψk为第k个时间步AUV前进方向与X轴的夹角;1‑3)定义轨迹跟踪控制误差根据AUV的行驶路径选取参考轨迹定义第k个时间步的AUV轨迹跟踪控制误差为:1‑4)建立AUV轨迹跟踪控制目标对于步骤1‑3)中的参考轨迹dk,选择如下形式的目标函数:其中,γ是折扣因子,H为权重矩阵;建立AUV轨迹跟踪控制的目标为找到一个最优系统输入序列τ*使得初始时刻的目标函数P0(τ)最小,计算公式如下:2)建立AUV轨迹跟踪问题的马尔科夫决策过程模型对步骤1)中的AUV轨迹跟踪问题进行马尔科夫决策过程建模,具体步骤如下:2‑1)定义状态向量定义AUV系统的速度向量为φk=[uk,vk,χk]T,其中uk、vk分别为第k个时间步AUV沿前进方向、垂直于前进方向的线速度,χk为第k个时间步AUV环绕前进方向的角速度;根据步骤1‑2)确定的AUV系统输出向量ηk和步骤1‑3)定义的参考轨迹,定义第k个时间步的状态向量如下:2‑2)定义动作向量定义第k个时间步的动作向量为该时间步的AUV系统输入向量,即ak=τk;2‑3)定义奖励函数第k个时间步的奖励函数用于刻画在状态sk采取动作ak的执行效果,根据步骤1‑3)定义的轨迹跟踪控制误差ek和步骤2‑2)定义的动作向量ak,定义第k个时间步的AUV奖励函数如下:2‑4)将步骤1‑4)建立的AUV轨迹跟踪控制的目标τ*转换为强化学习框架下的AUV轨迹跟踪控制目标定义策略π为在某一状态下选择各个可能动作的概率,则定义动作值函数如下:其中,表示对奖励函数、状态和动作的期望值;K为最大时间步;该动作值函数用于描述在当前及之后所有状态下均采取策略π时的期望累计折扣奖励,故在强化学习框架下,AUV轨迹跟踪控制目标是通过与AUV所处环境的交互来学习一个最优目标策略π*,使得初始时刻的动作值最大,计算公式如下:其中,p(s0)为初始状态s0的分布;a0为初始动作向量;将步骤1‑4)建立的AUV轨迹跟踪控制的目标τ*的求解转换为π*的求解;2‑5)简化强化学习框架下的AUV轨迹跟踪控制目标通过如下迭代贝尔曼方程来求解步骤2‑4)中的动作值函数:设策略π是确定性的,即从AUV的状态向量空间到AUV的动作向量空间是一一映射的关系,并记为μ,则将上述迭代贝尔曼方程简化为:对于确定性的策略μ,将步骤2‑4)中的最优目标策略π*简化为确定性最优目标策略μ*:3)构建混合策略‑评价网络通过构建混合策略‑评价网络来分别估计确定性最优目标策略μ*和对应的最优动作值函数构建混合策略‑评价网络包括三部分:构建策略网络、构建评价网络和确定目标策略,具体步骤如下:3‑1)构建策略网络混合策略‑评价网络结构通过构建n个策略网络来估计确定性最优目标策略μ*;其中,θp为第p个策略网络的权重参数,p=1,…,n;各策略网络均分别使用一个全连接的深度神经网络来实现,各策略网络均分别包含一个输入层、两个隐藏层和一个输出层;各策略网络的输入为状态向量sk,各策略网络的输出为动作向量ak;3‑2)构建评价网络混合策略‑评价网络结构通过构建m个评价网络来估计最优动作值函数其中,wq为第q个评价网络的权重参数,q=1,…,m;各评价网络均分别使用一个全连接的深度神经网络来实现,各评价网络均分别包含一个输入层、两个隐藏层和一个输出层;各评价网络的输入为状态向量sk和动作向量ak,其中状态向量sk从输入层输入到各评价网络,动作向量ak从第一个隐藏层输入到各评价网络,各评价网络输出为在状态向量sk下采取动作向量ak的动作值;3‑3)确定目标策略根据所构建的混合策略‑评价网络,将第k个时间步学习到的AUV轨迹跟踪控制的目标策略μf(sk)定义为n个策略网络输出的均值,计算公式如下:4)求解AUV轨迹跟踪控制的目标策略μf(sk),具体步骤如下:4‑1)参数设置分别设置最大迭代次数M、每次迭代的最大时间步K、经验回放抽取的训练集大小N、各评价网络的学习率αω、各策略网络的学习率αθ、折扣因子γ和奖励函数中的权重矩阵H;4‑2)初始化混合策略‑评价网络随机初始化n个策略网络和m个评价网络的权重参数θp和wq;从n个策略网络中随机选择第d个策略网络记为d=1,…,n;构建经验列队集合R,设该经验列队集合R的最大容量为B,并初始化为空;4‑3)迭代开始,对混合策略‑评价网络进行训练,初始化迭代次数episode=1;4‑4)设置当前时间步k=0,随机初始化AUV的状态变量s0,令当前时间步的状态变量sk=s0;并产生一个探索噪声Noisek;4‑5)根据n个当前策略网络和探索噪声Noisek确定当前时间步的动作向量ak为:4‑6)AUV在当前状态sk下执行动作ak,根据步骤2‑3)得到奖励函数rk+1,并观测到一个新的状态sk+1;记ek=(sk,ak,rk+1,sk+1)为一个经验样本;如果经验列队集合R的样本数量已经达到最大容量B,则先删除最先加入的一个样本,再将经验样本ek存入经验列队集合R中;否则直接将经验样本ek存入经验列队集合R中;从经验列队集合R中选取A个经验样本,具体如下:当经验列队集合R中样本数量不超过N时,则选取该经验列队集合R中的所有经验样本;当经验列队集合R超过N时,则从该经验列队集合R中随机选取N个经验样本(sl,al,rl+1,sl+1);4‑7)根据选取的A个经验样本计算每个评价网络的期望贝尔曼绝对误差EBAEq,用于表征每个评价网络的性能,公式如下:选择性能最差的评价网络,通过以下公式求得该性能最差的评价网络的序号,记为c:4‑8)由第c个评价网络通过如下次贪婪策略得到每个经验样本在下一时间步的动作向量:4‑9)通过多个准Q学习方法计算第c个评价网络的目标值公式如下:4‑10)计算第c个评价网络的损失函数L(wc),公式如下:4‑11)通过损失函数L(wc)对权重参数wc的导数来更新第c个评价网络的权重参数,公式如下:其余评价网络的权重参数保持不变;4‑12)从n个策略网络中随机选择一个策略网络来重置第d个策略网络4‑13)根据更新后的第c个评价网络计算第d个策略网络的确定性策略梯度并以此更新第d个策略网络的权重参数θd,计算公式分别如下:其余策略网络的权重参数保持不变;4‑14)令k=k+1并对k进行判定:如k
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810535773.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

tel code back_top