[发明专利]一种基于深度强化学习的水下自主航行器动态避障方法有效
申请号: | 202110098934.3 | 申请日: | 2021-01-25 |
公开(公告)号: | CN112925319B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 孙玉山;罗孝坤;张国成;李岳明;薛源;于鑫;张红星 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N3/04;G06N3/08 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 于歌 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 水下 自主 航行 动态 方法 | ||
1.一种基于深度强化学习的水下自主航行器动态避障方法,其特征在于,包括以下步骤:
步骤一:建立水下自主航行器模型与运动学模型,从而获取水下自主航行器周围障碍物的信息;
步骤二:采集水下自主航行器周围机动障碍物的运动状态信息,并构造动态障碍物状态方程,所述运动状态信息包括:运动状态向量、状态转移矩阵、过程噪声和输入控制矩阵;
步骤三:利用概率数据关联的粒子滤波方法根据动态障碍物状态方程预测动态障碍物运动学模型;
步骤四:根据步骤一获得的水下自主航行器周围障碍物的信息和步骤三获得的动态障碍物运动学模型,在笛卡尔坐标系下建立多动态障碍物的在线训练环境,并融合多动态障碍物避障法生成避障策略;
步骤五:将步骤四生成的避障策略转化为MDP模型,并建立水下自主航行器面对多个动态障碍物时MDP模型的状态集和动作集;
步骤六:将状态集作为MDP模型的输入、动作集作为MDP模型的输出,结合确定性深度策略梯度算法对MDP模型进行训练,直至MDP模型下水下自主航行器能够无碰撞的到达目标区域;
步骤七:利用训练好的MDP模型引导水下自主航行器航行;
步骤一所述水下自主航行器模型包括:一个尾推进器、两个侧推进器和7个避障声呐,水下自主航行器模型的测距声呐采样频率为2Hz、探测距离为150m~200m,随体坐标系下分布角度依次为:90°、60°、30°、0°、-30°、-60°、-90°;
运动学模型为水平面3自由度的运动学模型,其方程为:
其中,为水下自主航行器在大地坐标系下的水平面位置矢量,υ为水下自主航行器在载体下的水平面速度矢量,R(ψ)为转换矩阵,ψ为水下自主航行器的偏航角,r为水下自主航行器在随体坐标系下的偏航角速度;
步骤二中动态障碍物状态方程包括:匀速运动模型在采样间隔为T时的离散时间状态方程和匀加速运动模型在采样间隔为T时的离散时间状态方程,
所述匀速运动模型在采样间隔为T时的离散时间状态方程表达式如下:
Xk+1=FCVXk+ωk+1,
其中,Xk+1和Xk分别为匀速运动模型在k+1和k时刻的状态,FCV为匀速运动模型状态转移矩阵,ωk+1为匀速运动模型在离散时间内的过程噪声,
所述匀加速运动模型在采样间隔为T时的离散时间状态方程表达式如下:
其中,和分别为匀加速运动模型在k+1和k时刻的状态,FCA为匀加速运动模型状态转移矩阵,为匀加速运动模型在离散时间内的过程噪声;
步骤四中,将水下自主航行器趋向目标行为作为引力势场函数,将水下自主航行器规避动态障碍物行为作为水下自主航行器的斥力势场函数,
所述避障策略为:
当水下自主航行器的声呐探测到动态障碍物时,判断动态障碍物是否进入水下自主航行器的斥力势场作用域,
是,则避障子任务优先级大于目标趋向子任务优先级,持续改变航向角直至动态障碍物脱离水下自主航行器斥力势场作用域,
否,则目标趋向子任务优先级大于避障子任务优先级,调整艏向为指向目标,使得水下自主航行器向目标区域行驶;
步骤五中MDP模型表达式为:
MDP=(S,A,Psa,R),
其中,S为状态集,A为动作集,Psa为状态转移概率,R为奖赏函数;
步骤五中面对多个动态障碍物时MDP模型的状态集S={S1,S2,...,St,...,ST},为水下自主航行器7个避障声呐在t时刻所采集到的信号,
步骤五中面对多个动态障碍物时MDP模型的动作集A={a1,a2,...,at,...,aT},at={ω(t),V(t)},ω(t)和V(t)分别为水下自主航行器t时刻的偏航角速度和水平速度;
匀速运动模型状态转移矩阵FCV的表达式为:
其中,
匀加速运动模型状态转移矩阵FCA的表达式为:
其中,
引力势场函数表达式为:
其中,k1为引力势能增益系数,xt和yt分别为t时刻在笛卡尔坐标系下水下自主航行器位置的横、纵坐标,xgoal和ygoal分别为在笛卡尔坐标系下目标区域中心位置的横纵坐标;
斥力势场函数表达式为:
其中,k2为斥力势能增益系数,x′t和y′t分别为t时刻在笛卡尔坐标系下动态障碍物位置的横、纵坐标,d(qt,q′t)为t时刻水下自主航行器与动态障碍物之间的距离,qt=(xt,yt),q′t=(x′t,y′t),d0为水下自主航行器斥力势场作用域能影响的最大距离,L1和L2分别为水下自主航行器膨化为椭圆形后、椭圆形的长轴长度和短轴长度;
MDP模型中奖赏函数R在t时刻的奖励值rt为:
rt=τ1r1(st,at,st+1)+τ2r2(st,at,st+1)+τ3r3(st,at,st+1),
其中,τ1为目标模块的比例系数,τ2为安全模块的比例系数,τ3为稳定性模块的比例系数,r1(st,at,st+1)为目标模块t时刻的奖励值,r2(st,at,st+1)为安全模块t时刻的奖励值,r3(st,at,st+1)为稳定性模块t时刻的奖励值。
2.根据权利要求1所述的一种基于深度强化学习的水下自主航行器动态避障方法,其特征在于,步骤四中,结合水下自主航行器所在水域环境的地形信息构建训练环境地图模型,然后根据动态障碍物运动学模型在训练环境地图模型中加载多个动态障碍物,获得笛卡尔坐标系下多动态障碍物的在线训练环境。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110098934.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:远程定量系统及方法
- 下一篇:一种紧急防侧滑分力轮胎