[发明专利]一种基于Q学习的水下机器人避障控制方法在审
申请号: | 201911338069.4 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111198568A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 闫敬;李文飚;杨晛;罗小元 | 申请(专利权)人: | 燕山大学 |
主分类号: | G05D1/06 | 分类号: | G05D1/06;G01S15/93 |
代理公司: | 石家庄众志华清知识产权事务所(特殊普通合伙) 13123 | 代理人: | 张明月 |
地址: | 066004 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 水下 机器人 控制 方法 | ||
1.一种基于Q学习的水下机器人避障控制方法,其特征在于:该方法包括以下步骤:
步骤1,通过安装在水下机器人声呐接收装置的信号建立机器人所处的当前环境;水下机器人采用的动力学模型为
其中M表示惯性矩阵,C表示科氏力矩阵,D表示阻尼矩阵,G表示重力矩阵,τ为控制输入,v为控制输出;
水下机器人共有6个自由度,假设在第n个自由度上,机器人与障碍物的距离为xn,水下机器人设定的安全警戒距离为d,水下机器人若在第n个自由度上有xnd,则表示水下机器人可能发生碰撞,同时在该自由度上采取相应的规避动作;
步骤2,利用定位技术确定每一时刻水下机器人的位置Di,其中i表示第i时刻,比较该时刻水下机器人与目标点的距离Di和上一时刻水下机器人与目标点的距离Di-1,若DiDi-1,表示机器人正在远离目标点,若DiDi-1,表示机器人正在靠近目标点,并计算当前时刻水下机器人与目标点的距离D,考虑水下存在波动,设置目标点阈值d0,若Dd0,则表示水下机器人已到达目标点;根据水下机器人的自由度建立动作空间A;
步骤3,依据水下机器人利用Q学习选择动作要惩罚最小化,设置每步奖罚机制,设定初始惩罚为K,在步骤1中,水下机器人与目标点间距离奖罚函数R1有下式给出,
即出现DiDi-1,则给予一个惩罚K,出现DiDi-1,则给予一个负惩罚-K,在步骤2中,水下机器人在安全警戒阈值内靠近障碍物的奖罚函数R2有下式给出
其中上式表示当障碍物进入到安全警戒距离内,该奖罚函数值在随着水下机器人靠近障碍物距离的减小而增大;当障碍物在安全警戒距离外时,该奖罚函数值为K,水下机器人的每步总奖罚为R=R1+R2;同时水下机器人根据奖罚函数对障碍物进行规避,当该步惩罚相对于上一步惩罚变大时,表示水下机器人正在靠近障碍物,此时要向远离障碍物的方向进行移动;当该步惩罚相对于上一步惩罚变小,表示水下机器人正在远离障碍物,此时要向目标点移动;
步骤4,利用神经网络对多维输入进行权重分配,每训练一次之后,拷贝实际网络权重到目标网络权重中,权重更新式如下
其中xm为输入信号,ωm表示权值,M为神经元总个数,netl为输入与输出的关系,f为激活函数,yl为神经元输出;
步骤5,训练水下机器人寻找最优避障路径方案,初始化动作奖罚R;初始化状态矩阵S;初始化机器人总共训练的次数M;设定迭代值j,表示机器人训练次数;设定折扣因子γ;根据Q函数
Q(s,a)=R(s,a)+γmaxaQ(s',a') (5)
上式表示一个状态s下采取该行动a的奖罚R(s,a)加上下一个状态s’的折扣率下的最高Q值;针对寻求最大的Q值,执行梯度下降,以使每步惩罚最小化;把每步更新的状态输入到Q学习网络中,接着返回该状态中所有可能的动作的Q值;此时选取一个动作,当选取的每个动作Q值相同时,我们选择随机动作a,当选取的每个动作Q值不相同时,选取具有最高Q值的动作;选择了动作a后,水下机器人在状态S中执行所选的动作,并进行到新状态S’,接收奖罚R;重复这些步骤M回合,直到Q值满足收敛要求。
2.根据权利要求1所述的一种基于Q学习的水下机器人避障控制方法,其特征在于:在步骤2中,目标点阈值范围是以d0为半径以目标点为圆心的圆形区域。
3.根据权利要求1所述的一种基于Q学习的水下机器人避障控制方法,其特征在于:在步骤1中,安全警戒范围是以d为半径以水下机器人质心为圆心的圆形移动区域。
4.根据权利要求1所述的一种基于Q学习的水下机器人避障控制方法,其特征在于:步骤5中Q值的收敛要求为该步Q值与上一步Q值相差不超过0.01,即Q值已达到收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911338069.4/1.html,转载请声明来源钻瓜专利网。