[发明专利]基于连续状态行为域强化学习的机器人羽状流追踪方法有效

申请号：	201710840331.X	申请日：	2017-09-18
公开（公告）号：	CN107729953B	公开（公告）日：	2019-09-27
发明（设计）人：	宋士吉;牛绿茵	申请（专利权）人：	清华大学
主分类号：	G06K9/66	分类号：	G06K9/66;G06N3/08;B25J9/16
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	廖元秋
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于连续状态行为强化学习机器人羽状流追踪方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于连续状态行为域强化学习的机器人羽状流追踪方法，其特征在于，包括以下步骤：

1)设定参数；

设定水下机器人以v＝1.0m/s的速度匀速前进，每次前进时间间隔为τ＝10s，每次前进后机器人重新判断前进方向；

设定机器人在单次羽状流追踪中最大时间为6000s；设定机器人进行羽状流追踪的总次数为1000次，机器人的探索概率为∈＝0.2；

建立一个记忆空间RB数组，初始化为空，RB数组的最大容量为10000；

2)分别构建决策神经网络和价值神经网络；具体步骤如下：

2-1)构建决策神经网络；

决策神经网络的函数表达式为μ_θ：s→a，其中决策神经网络的输入s表示当前的机器人状态向量，决策神经网络的输出a表示机器人前进方向与当前位置流场方向构成的夹角；以流场方向为基准方向：若a为正，则代表机器人前进方向位于流场方向的逆时针方向；若a为负，则代表机器人前进方向位于流场方向的顺时针方向；

μ_θ表示状态向量s与a之间的映射，即已知状态向量为s，决策函数为μ_θ，得到前进方向与当前位置流场方向构成的夹角为a＝μ_θ(s)；μ_θ中的向量θ为决策神经网络中的参数，θ的初始值为0；

所述机器人状态向量s表达式为其中，φ_flow指当前机器人所在位置的流场流速；表示最近一次检测到羽状流细丝信号的时刻与当前时刻的时间差：若当前时刻能检测到羽状流细丝信号，则如果当前时刻没有检测到羽状流细丝信号，则为一个大于0的值；表示最近一次检测到羽状流细丝信号时的机器人位置x_last与当前机器人位置x所组成的向量与当前位置流场方向构成的夹角，以流场方向为基准方向：若向量位于流场方向的逆时针方向，则该夹角为正；若向量位于流场方向的顺时针方向则该夹角为负；a_last指的是最近一次检测到羽状流细丝信号时候水下机器人的前进方向与当前位置流场方向构成的夹角；

2-2)构建价值神经网络；

价值神经网络的函数表达式为其中价值神经网络的输入为s和a，输出为价值评分Q；设定价值神经网络中权重参数为ω向量，ω的初始值为0；

3)生成机器人单次羽状流追踪的初始状态；

将水下机器人放入喷口海域，当机器人第一次检测到羽状流细丝信号时，此时记为t＝0时刻，记录机器人当前位置x₀和该时刻机器人当前位置的流场流速φ₀；

在t＝0时刻，φ_flow＝φ₀，a_last＝0，生成机器人状态向量s₀＝(φ₀，0，0，0)作为机器人此次羽状流追踪的初始状态；

4)在初始状态下，计算机器人的前进方向与当前位置流场方向构成的夹角a₀；

随机生成(0，1)之间的随机数rand并进行判定：

4-1)如果rand大于等于探索概率，即rand≥ε，则机器人不进行探索，机器人按照当前决策神经网络输出的结果得到前进方向与当前位置流场方向构成的夹角；将状态向量s₀＝(φ₀，0，0，0)输入决策神经网络中，决策神经网络输出机器人t＝0时刻的前进方向与当前位置流场方向构成的夹角a₀＝μ_θ(s₀)；

4-2)如果rand小于探索概率，即rand＜∈，则机器人执行探索，机器人在角度区间之间随机选择一个角度作为t＝0时刻的前进方向与当前位置流场方向构成的夹角a₀；

5)更新最近一次检测到羽状流细丝信号的时刻的信息；

设定t＝0时刻为最近一次检测到羽状流细丝信号的时刻，并记录下最近一次检测到羽状流细丝信号的信息，包括：时间、机器人位置、前进方向与当前位置流场方向构成的夹角，表达式如下：t_last＝0，x_last＝x₀，a_last＝a₀；其中位置x为机器人的坐标；

6)机器人利用步骤4)生成的a₀以速度v前进时间τ后，此时为t＝1时刻，机器人到达新的位置，利用奖励函数计算计算t＝0时刻的奖励r₀，奖励reward计算表达式如下：

7)记录t＝1时刻机器人当前位置的流场速度φ₁，机器人当前位置x₁，并利用状态表达式与以下规则生成t＝1时刻的状态向量s₁：

7-1)如果此时机器人检测到羽状流细丝信号，则当前的状态向量为其中，0表示当该位置此时能检测到信号时a_last＝a₀；

7-2)如果此时机器人未检测到羽状流细丝信号，则在未检测到信号浓度的时间上加1，则当前状态向量为

8)构建t＝0时刻的元胞(s₀，a₀，s₁，r₀)存入到记忆空间RB中；

9)利用记忆空间RB中存储的元胞作为训练样本集，更新决策神经网络，具体步骤如下：

9-1)从记忆空间RB中随机选取N个元胞(s_i，a_i，ns_i，r_i)，i＝1，...，N，组成训练样本集，其中ns_i表示状态s_i的下一个状态；当记忆空间RB中存储的元胞数量小于N时，则N为RB中全部元胞的数量；

9-2)利用时间差分更新价值神经网络；具体步骤如下：

9-2-1)对于训练样本集中的每个训练样本(s_i，a_i，ns_i，r_i)，i＝1，...，N，利用当前决策神经网络得到每个状态向量ns_i对应的机器人前进方向与当前位置流场方向构成的夹角，表达式如下：

na_i＝μ_θ(ns_i)

9-2-2)对于每个训练样本，计算时间差分项：

其中，γ是一个折扣常量，表示状态向量ns_i选择na_i的价值，即输入为ns_i，na_i时当前价值神经网络的输出；表示状态s_i选择a_i的价值，即输入为s_i，a_i时当前价值神经网络的输出；

9-2-3)对于每个训练样本，更新价值神经网络权重参数ω，表达式如下：

其中，表示对于ω的梯度，α是价值神经网络的学习速率，初始值0.001；

9-2-4)对于每个训练样本，计算即对于a_i的梯度；

9-3)利用确定性策略梯度方法更新决策神经网络：

对于每个训练样本，利用求得的利用随机梯度方法，更新参数θ，表达式如下：

其中，表示μ_θ(s_i)关于参数θ的导数；β是决策神经网络的学习速率，初始值设为0.0001；更新后的决策神经网络为新的当前决策神经网络；

10)判断该次羽状流追踪是否终止：

10-1)单次羽状流追踪的终止条件包括三个，任意满足其中一个条件则单次羽状流追踪终止；具体如下：

10-1-1)如果机器人当前位置距离羽状流热液喷口不足两米，则表明机器人找到喷口，单次羽状流追踪终止，进入步骤17)；

10-1-2)如果机器人当前状态向量中表明机器人在该次羽状流追踪中未检测到羽状流细丝信号长达70个时间间隔，则单次羽状流追踪终止，进入步骤17)；

10-1-3)如果机器人在单次羽状流追踪中所用时间超过6000秒，则单次羽状流追踪终止，进入步骤17)；

10-2)如果未达到终止条件，则本次羽状流追踪仍然在继续，进入步骤11)；

11)记当前时刻为t时刻，机器人当前状态向量为s_t，选择机器人新的前进方向与当前位置流场方向构成的夹角；具体如下：

随机生成(0，1)之间的随机数rand并判定：

11-1)如果rand大于等于探索概率，即rand≥ε，则机器人不进行探索，机器人按照当前决策神经网络输出的结果得到t时刻的前进方向与当前位置流场方向构成的夹角，a_t＝μ_θ(s_t)；

11-2)如果rand小于探索概率，即rand＜∈，则表明机器人执行探索，机器人按以下规则选择t时刻的前进方向与当前位置流场方向构成的夹角：

11-2-1)若机器人t时刻在羽状流中，即当前位置机器人检测到羽状流细丝信号，则机器人在区间内随机选择一个角度a_t作为机器人t时刻的前进方向与当前位置流场方向构成的夹角；

11-2-2)若机器人t时刻不在羽状流中，即当前位置机器人没有检测到羽状流细丝信号，则水下机器人在区间内随机选择一个角度a_t作为机器人t时刻的前进方向与当前位置流场方向构成的夹角；

12)如果t时刻机器人检测到羽状流细丝信号，则更新当前时刻为最近一次检测到羽状流细丝信号的时刻，并更新最近一次检测到羽状流细丝信号的信息，：t_last＝t，x_last＝x_t，a_last＝a_t；如果t时刻机器人未检测到羽状流细丝信号，则保持t-1时刻记录的最近一次检测到羽状流细丝信号的的信息不变；

13)水下机器人利用步骤11)生成的a_t以速度v前进时间τ后，当前时刻为t+1时刻，机器人到达新的当前位置，利用奖励函数计算t时刻的奖励r_t，记录下新的当前位置上的流场速度φ_t+1，机器人新的当前位置x_t+1，并定义新的当前的状态为其中，t-t_last表示的是t+1时刻距离最近一次检测到羽状流细丝信号时刻的时间差；表示的是新的当前位置与最近一次检测到羽状流细丝信号位置之间的连线与当前流场方向之间的夹角；

14)构建t时刻的元胞(s_t，a_t，s_t+1，r_t)，并存入到记忆空间RB中；

15)重复步骤9)，利用记忆空间RB中存储的元胞作为训练样本集，更新决策神经网络；

16)重复步骤10)，判断该次羽状流追踪是否终止：

17)对羽状流追踪次数利用下列条件依次进行判定：

17-1)若机器人连续10次均成功找到羽状流喷口，则决策神经网络和价值神经网络的参数学习接近收敛状态，更新探索概率ε＝0.9*ε，更新学习速率α＝0.1*α，β＝0.1*β，重新返回步骤3)开始新一次的羽状流追踪；

17-2)若机器人连续30次均成功找到羽状流喷口，则判定决策神经网络和价值神经网络收敛，训练结束，生成最终决策神经网络；将状态向量输入到最终决策神经网络中，该网络输出前进方向与当前位置流场方向构成的夹角作为机器人羽状流追踪的前进方向与当前位置流场方向构成的夹角；

17-3)若机器人羽状流追踪次数超过1000次，则表明决策神经网络和价值神经网络仍未收敛，重新返回步骤1)，对参数进行重新初始化，机器人重新开始新的羽状流追踪训练；

17-4)若如步骤17-1)至17-3)所示的三种条件均不满足，则重新返回步骤3)，机器人开始新一次的羽状流追踪。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710840331.X/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于手机终端的行人信号控制方法
下一篇：一种基于道钉灯的动态可变车道控制方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于连续状态行为域强化学习的机器人羽状流追踪方法有效

专利文献下载