[发明专利]一种基于深度安全强化学习的机器人无地图导航方法有效

申请号：	202110250387.6	申请日：	2021-03-08
公开（公告）号：	CN113093727B	公开（公告）日：	2023-03-28
发明（设计）人：	吕少华;李衍杰;许运鸿;刘奇;陈美玲;赵威龙;刘悦丞;庞玺政	申请（专利权）人：	哈尔滨工业大学（深圳）
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	深圳市添源创鑫知识产权代理有限公司 44855	代理人：	覃迎峰
地址：	518000 广东省深圳市南***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度安全强化学习机器人地图导航方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度安全强化学习的机器人无地图导航方法，其特征在于，该方法包括以下步骤：

S1：初始化训练环境，设置移动机器人参数，根据训练环境设计移动机器人奖励函数和安全风险代价函数；

S2：将传感器检测的图像信息和激光雷达信息、以及移动机器人的目标信息和运动信息作为Actor神经网络的输入，Actor神经网络将各状态信息进行处理后输出决策动作到移动机器人；

S3：移动机器人执行Actor神经网络输出的动作，然后从环境中得到下一时刻新的观测信息和奖励信息；

S4：将移动机器人与环境交互得到的经验存入经验池，所述Actor神经网络与Critic神经网络、Safety神经网络组成基于深度安全强化学习的ACS神经网络系统，当所述经验池存满或者设置定期，对ACS神经网络系统参数进行更新；

S5：判断训练步数是否达到设定阈值，若未达到设定阈值，则返回S2继续循环执行，若训练步数达到设定阈值，则训练结束，将训练结束后的模型应用于真实移动机器人进行导航；

其中，所述深度安全强化学习为CPO算法，所述CPO算法是在TRPO算法的基础上加入了风险代价约束函数J^C(θ)≤β_safe，其中β_safe表示安全阈值，θ表示Actor神经网络参数，所述风险代价约束函数J^C(θ)表达式为：

其中，C为CPO算法中的安全风险标志，s表示状态，a表示动作，π_θ(a|s)、分别表示当前策略函数和旧策略函数，/表示Safety神经网络相关的优势函数；

所述对ACS神经网络系统参数进行更新的方法如下：

Critic神经网络的参数更新表达式为：其中，ω表示Critic神经网络的参数，/是Critic神经网络相关的TD偏差，表示为/r_t表示当前时刻的奖励，γ∈(0，1)为折扣因子，/分别表示Critic神经网络t+1时刻、t时刻的状态值函数，超参数α^ω表示Critic神经网络参数ω相关的梯度更新步长，/表示/的梯度算子；

Safety神经网络的参数更新表达式为：其中，φ表示Safety神经网络的参数，/是Safety神经网络相关的TD偏差，表示为/c_t表示t时刻安全风险代价，/分别表示Safety神经网络t+1时刻、t时刻的状态值函数，超参数α^φ表示Safety神经网络参数φ相关的梯度更新步长，/表示/的梯度算子；

Actor神经网络中θ_k+1表示参数向量θ_k更新值，所述CPO算法的求解公式为：

θ_k+1＝argmax_θJ(θ)

s.t.J^C(θ)≤β_safe

其中，D_KL表示两策略分布之间的KL散度，δ表示当前策略和旧策略的平均KL散度上界阈值，J(θ)为目标函数，其表达式为：表示Critic神经网络相关的优势函数；

将风险代价约束函数J^C(θ)和目标函数J(θ)带入CPO算法的求解公式中，可得

定义g为目标函数J(θ)的梯度，b为风险代价约束函数J^C(θ)的梯度，定义为随机策略，H为KL散度的Hessian矩阵，则CPO算法的求解问题为：

s.t.c+b^T(θ-θ_k)≤0

(一)当上述求解问题有可行解时，通过对偶问题求解，定义拉格朗日乘子为ν和λ，上述求解问题的对偶问题表示如下：

定义上述对偶问题最优解为ν^*和λ^*，则参数向量θ_k的更新公式为：

(二)当上述求解问题没有可行解，则参数向量θ_k的更新公式为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载