[发明专利]一种机器人路径规划方法和规划系统有效

申请号：	202110228596.0	申请日：	2021-03-02
公开（公告）号：	CN112987742B	公开（公告）日：	2022-08-26
发明（设计）人：	尹翔;彭坤彦;黄宁馨;李恒宇	申请（专利权）人：	扬州大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	225009 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种机器人路径规划方法规划系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种机器人路径规划方法，其特征在于，包括：

S1、将机器人活动的二维场景栅格化为二维环境栅格图，每个栅格的属性为障碍物或道路；获取机器人在二维环境栅格图中的起始位置坐标s₀和目的位置坐标s_d；

S2、构建进化策略神经网络，所述进化策略神经网络包括依次连接的输入层(21)、隐藏层(22)、Relu激活单元(23)、输出层(24)、Sigmoid激活单元(25)；所述输入层有2个神经元；所述隐藏层包括2个级联的子层，两个隐藏子层中间有Relu激活单元；每个隐藏子层有64个神经元；所述输出层有G个神经元；所述进化策略神经网络的输入为机器人的二维位置坐标s，输出为机器人在位置s处执行每个动作的概率P＝(p₁,p₂,…,p_G)，p_g为机器人在位置s处执行第g个动作的概率，g＝1,2,…,G，G是机器人动作种类总数；

S3、设置策略种群规模N，迭代次数T，噪声标准差σ；初始化目标行为特征BC^*，当前迭代次数t＝0；随机生成N组进化策略神经网络的参数Θ＝{θ_n}，n＝1,2,…,N；

S4、对于每一组参数θ_n，将机器人起始位置s₀输入进化策略神经网络，获取机器人执行每个动作的概率p_g，选择概率最大的动作并计算执行后机器人的位置和立即奖励；将机器人新的位置输入进化策略神经网络，获取机器人新的动作、位置和立即奖励，直到机器人到达目的位置s_d；

在第n组参数θ_n下，机器人从s₀到s_d的策略π_n(θ_n)由每一步的位置动作对组成：

其中M_n为策略π_n(θ_n)中机器人移动的步数，表示机器人在位置处执行动作

S5、计算策略π_n(θ_n)的行为特征BC(π_n)：

表示向上取整函数；

计算策略π_n(θ_n)的累积奖励其中为执行后机器人移动到位置处，获得的立即奖励；

将N个策略的所有轨迹点存入经验回放池R，N个策略的所有行为特征组成档案库A，A＝{BC(π_n)}；

计算每个策略的新颖性，第n个策略π_n(θ_n)的新颖性Nv(π_n,A)为：

其中BC(π_j)为档案库A中与BC(π_n)距离最近的K个行为特征点之一，K＜N，j＝1,2,…,K，BC(π_j)≠BC(π_n)，|| · ||₂ 为计算向量的2范数；

N个策略中新颖性最大的E个策略为精英策略；剩下的N-E个策略组成集合S；新颖性最小的H个策略组成集合U；

计算N个策略中的最优策略π^*，所述最优策略π^*为累积奖励最大的策略；将目标行为特征BC^*更新为最优策略π^*的行为特征BC(π^*)；

S6、构建深度强化学习网络，所述深度强化学习网络包括第一学习分支(610)和第二学习分支(620)；所述第一学习分支(610)包括依次连接的第一策略网络(611)、第一动作单元(612)和第一预测单元(613)；所述第二学习分支(620)包括依次连接的第二策略网络(621)、第二动作单元(622)和第二预测单元(623)；所述第一策略网络(611)与第二策略网络(621)的结构均与进化策略神经网络的结构相同，但参数不同，作用均为根据输入的二维位置得到机器人执行每个动作的概率；

所述第一策略网络(611)根据输入位置s(1)得到执行每个动作的概率P(1)，所述第一动作单元(612)根据P(1)选择动作a(1)，并将a(1)进行one-hot编码，转换为G维向量V_a(1)；位置s(1)和动作向量V_a(1)的组合[s(1),V_a(1)]作为第一预测单元(613)的输入；

所述第二策略网络(621)根据输入位置s(2)得到执行每个动作的概率P(2)，所述第二动作单元(622)根据P(2)选择动作a(2)，并将a(2)进行one-hot编码，转换为G维向量V_a(2)；位置s(2)和动作向量V_a(2)的组合[s(2),V_a(2)]作为第二预测单元(623)的输入；

所述第一预测单元(613)包括并联的第一预测子网和第二预测子网，所述第二预测单元(623)包括并联的第三预测子网和第四预测子网；所述第一预测子网、第二预测子网、第三预测子网、第四预测子网的结构相同参数不同；

所述第一预测子网包括依次连接的输入层、隐藏层、输出层；所述输入层有G+2个神经元，所述隐藏层包括2个级联的子层，每个子层有64个神经元；所述输出层有1个神经元；输入为位置动作向量组合，输出为输入的Q值；

随机初始化第一预测子网的参数Φ₁、第二预测子网的参数Φ₂；令第三预测子网的参数Φ₃＝Φ₁、第四预测子网Φ₄＝Φ₂；

S7、根据集合U中的策略更新深度强化学习网络中的参数，具体步骤为：

S71、令h＝1；

S72、令第一策略网络的参数Ψ₁、第二策略网络的参数Ψ₂均为为U中第h个策略对应的进化策略神经网络参数，更新Φ₁和Φ₂，具体包括：

S721、从经验回放池R中随机抽取L个轨迹点构成第一样本集，利用第一样本集更新第一预测子网的参数Φ₁和第二预测子网的参数Φ₂，具体步骤包括：

分别将第一样本集中的轨迹点中的和作为第一学习分支(610)和第二学习分支(620)的输入，第一预测子网和第二预测子网输出的两个Q值，分别记为Q₁,Q₂；第三预测子网和第四预测子网输出的两个Q值，分别记为Q₃,Q₄；l＝1,2,…,L；

计算当前目标Q值target：target＝min(Q3,Q4)*γ+r_i^l；

其中γ为取值范围为(0,1)的折扣因子超参数；

S722、定义：

其中Q₁(s_t,a_t)表示第一预测子网在输入为时输出的Q值；Q₂(s_t,a_t)表示第二预测子网在输入为时输出的Q值；E[]表示计算期望；

通过反向传播更新Φ₁和Φ₂；

S723、从经验回放池R中再次随机抽取L个轨迹点更新第一样本集，重新执行步骤S721和S722，再次更新Φ₁和Φ₂，直到更新次数达到预设的第一更新次数阈值T₁；

S73、更新第一策略网络的参数Ψ₁，包括：

S731、选择第一预测子网或第二预测子网，即w＝1或w＝2；

S732、定义：

为步骤S731中选择的预测子网的输出Q_w对参数Φ_w的梯度，为策略对的梯度；s,a为经验回放池R中轨迹点的位置和动作；

通过反向传播更新第一策略网络的参数Ψ₁；

S74、用软更新来更新第二策略网络的参数Ψ₂、第三预测子网的参数Φ₃和第四预测子网的参数Φ₄：

Ψ₂′←τΨ₁+(1-τ)Ψ₂，Φ′₃←τΦ₁+(1-τ)Φ₃，Φ₄←τΦ₂+(1-τ)Φ₄

其中Ψ₂和Ψ₂′分别是软更新前后的第二策略网络的参数，Φ₃和Φ′₃分别是软更新前后的第三预测子网的参数，Φ₄和Φ′₄分别是软更新前后的第四预测子网的参数；τ是大于0小于1的常数；

S75、将进化策略神经网络的参数修改为第一策略网络的参数Ψ₁，获取在参数Ψ₁下从起始位置s₀到目的位置s_d的策略π(Ψ₁)，计算策略π(Ψ₁)的新颖性Nv(π(Ψ₁),A)；

如果将集合U中的第h个策略和集合S中与对应的策略均替换为π(Ψ₁)；

如果h＜H，令h自增1，跳转至步骤S72进行下一次深度强化学习网络参数的更新；

S8、令t自增1；如果t＜T，对集合S中的N-E个策略的参数添加零均值且标准差为σ的高斯噪声，生成N-E个新的进化策略神经网络参数；所述N-E个新的进化策略神经网络参数与上一代的E个精英策略所对应的进化策略神经网络参数作为N组进化策略神经网络的参数Θ＝{θ_n}，跳转至步骤S4进行下一次迭代优化；

如果t＝T，迭代优化结束；将当前最优策略π^*作为结果，得到机器人从起始位置到目的位置每一步的动作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于扬州大学，未经扬州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110228596.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种具有限位功能的扫码设备
下一篇：一种具有抗高尿酸血症活性的岩藻寡糖及其制备方法和应用

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种机器人路径规划方法和规划系统有效

专利文献下载