[发明专利]一种基于深度强化学习的端到端分布式多机器人编队导航方法有效

申请号：	201910394893.5	申请日：	2019-05-13
公开（公告）号：	CN110147101B	公开（公告）日：	2020-05-22
发明（设计）人：	林俊潼;成慧;杨旭韵;郑培炜	申请（专利权）人：	中山大学
主分类号：	G05D1/02	分类号：	G05D1/02;G06N20/00
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	陈伟斌
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习端到端分布式机器人编队导航方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的端到端分布式多机器人编队导航方法，其特征在于，包括以下步骤：

S1.搭建仿真环境，机器人在仿真环境中进行试错学习；

S2.设计奖励函数以引导机器人编队的学习，机器人编队的试错学习根据仿真环境中返回的奖励值来衡量决策的好坏；所述的奖励函数由多个子奖励函数加权求和构成，即：

R(s_t，a_t)＝ε+w_g*R_g(s_t，a_t)+w_c*R_c(s_t，a_t)+w_f*R_f(s_t，a_t)+w_v*R_v(s_t，a_t)

式中，s_t是t时刻的状态，a_t是t时刻的动作，ε是一个负常数，用于引导机器人编队尽快到达目标点；w_g，w_c，w_f和w_v分别是对应子奖励函数的权重值；

R_g(s_t，a_t)用于引导机器人编队到达目标点；R_c(s_t，a_t)用于引导机器人避免碰撞；

R_f(s_t，a_t)用于引导机器人编队保持连通性；R_v(s_t，a_t)用于引导机器人平滑地运动；

S3.设计策略网络和值网络；

S4.利用基于行动者-评价家的强化学习方法，在机器人编队与仿真环境交互的过程中更新策略网络和值网络；

S5.在执行阶段分布式地使用策略网络进行导航；在执行的时候，各个机器人使用机器人级别的策略网络，根据自身的观察值计算出自身的控制量。

2.根据权利要求1所述的一种基于深度强化学习的端到端分布式多机器人编队导航方法，其特征在于，所搭建的仿真环境具有以下功能：

i.表示场景：在仿真场景中，有多个障碍物，每个障碍物均为多边形，每个多边形通过多边形的各顶点来表示；

ii.表示机器人编队：用多个半径为r的圆形来表示机器人编队；

iii.随机初始化场景：随机生成位于不同位置，拥有不同形状的障碍物；随机生成位于不同位置的目标点；以及随机生成机器人编队的初始位置；

iv.根据环境的状态为机器人编队返回其局部观察值：每个机器人的观察值包含对环境的感知信息o_e，即二维激光雷达的点云数据，自身的当前速度o_v，其余机器人的位置o_m，以及目标点的位置o_g；

v.根据环境的状态以及机器人编队的控制指令更新环境的状态：除了需要根据机器人编队的控制指令去更新机器人的位置以外，还需要检测是否有碰撞的发生，碰撞包括机器人与机器人之间的碰撞以及机器人与障碍物之间的碰撞，以及机器人编队的几何中心是否已经到达目标点；

vi.根据环境的状态以及机器人编队的控制指令返回即时奖励值：奖励值的计算依赖于奖励函数。

3.根据权利要求2所述的一种基于深度强化学习的端到端分布式多机器人编队导航方法，其特征在于，所述的奖励函数中的R_g(s_t，a_t)用于引导机器人编队到达目标点；当机器人编队往目标点靠近时，返回一个正数作为奖励；当机器人编队远离目标点的时候，返回一个负数作为惩罚，其数学表达式为：

式中，r_goal是机器人编队几何中心到达目标点的奖励值，ε_g是用于判断几何中心是否到达目标点的阈值，表示机器人编队几何中心在t时刻的位置，g表示目标点的位置。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910394893.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载