[发明专利]一种基于深度强化学习的端到端分布式多机器人编队导航方法有效
| 申请号: | 201910394893.5 | 申请日: | 2019-05-13 |
| 公开(公告)号: | CN110147101B | 公开(公告)日: | 2020-05-22 |
| 发明(设计)人: | 林俊潼;成慧;杨旭韵;郑培炜 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N20/00 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈伟斌 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 强化 学习 端到端 分布式 机器人 编队 导航 方法 | ||
本发明涉及机器人中的多移动机器人领域,更具体地,涉及一种基于深度强化学习的端到端分布式多机器人编队导航方法。该方法基于深度强化学习,通过试错的方式得到控制策略。所得控制策略能够将多机器人编队的几何中心点安全、高效地导航至目标点,并且保证多机器人编队在导航的过程中的连通性。通过该方法得到的控制策略具有端到端的特性,也就是说能够直接将原始感知数据映射到机器人控制量,而无需先根据原始感知数据构建障碍物地图,因此能够节省计算资源。除此以外,通过一种集中式学习分布式执行的机制,该方法能够得到可分布式执行的控制策略,使得机器人拥有更高的自主性。
技术领域
本发明涉及机器人中的多移动机器人领域,更具体地,涉及一种基于深度强化学习的端到端分布式多机器人编队导航方法。
背景技术
机器人编队在不确定的复杂环境中作业时可能会遇到障碍物的威胁。为了避免碰撞对机器人造成伤害,需要考虑机器人的避障问题。在某些场景下,机器人编队在避障的同时还需要保持一定连通性,例如:在机器人编队进行信息交换时,编队需要保持一定连通性来保证通信质量。因此,在保持连通性的条件下来躲避障碍物是一个重要的多机器人协作问题。
保持连通性的多机器人编队导航方法可以划分为以下两类方法:一是基于规则的方法,二是基于学习的方法。基于规则的方法可以进一步划分为:基于领航者-跟随者的方法,基于人工势场法的方法,基于图论的方法,基于一致性理论的方法,基于模型预测控制的方法,以及基于虚拟结构的方法等。
基于规则的方法对环境的感知依赖于障碍物地图,在使用基于规则的方法时,需要先通过原始感知数据构建障碍物地图。因此,基于规则的方法高度依赖于障碍物地图的构建。而在某些特定情况下,实时构建的障碍物地图的质量难以保证,而且构建障碍物地图的过程会占用大量计算资源,因此会影响基于规则的方法的效果。
基于学习的方法可以在无需构建障碍物地图的情况下,直接将原始感知数据映射到机器人的控制量。现有的基于学习的方法大多关注单机器人领域,部分应用在多机器人领域的方法没有考虑机器人之间的连通性。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种基于深度强化学习的端到端分布式多机器人编队导航方法。
为解决上述技术问题,本发明采用的技术方案是:一种基于深度强化学习的端到端分布式多机器人编队导航方法,包括以下步骤:
S1.搭建仿真环境,机器人在仿真环境中进行试错学习;深度强化学习的基本思想是通过试错的方式,在智能体跟环境交互的过程中迭代优化智能体的控制策略;因此在使用本发明提出的方法时,需要搭建仿真环境,以供多机器人编队进行试错;
S2.设计奖励函数以引导机器人编队的学习,机器人编队的试错学习需要根据环境返回的奖励值来衡量决策的好坏,而奖励值的计算依赖于奖励函数,因此奖励函数是基于深度强化学习的方法的重要组成部分;所述的奖励函数由多个子奖励函数加权求和构成,即:
R(st,at)=ε+wg*Rg(st,at)+wc*Rc(st,at)+wf*Rf(st,at)+wv*v(st,at)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910394893.5/2.html,转载请声明来源钻瓜专利网。





