[发明专利]一种基于深度强化学习的端到端分布式多机器人编队导航方法有效
| 申请号: | 201910394893.5 | 申请日: | 2019-05-13 |
| 公开(公告)号: | CN110147101B | 公开(公告)日: | 2020-05-22 |
| 发明(设计)人: | 林俊潼;成慧;杨旭韵;郑培炜 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G05D1/02 | 分类号: | G05D1/02;G06N20/00 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈伟斌 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及机器人中的多移动机器人领域,更具体地,涉及一种基于深度强化学习的端到端分布式多机器人编队导航方法。该方法基于深度强化学习,通过试错的方式得到控制策略。所得控制策略能够将多机器人编队的几何中心点安全、高效地导航至目标点,并且保证多机器人编队在导航的过程中的连通性。通过该方法得到的控制策略具有端到端的特性,也就是说能够直接将原始感知数据映射到机器人控制量,而无需先根据原始感知数据构建障碍物地图,因此能够节省计算资源。除此以外,通过一种集中式学习分布式执行的机制,该方法能够得到可分布式执行的控制策略,使得机器人拥有更高的自主性。 | ||
| 搜索关键词: | 一种 基于 深度 强化 学习 端到端 分布式 机器人 编队 导航 方法 | ||
【主权项】:
1.一种基于深度强化学习的端到端分布式多机器人编队导航方法,其特征在于,包括以下步骤:S1.搭建仿真环境,机器人在仿真环境中进行试错学习;S2.设计奖励函数以引导机器人编队的学习,机器人编队的试错学习根据仿真环境中返回的奖励值来衡量决策的好坏;所述的奖励函数由多个子奖励函数加权求和构成,即:R(st,at)=ε+wg*Rg(st,at)+wc*Rc(st,at)+wf*Rf(st,at)+wv*Rv(st,at)式中,st是t时刻的状态,at是t时刻的动作,ε是一个负常数,用于引导机器人编队尽快到达目标点;wg,wc,wf和wv分别是对应子奖励函数的权重值;Rg(st,at)用于引导机器人编队到达目标点;Rc(st,at)用于引导机器人避免碰撞;Rf(st,at)用于引导机器人编队保持连通性;Rv(st,at)用于引导机器人平滑地运动;S3.设计策略网络和值网络;S4.利用基于行动者‑评价家的强化学习方法,在机器人编队与仿真环境交互的过程中更新策略网络和值网络;S5.在执行阶段分布式地使用策略网络进行导航;在执行的时候,各个机器人使用机器人级别的策略网络,根据自身的观察值计算出自身的控制量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910394893.5/,转载请声明来源钻瓜专利网。





