[发明专利]一种机器人路径规划方法和规划系统有效
申请号: | 202110228596.0 | 申请日: | 2021-03-02 |
公开(公告)号: | CN112987742B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 尹翔;彭坤彦;黄宁馨;李恒宇 | 申请(专利权)人: | 扬州大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 225009 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器人 路径 规划 方法 规划系统 | ||
本发明公开了一种机器人路径规划方法,包括:1、构建二维环境栅格图;2、构建进化策略神经网络,其输入为机器人位置,输出为该位置处机器人执行每个动作的概率;3、设置迭代参数并初始化;4、生成策略种群;5、计算策略种群的属性,建立S集合和U集合;6、构建深度强化学习网络;7、利用U更新深度强化学习网络的参数,并更新U和S;8、对S中策略对应的参数添加高斯噪声,生成新的非精英策略,并与上一代精英策略构成新的策略种群;当达到迭代次数最大值时,将策略种群中的最优策略作为结果,得到机器人从起始位置到目的位置每一步的动作;否则跳转至步骤4进行下一次迭代。该方法重复利用经验数据进行策略改进,以快速找到最优路径。
技术领域
本发明属于机器人导航技术领域,具体涉及一种移动机器人路径规划方法和系统。
背景技术
近年来,为了应对不断增长的应用需求,以及移动机器人在陌生环境中的适应性和灵活性的提高,科学家们对移动机器人的局部轨迹的架构和规划进行了研究。尽管已经提出了许多有效方法用于已知环境中的移动机器人导航技术,但是这些方法通常难以应用于未知环境中的自主导航。深度强化学习算法已成功应用于一系列具有挑战性的控制任务,但其缺乏有效的探索,限制了采用深度强化学习在路径规划中的适用性。现有的机器人导航方法主要的问题是在未知环境中,移动机器人系统的信息不能随着环境信息变化而变化,特别是在具有各种形状障碍物的环境中。由于环境信息的不断变化,不能准确的定位,移动机器人难以有效地搜索最佳路线。进化策略是一类受自然进化启发的黑盒优化技术,能够实现有效的探索。但是,进化策略通常遭受到高样本复杂性的困扰,并且难以解决需要优化大量参数的问题。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种机器人路径规划方法,该方法可以实现快速探索,并重复利用经验数据进行策略改进,以快速找到最优路径。
技术方案:本发明一方面公开了一种机器人路径规划方法,包括:
S1、将机器人活动的二维场景栅格化为二维环境栅格图,每个栅格的属性为障碍物或道路;获取机器人在二维环境栅格图中的起始位置坐标s0和目的位置坐标sd;
S2、构建进化策略神经网络,所述进化策略神经网络包括依次连接的输入层 21、隐藏层22、Relu激活单元23、输出层24、Sigmoid激活单元25;所述输入层有2个神经元;所述隐藏层包括2个级联的子层,两个隐藏子层中间有Relu 激活单元;每个隐藏子层有64个神经元;所述输出层有G个神经元;所述进化策略神经网络的输入为机器人的二维位置坐标s,输出为机器人在位置s处执行每个动作的概率P=(p1,p2,…,pG),pg为机器人在位置s处执行第g个动作的概率,g=1,2,…,G,G是机器人动作种类总数;
S3、设置策略种群规模N,迭代次数T,噪声标准差σ;初始化目标行为特征BC*,当前迭代次数t=0;随机生成N组进化策略神经网络的参数Θ={θn}, n=1,2,…,N;
S4、对于每一组参数θn,将机器人起始位置s0输入进化策略神经网络,获取机器人执行每个动作的概率pg,选择概率最大的动作并计算执行后机器人的位置和立即奖励;将机器人新的位置输入进化策略神经网络,获取机器人新的动作、位置和立即奖励,直到机器人到达目的位置sd;
在第n组参数θn下,机器人从s0到sd的策略πn(θn)由每一步的位置动作对组成:
其中Mn为策略πn(θn)中机器人移动的步数,表示机器人在位置处执行动作
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110228596.0/2.html,转载请声明来源钻瓜专利网。