[发明专利]一种基于障碍区域扩张策略的强化学习路径规划方法在审

申请号：	201911012585.8	申请日：	2019-10-23
公开（公告）号：	CN110726416A	公开（公告）日：	2020-01-24
发明（设计）人：	陈海洋;张凯;季野彪	申请（专利权）人：	西安工程大学
主分类号：	G01C21/34	分类号：	G01C21/34;G01C21/00
代理公司：	61200 西安通大专利代理有限责任公司	代理人：	李红霖
地址：	710000 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	障碍区域路径规划强化学习凹形状态空间智能体复杂环境算法收敛最优路径减小算法维度剔除地形探索学习引入规划
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于障碍区域扩张策略的强化学习路径规划方法，属于路径规划方法技术领域。本发明的基于障碍区域扩张策略的强化学习路径规划方法，在使用强化学习方法进行路径规划时，学习的状态空间会随着环境的逐渐复杂变得庞大。本发明针对复杂环境下强化学习路径规划中智能体探索时间长，算法收敛速度慢的问题，对于环境中存在的凹形障碍区域，通过引入障碍区域扩张策略，既避免了智能体在探索环境时，陷入凹形障碍区域而反复徘徊的困境，同时，将障碍区域扩张后剔除，有效减小了强化学习中状态空间的维度，在明显少于传统方法的学习次数下规划出了最优路径。对于凹形障碍区域较多的地形，本发明提出的算法具有较大的优势。

技术领域

本发明属于路径规划方法技术领域，具体涉及一种基于障碍区域扩张策略的强化学习路径规划方法。

背景技术

近年来，伴随着无人驾驶的兴起，机器人导航技术越来越受到人们的重视。路径规划作为机器人导航技术的一个重要研究方向，其定义为在具有障碍物的环境内，按照一定的评价标准，寻找一条从起始状态到达目标状态的无碰撞路径。传统的路径规划算法有人工势场法、遗传算法、蚁群优化算法等，但这些方法都需要在一个确定的空间内对环境进行建模，面对复杂多变的环境，存在一定的局限性。

强化学习算法是近年来发展迅速的一种机器学习算法，并被广泛的应用于移动机器人路径规划，其优势在于不需要精确的环境模型，面对复杂的未知环境，减小了人为的对环境的建模工作。利用强化学习算法的机器人路径规划方法有Q-learning、Sarsa、Q(λ)、Sarsa(λ)等。这些经典的强化学习算法在进行路径规划时，也会随着环境的越来越复杂，导致学习的状态空间越来越庞大，造成智能体探索环境时间长、学习收敛速度慢。为减小状态空间维度，众多学者针对该问题也做了许多研究，文献提出了一种提取状态动作空间的方法，利用机器人的特点和环境来生成新的状态动作空间，从而减小了状态空间维度。文献通过建立神经网络，将强化学习算法和神经网络相结合，减小了状态空间维度。由于采用了函数逼近的方式，这两种减小状态空间维度的方法在一定程度上都会产生误差。

发明内容

本发明的目的在于克服复杂未知环境下强化学习路径规划时状态空间庞大的缺点，提供一种基于障碍区域扩张策略的强化学习路径规划方法。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于障碍区域扩张策略的强化学习路径规划方法，包括以下步骤：

1)根据智能体所处的工作环境，确定影响路径规划的因素数据；

2)采集影响路径规划的因素数据并模糊分类，得到建立环境模型的基础数据；

3)基于模糊分类后的基础数据，采用栅格法建立环境模型；

4)基于环境模型中存在的凹形障碍区域，采用障碍区域扩张策略，得到环境模型中的障碍栅格；

5)在智能体所处的工作环境中通过试错学习来获得奖赏值，从而规划出一条奖赏值最高的路径。

进一步的，步骤1)中影响路径规划的因素包括：

障碍物的位置、大小以及障碍区域两侧的高度。

进一步的，步骤2)具体为：