[发明专利]一种基于障碍区域扩张策略的强化学习路径规划方法在审
| 申请号: | 201911012585.8 | 申请日: | 2019-10-23 |
| 公开(公告)号: | CN110726416A | 公开(公告)日: | 2020-01-24 |
| 发明(设计)人: | 陈海洋;张凯;季野彪 | 申请(专利权)人: | 西安工程大学 |
| 主分类号: | G01C21/34 | 分类号: | G01C21/34;G01C21/00 |
| 代理公司: | 61200 西安通大专利代理有限责任公司 | 代理人: | 李红霖 |
| 地址: | 710000 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 障碍区域 路径规划 强化学习 凹形 状态空间 智能体 复杂环境 算法收敛 最优路径 减小 算法 维度 剔除 地形 探索 学习 引入 规划 | ||
1.一种基于障碍区域扩张策略的强化学习路径规划方法,其特征在于,包括以下步骤:
1)根据智能体所处的工作环境,确定影响路径规划的因素数据;
2)采集影响路径规划的因素数据并模糊分类,得到建立环境模型的基础数据;
3)基于模糊分类后的基础数据,采用栅格法建立环境模型;
4)基于环境模型中存在的凹形障碍区域,采用障碍区域扩张策略,得到环境模型中的障碍栅格;
5)在智能体所处的工作环境中通过试错学习来获得奖赏值,从而规划出一条奖赏值最高的路径。
2.根据权利要求1所述的基于障碍区域扩张策略的强化学习路径规划方法,其特征在于,步骤1)中影响路径规划的因素包括:
障碍物的位置、大小以及障碍区域两侧的高度。
3.根据权利要求1所述的基于障碍区域扩张策略的强化学习路径规划方法,其特征在于,步骤2)具体为:
步骤2.1)对采集到的因素数据进行离散化处理并模糊分类,得到建立环境模型的基础数据;
步骤2.2)根据基础数据的密集程度,通过隶属度函数对基础数据进行模糊分类,得到模糊分类后的观测数据。
4.根据权利要求3所述的基于障碍区域扩张策略的强化学习路径规划方法,其特征在于,步骤3)具体为:
步骤3.1)基于模糊分类后的观测数据,采用Q(λ)学习算法进行结构学习,获得一个网络结构;
步骤3.2)将所述网络结构转化成联接树结构。
5.根据权利要求4所述的基于障碍区域扩张策略的强化学习路径规划方法,其特征在于,所述步骤4)的具体步骤为:
步骤4.1)基于联接树结构中的数据波动,进行障碍关系的判断,若单侧遇到障碍物,转到步骤4.2);若双侧遇到障碍物,转到步骤4.3);
步骤4.2)单侧遇到障碍物,标记该障碍状态为inf,继续探索寻找目标点;
步骤4.3)双侧遇到障碍物,中断探索目标,开始进行障碍区域的扩张,将扩张后的障碍状态标记为inf,再进行探索目标点。
6.根据权利要求5所述的基于障碍区域扩张策略的强化学习路径规划方法,其特征在于,所述步骤5)具体为:
步骤5.1)初始化基础数据,将基础数据初始化到隶属度函数可用的数据,然后从起点到终点进行循环;
步骤5.2)根据标记的inf状态,更新地图环境;
步骤5.3)智能体从更新后的地图环境起点出发;
步骤5.4)获取智能体的当前状态的4个相邻状态的值,通过贪婪策略,找出最大值对应的动作,记录为原状态;
步骤5.5)获取智能体的下一个状态并通过Q(λ)算法更新相应的奖励值;其中,在该幕的学习中标记为inf的状态不再进行二次探索;
在下一幕学习之前更新环境,所有的inf状态不再进行Q值的迭代以及路径的规划;
若下一个状态上有障碍物,则返回奖励值-1,并标记障碍物状态为inf,同时执行障碍区域扩张策略;
若下一个状态上无障碍,则返回奖励值0,进入下一个状态;
然后通过Q(λ)算法更新相应的奖励值;
步骤5.6)判断智能体的当前位置是否为终点,若是,则进入步骤5.7),否则,进入步骤5.4);
步骤5.7)判断当前学习次数是否满足设定的学习次数,若满足,则进入步骤5.8);否则,进入步骤5.2);
步骤5.8)寻路过程结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工程大学,未经西安工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911012585.8/1.html,转载请声明来源钻瓜专利网。





