[发明专利]一种融合历史信息的强化学习路径规划方法在审

申请号：	202211306866.6	申请日：	2022-10-25
公开（公告）号：	CN115629607A	公开（公告）日：	2023-01-20
发明（设计）人：	王科银;陈磊;石振东;石振;张建辉;杨正才	申请（专利权）人：	湖北汽车工业学院
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	济南泉城专利商标事务所 37218	代理人：	张贵宾
地址：	442002 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合历史信息强化学习路径规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及机器人路径规划技术领域，具体涉及一种融合历史信息的强化学习路径规划方法，包括以下步骤：S1：获取环境图像，建立格栅地图；S2：定义强化学习状态空间和动作空间；S3：初始化算法参数；S4：动态调整动作空间；S5：在调整后的动作空间中，采用ε‑贪婪策略选择动作；S6：执行动作，更新Q值；S7：复执行第四步、第五步、第六步，直到达到一定步数或一定收敛条件为止；S8：每一步选择Q值最大的动作，得出最优路径；S9：把最优路径发送给移动机器人的控制器，控制移动机器人按照最优行走。

技术领域

本发明涉及机器人路径规划技术领域，具体涉及一种融合历史信息的强化学习路径规划方法。

背景技术

近年来，移动机器人在各种行业得到了广泛的应用，同时对移动机器人性能的要求也在不断提高。移动机器人中的路径规划问题是实现移动机器人功能的关键技术。路径规划是根据人为定义的某一性能指标，获得机器人从初始位置到达目标位置的最优运动路径。像人工势场法、蚁群算法、可视图法等传统的路径规划算法大都存在实时性不高、容易陷入局部最优等缺点。因强化学习算法不需要环境模型，可以在未知环境中通过智能体不断与环境交互寻找最优路径，这使得强化学习算法越来越多的被应用在移动机器人路径规划领域。

在移动机器人路径规划领域应用最为广泛的强化学习算法是Q-learning算法。Q-learning算法是强化学习中基于值的算法，对于给定的状态动作对(s,a),都会有相应的值函数Q(s,a)与之对应，环境会根据智能体所采取的动作给与奖励r，以此来更新Q值。算法的主要思想就是将状态和动作构建成一张Q表来存储Q值，然后根据Q值来选取能够获得最大收益的动作。Q-learning算法的迭代就是一个试错和探索的过程，其收敛的条件是保证智能体对每一个状态动作对都进行足够多次的尝试，智能体才能最终学习到最优的策略。当把Q-learning算法应用于移动机器人路径规划时，如何减少无效的探索，加快智能体的收敛速度，提高算法效率是当前研究的热点。

发明内容

为了提高Q-learning算法应用于移动机器人路径规划时的学习速度，本发明提出一种融合历史信息的强化学习路径规划方法，在状态空间中引入智能体的上一个历史状态来反映环境变化特征，在智能体动作选择之前，动态调整动作空间，禁止智能体重复返回上一位置，减少无效探索，提高算法的探索效率，缩短路径规划时间。

本发明提供的一种融合历史信息的强化学习路径规划方法，包括以下步骤：

S1：获取环境图像，建立格栅地图；

S2：定义强化学习状态空间和动作空间；

S3：初始化算法参数；

S4：动态调整动作空间；

S5：在调整后的动作空间中，采用ε-贪婪策略选择动作；

S6：执行动作，更新Q值；

S7：复执行第四步、第五步、第六步，直到达到一定步数或一定收敛条件为止；

S8：每一步选择Q值最大的动作，得出最优路径；

S9：把最优路径发送给移动机器人的控制器，控制移动机器人按照最优行走。

进一步的，所述步骤S1的具体操作如下：基于移动机器人所搭载的摄像头获得环境图像，并将图像分割成20×20的栅格，采用栅格法建立环境模型，如果在格栅中发现障碍物，则定义该栅格为障碍物位置，机器人不能经过；如果格栅中发现目标点，则定于该格栅为目标位置，为移动机器人最终要到达的位置；其他的栅格定义为无障碍物的栅格，机器人可以经过。

进一步的，所述步骤S2的具体操作如下：定义强化学习的状态空间为智能体的当前位置坐标和上一位置坐标，动作空间为上、下、左、右四个方向的动作，每次执行动作之后智能体朝相应的方向移动一个栅格。

进一步的，所述步骤S3中的算法参数包括学习率ɑ∈（0，1），折扣因子γ∈（0，1），贪婪因子ε∈（0，1），最大迭代次数，奖赏函数r；把所有Q值初始化为0，并随机给定一个动作，执行该动作到达下一状态。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖北汽车工业学院，未经湖北汽车工业学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211306866.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种井下随钻气侵监测装置及工作方法
下一篇：切换粗调和精调的装置和光学设备

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合历史信息的强化学习路径规划方法在审

专利文献下载