[发明专利]一种融合历史信息的强化学习路径规划方法在审

申请号：	202211306866.6	申请日：	2022-10-25
公开（公告）号：	CN115629607A	公开（公告）日：	2023-01-20
发明（设计）人：	王科银;陈磊;石振东;石振;张建辉;杨正才	申请（专利权）人：	湖北汽车工业学院
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	济南泉城专利商标事务所 37218	代理人：	张贵宾
地址：	442002 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合历史信息强化学习路径规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合历史信息的强化学习路径规划方法，其特征在于：包括以下步骤：

S1：获取环境图像，建立格栅地图；

S2：定义强化学习状态空间和动作空间；

S3：初始化算法参数；

S4：动态调整动作空间；

S5：在调整后的动作空间中，采用ε-贪婪策略选择动作；

S6：执行动作，更新Q值；

S7：复执行第四步、第五步、第六步，直到达到一定步数或一定收敛条件为止；

S8：每一步选择Q值最大的动作，得出最优路径；

S9：把最优路径发送给移动机器人的控制器，控制移动机器人按照最优行走。

2.根据权利要求1所述的融合历史信息的强化学习路径规划方法，其特征在于：所述步骤S1的具体操作如下：基于移动机器人所搭载的摄像头获得环境图像，并将图像分割成20×20的栅格，采用栅格法建立环境模型，如果在格栅中发现障碍物，则定义该栅格为障碍物位置，机器人不能经过；如果格栅中发现目标点，则定于该格栅为目标位置，为移动机器人最终要到达的位置；其他的栅格定义为无障碍物的栅格，机器人可以经过。

3.根据权利要求1所述的融合历史信息的强化学习路径规划方法，其特征在于：所述步骤S2的具体操作如下：定义强化学习的状态空间为智能体的当前位置坐标和上一位置坐标，动作空间为上、下、左、右四个方向的动作，每次执行动作之后智能体朝相应的方向移动一个栅格。

4.根据权利要求1所述的融合历史信息的强化学习路径规划方法，其特征在于：所述步骤S3中的算法参数包括学习率ɑ∈（0，1），折扣因子γ∈（0，1），贪婪因子ε∈（0，1），最大迭代次数，奖赏函数r；把所有Q值初始化为0，并随机给定一个动作，执行该动作到达下一状态。

5.根据权利要求1所述的融合历史信息的强化学习路径规划方法，其特征在于：所述步骤S4中的动态调整动作空间为若上一步动作为上，则动作空间调整为{上，左，右｝；若上一步动作为下，则动作空间调整为{下，左，右}；若上一步动作是左，则动作空间调整为{上，下，左}；若上一步动作是右，则动作空间调整为{上，下，右}。

6.根据权利要求1所述的融合历史信息的强化学习路径规划方法，其特征在于：所述步骤S6的具体操作如下：执行步骤S5所选择的动作a，到达s，得到即时奖励R（s，a），更新Q值函数，更新规则如式（1）

（1）

其中，（s，a）为当前状态-动作对，(s^，，a^，)为下一时刻的状态-动作对，R（s，a）为状态s下执行动作a的即时奖励。

7.根据权利要求1所述的融合历史信息的强化学习路径规划方法，其特征在于：所述学习率ɑ = 0.01，折扣因子γ = 0.9，贪婪因子ε=0.2，最大迭代次数设置为3000次，奖励函数设置为：。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖北汽车工业学院，未经湖北汽车工业学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211306866.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种井下随钻气侵监测装置及工作方法
下一篇：切换粗调和精调的装置和光学设备

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合历史信息的强化学习路径规划方法在审

专利文献下载