[发明专利]一种基于强化学习的AGV路径规划方法及系统有效
申请号: | 202110963677.5 | 申请日: | 2021-08-20 |
公开(公告)号: | CN113485380B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 吴宗泽;郭海森;任志刚;赖家伦;王界兵 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 agv 路径 规划 方法 系统 | ||
1.一种基于强化学习的AGV路径规划方法,其特征在于,所述方法至少包括:
S1.构建AGV动力学模型,设置前向差分更新步长,基于前向差分更新步长及AGV动力学模型确定AGV的基本状态更新表达式;
S2.以AGV为智能体,AGV行驶所感知到的环境信息为状态信息,考虑目的地位置、障碍物位置设计状态空间,以及设计连续性动作空间、多重奖励机制;
步骤S2所述的考虑目的地位置、障碍物位置设计的状态空间包括:
a.AGV当前的位置信息:
其中,spos表示AGV当前的位置信息;M矩阵是角度矩阵,代表AGV与目的地位置间的方位角θ的联系;(xg,yg)为目的地的位置坐标,(xr,yr)为当前AGV的位置坐标;
b.AGV到障碍物的位置信息:
其中,sobs_i表示环境中的障碍物信息;(xobs_i,yobs_i)表示第i个障碍物的中心点位置,是AVG自运动始已观察到的状态;(xr,yr)表示当前AGV的位置;
c.AGV到障碍物间的距离信息:
其中,Disi表示AGV位置与第i个障碍物的中心点的距离,(xr,yr)表示当前AGV的位置,(xobs_i,yobs_i)表示当前第i个障碍物中心点的位置;状态空间表示为:
state=[spos,sobs_i,Disi],i∈(1,N);
其中,N表示随机障碍物的个数上限;
步骤S2所述的连续性动作空间表示为:
action=[α,w]
其中,α表示AGV的连续性动作加速度向量,w为角速度向量,两者代表AVG小车的实时运动信息;
多重奖励机制包括:行驶主线奖励、若干个辅助奖励及时间奖励,具体为:
其中,RGoal表示终点回报奖励,为行驶主线奖励,Wg表示终点回报奖励的权重值,终点回报奖励满足:RGoal=1;Rdistance表示距离回报奖励,Wdis表示距离回报奖励的权重值,距离回报奖励满足:
τt为微分量也即差分时长,代表AGV每次移动的步距;dlast为记录前一时刻AGV距终点的距离;dcurr为当前时刻AGV距终点的距离,Time为所花费的步数;为第i个障碍物的大小阈值;Rdirection表示方向回报奖励,Wdir表示方向回报奖励的权重值,满足:
Rdirection=π-2θ′,θ′=min(2|θ|,π)
Rout表示出界回报奖励,Wout表示出界回报奖励的权重值,满足:Rout=10;Robstacle表示碰撞回报奖励,满足:
其中,Wobs表示碰撞回报奖励的权重值;
S3.根据AGV动力学模型及AGV的基本状态更新表达式,结合状态空间、连续性动作空间及多重奖励机制,完成AGV路径规划的马尔科夫过程建模;
S4.引入Actor-Critic框架,基于状态空间、连续性动作空间及多重奖励机制,智能体与环境交互,以最大化奖励及最大化策略熵为目标,进行策略学习训练,使得智能体在训练的过程中朝着最优的奖励方向运动;
S5.当训练收敛时,得到智能体AGV的每步决策动作,进而得到最优的AGV规划路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110963677.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效隧道作业桥
- 下一篇:一种杠杆式磁控吸盘擦窗器基座