[发明专利]一种深度强化学习的实时在线路径规划方法有效
申请号: | 201710167590.0 | 申请日: | 2017-03-21 |
公开(公告)号: | CN106970615B | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 布树辉;孙林杰 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 陈星 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种深度强化学习的实时在线路径规划方法,利用深度学习方法来得到图像的高层语义信息,并利用强化学习的方法来完成从环境的端到端的实时场景的路径规划。训练过程中将在环境中采集到的图像信息作为当前状态带入场景解析网络中得到解析结果,然后将解析结果输入到设计好的深度循环神经网络中,通过训练得到特定场景中智能体的每步决策动作,进而得到最优的完整路径。实际应用过程,利用训练好的深度强化学习网络,将相机采集到的图像信息输入,即可得到智能体行走的方向信息。本发明在保证其鲁棒性、在对环境依赖比较少的前提下,最大限度利用获取到的图像信息,实现即时的场景行走信息路径规划。 | ||
搜索关键词: | 一种 深度 强化 学习 实时 在线 路径 规划 方法 | ||
【主权项】:
1.一种深度强化学习的实时在线路径规划方法,其特征在于:包括以下步骤:步骤1:采集相机图像,将采集的图像输入到场景解析网络中,得到对应的解析结果图,所述解析结果图中,解析得到的属于同一类的物体采用同一颜色表示;步骤2:将解析结果图输入到带初始权重的深度循环神经网络中,并做如下处理:步骤2.1:采集待规划智能体与环境进行交互的历史经验,并存储在经验回放存储器中,所述历史经验为四元组信息(s,a,r,s’),s为当前状态,a为执行动作,r为对应动作a的回报值,s’为执行动作a后的下一个状态;所述历史经验的获取过程为:智能体根据当前状态s,从可行的动作集中任意选择一个动作a,智能体对动作a进行评估,如果智能体执行动作a后遇到障碍物或不能通行的标记,则给予惩罚值,如果智能体执行动作a后更加接近目的地或到达目的地时,则给予奖励值;智能体采集执行动作a后的环境图像,并输入到场景解析网络后,得到状态s’;步骤2.2:持续采集待规划智能体与环境进行交互的历史经验,并存储到经验回放存储器中,得到训练样本集D;步骤3:在经验回放存储器中随机采样四元组信息(s,a,r,s’),输入到深度循环神经网络和目标深度循环神经网络中,并做如下处理;其中初始时,深度循环神经网络和目标深度循环神经网络参数相同;步骤3.1:将状态s代入深度循环神经网络中进行前馈操作得到所有可行动作对应的预测Q值;步骤3.2:将状态s在其四元组信息中对应的状态s’代入目标深度循环神经网络中进行前馈操作计算网络输出的最大值maxa'Q(s',a',w‑),其中a’为状态s’代入目标深度循环神经网络后对应最大Q值的动作,w‑为目标深度循环神经网络的权重;将状态s在其四元组信息中对应的动作a的动作值Q(s,a;w)更新为r+γmaxa'Q(s',a',w‑),其中γ为折扣因子;步骤3.3:根据深度循环神经网络和目标深度循环神经网络的输出构建损失函数为:L(w)=Es,a,r,s'~D(r+γmaxa'Q(s',a',w‑)‑Q(s,a,w))2]其中E表示数学期望步骤3.4:应用随机梯度下降方法进行深度循环神经网络和目标深度循环神经网络权重的迭代更新,其中深度循环神经网络中的权重实时更新,而目标深度循环神经网络中的权重每隔设定时间步进行更新;当达到迭代步数后,得到训练完成的深度循环神经网络;步骤4:深度循环神经网络训练完成后,智能体将采集到的图像信息输入由场景解析网络和训练完成的深度循环神经网络组成的深度强化学习网络中,得到智能体的行走方向信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710167590.0/,转载请声明来源钻瓜专利网。
- 上一篇:改进的栅格拓扑语义环境地图的构建方法
- 下一篇:一种智能跟踪系统