[发明专利]一种深度强化学习的实时在线路径规划方法有效
申请号: | 201710167590.0 | 申请日: | 2017-03-21 |
公开(公告)号: | CN106970615B | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 布树辉;孙林杰 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 陈星 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 强化 学习 实时 在线 路径 规划 方法 | ||
本发明提出了一种深度强化学习的实时在线路径规划方法,利用深度学习方法来得到图像的高层语义信息,并利用强化学习的方法来完成从环境的端到端的实时场景的路径规划。训练过程中将在环境中采集到的图像信息作为当前状态带入场景解析网络中得到解析结果,然后将解析结果输入到设计好的深度循环神经网络中,通过训练得到特定场景中智能体的每步决策动作,进而得到最优的完整路径。实际应用过程,利用训练好的深度强化学习网络,将相机采集到的图像信息输入,即可得到智能体行走的方向信息。本发明在保证其鲁棒性、在对环境依赖比较少的前提下,最大限度利用获取到的图像信息,实现即时的场景行走信息路径规划。
技术领域
本发明涉及计算机图像处理与机器学习领域,具体为一种深度强化学习的实时在线路径规划方法,应用深度学习和强化学习实现实时场景的路径规划。
背景技术
传统的路径规划方法有模拟退火算法、人工势场法、模糊逻辑算法、禁忌搜索算法等;智能仿生学方法有蚁群算法、神经网络算法、粒子群算法、遗传算法等;也有一些人为发明的算法因为其优秀的特点得到广泛应用,这些算法一般具有很强的路径搜索能力,可以很好地在离散的路径拓扑网络中发挥作用,包括:A*算法、Dijkstra算法、Floyd算法等。随着科学技术的不断发展,路径规划技术面对的环境更为复杂多变,这就要求路径规划算法具有迅速响应复杂环境变化的能力,但传统的路径规划算法不能满足复杂多变的环境,因此传统的路径规划算法无法应用到智能设备的导航、制导与控制。
直接利用图像信息进行路径规划是目前在路径规划领域的前沿研究方向。2015年初Google Deepmind在Nature上发表一篇应用深度强化学习来进行人工智能游戏应用的文章,其中涉及了直接利用游戏视频信息来进行游戏控制的方法概述,提出了直接利用图像信息进行任务处理的雏形。针对智能设备的路径规划,本发明申请人研究并提出了直接利用图像信息进行实时、在线路径规划的算法。
神经网络和强化学习是机器学习领域中的两个重要分支,由于其重要的理论与应用价值,一直以来都是学者研究的热点。
强化学习问题通常被建模成马尔科夫决策过程,其目标是寻找一个能使我们获得最大累积奖励的策略。通常累积奖励表示为:
Rt=rt+1+γrt+2+γ2rt+3+…
其中γ为折扣因子(0≤γ≤1),t+1,t+2等表示第几个时间步。
马尔科夫决策过程中有四元组信息的概念,即由当前状态s,动作a,立即奖励r以及影响状态转移的概率Pss′组成。在这个模型下,未来状态只与当前状态有关,而与之前的状态无关,即所谓的马尔科夫性。一个马尔科夫决策过程可以表示为一个序列信息:s0,a0,r0,s1,a1,r1,s2,…,基于这个假设,很容易得到值函数的一个递归表达式:
Q(s,a)=E[rt+1+γrt+2+γ2rt+3+…|s,a]
=E[rt+1+γ(rt+2+γrt+3+…)|s,a]
=E[rt+1+γmaxa′Q(s′,a′)|s,a]
其中Q(s,a)表示当前状态s下的状态动作值,Q(s′,a′)表示执行动作a后的下一状态s′对应的状态动作值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710167590.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:改进的栅格拓扑语义环境地图的构建方法
- 下一篇:一种智能跟踪系统