[发明专利]一种基于强化学习的车辆路径规划方法在审
申请号: | 202010280643.1 | 申请日: | 2020-04-10 |
公开(公告)号: | CN111415048A | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 高健;蒋佳浩 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/08;G06Q50/26;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李馨 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 车辆 路径 规划 方法 | ||
本发明提供一种基于强化学习的车辆路径规划方法,将客户节点的状态序列作为输入信息,将输入信息送往决策网络,决策网络依据动作值函数选择动作并计算规划车辆行进路线。本发明基于历史配送数据以强化学习算法来训练模型,从而达到在道路交通状况和配送目标节点数变化的情况下动态规划行车路径的目的。本方法考虑现实生活中复杂多变的道路交通情况和配送目标数不定的配送任务,动态调整行车路线,从而提高运输效率并降低成本。
技术领域
本发明涉及智能交通领域,具体而言,尤其涉及一种基于强化学习的车辆路径规划方法。
背景技术
车辆路径有效规划是物流管理、公交与出租客运、以及从事相关领域运营等服务的重要环节,有助于提高运输效率并降低成本。
Oriol Vinyals等(Vinyals O,Fortunato M,Jaitly N.Pointer networks[C]Advances in Neural Information Processing Systems.2015:2692-2700.)提出了一种简单而有效的架构称为Pointer Net来学习组合优化问题,该模型首次采用机器学习的方法来求组合优化问题,在sequence-to-sequence和Neural Turing Machines的基础上使用神经注意机制解决了可变大小输出字典的问题,并采用监督学习的方式来训练模型,以纯粹的数据驱动方法来学习计算难以处理的问题的近似解。
Irwan Bello等(Bello I,Pham H,Le Q V,et al.Neural combinatorialoptimization with reinforcement learning[J].arXiv preprint arXiv:1611.09940,2016.)改进了Vinyals等[1]提出的指针网络,提出了一种利用强化学习和神经网络来解决组合优化问题的框架-神经组合优化,其中决策指针网络由两个长短期记忆网络(LSTM)构成,采用Policy-gradient算法优化决策网络。为将神经网络作为解决组合优化问题的通用工具提供了一条有趣的研究途径。
Khalil E等(Khalil E,Dai H,Zhang Y,et al.Learning combinatorialoptimization algorithms over graphs[C]Advances in Neural InformationProcessing Systems.2017:6348-6358.)提出了一个端到端的机器学习框架,称为S2V-DQN,用于为图上的NP-hard组合优化问题自动设计贪心启发式算法,方法的核心是深度图嵌入与强化学习的结合。框架主要由两部分组成,首先采用Structure2Vec图形嵌入网络形嵌入网络对当前的图对当前的图形结构进行编码,采用采用强化学习中的Deep QLearning DQN算法进行训练,优化决策网络。学习策略的行为类似于逐步构建解决方案的元算法,其动作由图形嵌入网络在解决方案的当前状态上确定。该框架的主要优点是充分利用了图的结构来学习启发式算法,学习得到的启发式算法在相似的图结构中可以通用。
上述提到的方法都是在已知模型的情况下进行求解的,即已知各个节点之间的二维欧几里德距离。然而在现实配送中通常存在配送时间最短,或在规定时间内完成配送的目标。配送时间通常受到城市交通状况的影响,而交通情况在每个时间段通常是变化的,即在每个时间段两个节点之间的权重(时间)不是固定不变的,而且每天配送任务的目标节点数也是在某个范围内动态变化的。现实中通常我们可以得到的是某个区域内配送过程中记录的历史数据,即从某个节点到某个节点在某个时间段花费了多长的时间,基于历史配送数据采用机器学习的方法基于不同节点数来规划配送路线,达到最小化配送时间的目标,上述方法不适用于此类问题的求解。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010280643.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:全自动化式板键机
- 下一篇:一种人脸识别方法,装置及存储设备
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理