[发明专利]一种基于强化学习的车辆路径规划方法在审
申请号: | 202010280643.1 | 申请日: | 2020-04-10 |
公开(公告)号: | CN111415048A | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 高健;蒋佳浩 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/08;G06Q50/26;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李馨 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 车辆 路径 规划 方法 | ||
1.一种基于强化学习的车辆路径规划方法,其特征在于,将客户节点的状态序列作为输入信息,将输入信息送往决策网络,决策网络依据动作值函数选择动作并计算规划车辆行进路线;
所述决策网络的工作过程包括:
S1、初始化所有节点的状态序列,所述状态序列包括节点访问状态和当前时刻信息;
S2、采用卷积神经网络编码当前状态序列,提取当前状态序列的特征向量输入到全连接神经网络,计算输出当前状态下所有动作对应的Q值;
S3、采用e-greedy策略根据每个动作对应的Q值选择动作a,a∈A,其中A为动作集;
S4、在当前环境状态序列下执行动作a,计算得到下一个访问节点,访问该节点并得到新的状态序列;
S5、若所有客户节点已全部访问,则转到步骤S6,否则更新当前状态序列,转到步骤S2;
S6、根据训练数据构成的有向图预估决策得到的路径序列时长;
S7、修改探索记录中每个时间步的奖励为路径序列时长的负数;
S8、将本轮探测的所有探索记录存入经验回放集合R中;
S9、从经验回放集合R中随机采样n条数据,基于DQN算法优化决策网络参数。
2.根据权利要求1所述的基于强化学习的车辆路径规划方法,其特征在于,所述时段加权有向图根据历史配送数据构建,且所述时段加权有向图各边的始点为路线起始节点,终点为到达节点,权重为花费时长。
3.根据权利要求1或2所述的基于强化学习的车辆路径规划方法,其特征在于,所述状态序列表示为S={si,i=1,...,n},si=(y,t)表示节点i在t时刻的状态,其中节点访问状态y包含两种:已被访问表示为0,未被访问表示为1,t表示当前时刻。
4.根据权利要求3所述的基于强化学习的车辆路径规划方法,其特征在于,S4中“得到新的状态序列”包括:
a.仅更新被访问的节点的节点访问状态,其余节点的节点访问状态不变;
b.更新所有节点的当前时刻信息。
5.根据权利要求1所述的基于强化学习的车辆路径规划方法,其特征在于,所述动作集A包括3个启发式算法:
0号策略为考虑全部未访问节点的LKH算法;
1号策略为考虑半径为r的圆形区域内未被访问节点的LKH算法;
2号策略为贪婪策略。
6.根据权利要求1所述的基于强化学习的车辆路径规划方法,其特征在于,所述决策网络的工作过程还包括:S10、每隔e轮,测试模型表现,具体为:
从所有客户节点中随机选取n个节点,其中N为所有客户节点数,采用当前训练得到的模型决策规划配送路线,预估计算路程时长,与对比算法计算得到的路程序列预估时长进行比较,评估当前模型优劣,所述对比算法为LKH算法、2-opt算法或者贪婪算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010280643.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:全自动化式板键机
- 下一篇:一种人脸识别方法,装置及存储设备
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理