[发明专利]一种基于强化学习的车辆路径规划方法在审

专利信息
申请号: 202010280643.1 申请日: 2020-04-10
公开(公告)号: CN111415048A 公开(公告)日: 2020-07-14
发明(设计)人: 高健;蒋佳浩 申请(专利权)人: 大连海事大学
主分类号: G06Q10/04 分类号: G06Q10/04;G06Q10/08;G06Q50/26;G06N3/04;G06N3/08;G06N20/00
代理公司: 大连东方专利代理有限责任公司 21212 代理人: 李馨
地址: 116026 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 车辆 路径 规划 方法
【权利要求书】:

1.一种基于强化学习的车辆路径规划方法,其特征在于,将客户节点的状态序列作为输入信息,将输入信息送往决策网络,决策网络依据动作值函数选择动作并计算规划车辆行进路线;

所述决策网络的工作过程包括:

S1、初始化所有节点的状态序列,所述状态序列包括节点访问状态和当前时刻信息;

S2、采用卷积神经网络编码当前状态序列,提取当前状态序列的特征向量输入到全连接神经网络,计算输出当前状态下所有动作对应的Q值;

S3、采用e-greedy策略根据每个动作对应的Q值选择动作a,a∈A,其中A为动作集;

S4、在当前环境状态序列下执行动作a,计算得到下一个访问节点,访问该节点并得到新的状态序列;

S5、若所有客户节点已全部访问,则转到步骤S6,否则更新当前状态序列,转到步骤S2;

S6、根据训练数据构成的有向图预估决策得到的路径序列时长;

S7、修改探索记录中每个时间步的奖励为路径序列时长的负数;

S8、将本轮探测的所有探索记录存入经验回放集合R中;

S9、从经验回放集合R中随机采样n条数据,基于DQN算法优化决策网络参数。

2.根据权利要求1所述的基于强化学习的车辆路径规划方法,其特征在于,所述时段加权有向图根据历史配送数据构建,且所述时段加权有向图各边的始点为路线起始节点,终点为到达节点,权重为花费时长。

3.根据权利要求1或2所述的基于强化学习的车辆路径规划方法,其特征在于,所述状态序列表示为S={si,i=1,...,n},si=(y,t)表示节点i在t时刻的状态,其中节点访问状态y包含两种:已被访问表示为0,未被访问表示为1,t表示当前时刻。

4.根据权利要求3所述的基于强化学习的车辆路径规划方法,其特征在于,S4中“得到新的状态序列”包括:

a.仅更新被访问的节点的节点访问状态,其余节点的节点访问状态不变;

b.更新所有节点的当前时刻信息。

5.根据权利要求1所述的基于强化学习的车辆路径规划方法,其特征在于,所述动作集A包括3个启发式算法:

0号策略为考虑全部未访问节点的LKH算法;

1号策略为考虑半径为r的圆形区域内未被访问节点的LKH算法;

2号策略为贪婪策略。

6.根据权利要求1所述的基于强化学习的车辆路径规划方法,其特征在于,所述决策网络的工作过程还包括:S10、每隔e轮,测试模型表现,具体为:

从所有客户节点中随机选取n个节点,其中N为所有客户节点数,采用当前训练得到的模型决策规划配送路线,预估计算路程时长,与对比算法计算得到的路程序列预估时长进行比较,评估当前模型优劣,所述对比算法为LKH算法、2-opt算法或者贪婪算法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010280643.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top