[发明专利]一种基于强化学习的取送货车辆路径规划方法在审

申请号：	202111355807.3	申请日：	2021-11-16
公开（公告）号：	CN114237222A	公开（公告）日：	2022-03-25
发明（设计）人：	刘发贵;赖承启	申请（专利权）人：	华南理工大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	周春丽
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习送货车辆路径规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的取送货车辆路径规划方法，其特征在于，包括以下步骤：

S1：构建基于A2C框架的强化学习模型及其优化目标；

S2：初始化强化学习模型所有的参数值，随机生成数据集；

S3：构建强化学习模型的训练过程，将步骤S2中生成的数据集输入强化学习模型，计算每一轮训练结果的奖励值；

S4：根据损失值采用基于策略梯度的强化学习方法对强化学习模型进行优化；

S5：设置最大训练轮数，重复步骤S3-步骤S4，得到训练完成的强化学习模型，采用训练完成的强化学习模型进行取送货车辆路径规划。

2.根据权利要求1所述的一种基于强化学习的取送货车辆路径规划方法，其特征在于，每个客户订单都包括一个取货点和n个送货点，n∈[2，4]；取货点货物的体积和重量等于n个送货点货物的体积和重量之和；由于存在有的不同货物不能混合装载的这一限制，每个客户订单的取货点和其对应的所有送货点都由同一辆车配送；车辆可使用数量不限，车辆的最大载重、最长行驶距离、最大容积都是一样的；车辆都从同一个车场出发，送完其所有订单后返回车场；

对于同一个客户订单，取货必须在送货之前，车辆必须先从取货点取走所有的货，然后送至其对应的每一个送货点；对于不同的客户订单，取货和送货则可以交叉进行；

强化学习模型的优化目标是最小化所有车辆的行驶距离总和F：

其中，|R|表示当前路线R中的节点数，表示车辆m经过的第i个节点，||·||₂表示L2范数，表示车辆m由第i个节点行驶至下一个节点的距离，M表示使用到的所有车辆。

3.根据权利要求1所述的一种基于强化学习的取送货车辆路径规划方法，其特征在于，步骤S1中，强化学习模型包括actor网络和critic网络；

actor网络包括第一编码器、解码器和注意力层；第一编码器用来处理输入的所有取货点和送货点的坐标、当前车辆载重和当前所有取货点的取货量和送货点的送货量，输入编码器的数据经过第一编码器中的卷积层得到第一向量embed_1；解码器用来处理当前车辆所在节点的坐标，输入解码器的数据经过解码器中的卷积层和GRU层得到第二向量embed_2；注意力层维护第一零矩阵v和第二零矩阵W，把第一向量embed_1和第二向量embed_2相加，连接起来得到第三向量hidden，进行操作得到概率矩阵p＝softmax(v·tanh(W·hideen)；在解码器的GRU层中加入dropout操作；

critic网络包括第二编码器和全连接层，第二编码器用来处理输入的所有取货点和送货点的坐标、当前车辆载重和当前所有取货点的取货量和送货点的送货量，将输入经过第二编码器中的卷积层得到第三向量embed_3；全连接层将第三向量embed_3作为输入，全连接层包括多个卷积层，全连接层中使用ReLU激活函数去除每个卷积层输出中的负值。

4.根据权利要求3所述的一种基于强化学习的取送货车辆路径规划方法，其特征在于，定义强化学习模型中的基础元素，包括智能体、状态和奖励值，具体如下：

智能体：一辆车就是一个智能体，从起始状态开始，智能体将依照策略选择下一步的动作，在每一步动作完成后，智能体将根据得到的数据反馈进而更新策略；

状态：状态分为静态状态和动态状态；静态状态为随着时间不改变的属性，包括每个节点的坐标；动态状态为随着训练过程会发生改变的属性，包括车辆当前载重和所处位置以及每个节点的需求量；

奖励值：强化学习模型的训练目标是最大化奖励值，而优化目标是最小化行驶距离F，将-F作为奖励值。

5.根据权利要求1所述的一种基于强化学习的取送货车辆路径规划方法，其特征在于，步骤S2中，初始化参数值，包括优化器学习率e、向量维度d、训练批次大小S、最大训练轮数epoch、节点个数nodes和dropout值；基于现有的取送货实例数据集，采用随机的方法来生成数据，具体如下：

对于数据集中的每个实例，将其中的所有节点划分为取货点和送货点，对每个节点的坐标在一定范围对其进行随机扰动以产生新的实例，然后为每个取货点随机指定多个送货点，将取货点的需求量平分赋值给每个指定的送货点。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111355807.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于刮泥机的端梁激光切割装置及其方法
下一篇：一种碳包覆氟磷酸铁钠材料及其制备方法与应用

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的取送货车辆路径规划方法在审

专利文献下载