[发明专利]一种基于深度强化学习的动态路径优化问题求解方法有效

申请号：	202010855264.0	申请日：	2020-08-24
公开（公告）号：	CN112116129B	公开（公告）日：	2022-11-01
发明（设计）人：	刘弘;张子臻	申请（专利权）人：	中山大学
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06N20/00;G06Q10/08
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	张金福
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习动态路径优化问题求解方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度强化学习的动态路径优化问题求解方法，包括以下步骤：S1：动态路径优化问题定义；S2：构建深度强化学习框架，所述深度强化学习框架包括四个组成部分，分别为状态、智能体、动作和奖励，所述状态包括所有顾客及所有点对之间预计所需要的通行时间，所述智能体在不同状态下进行决策，得到对应的动作，所述动作为下一位访问的顾客，所述奖励为从仓库点出发，访问所有顾客后回到仓库点所需要的时间；S3：利用深度强化学习框架得出优化后的路径。本发明利用了深度强化学习算法，将动态路径优化问题的动态环境嵌入到模型中，使得模型能感知到环境的动态变化，从而使其在极短时间内得到一个较优的解。

技术领域

本发明涉及运筹学领域中的车辆调度领域，更具体地，涉及一种基于深度强化学习的动态路径优化问题求解方法。

背景技术

路径优化问题是传统的NP-complete组合优化问题，在物流调度行业中有着广泛的应用。根据现实生活中实际约束的不同，又有多种不同的变种，如车辆路径问题，提货送货问题等等。路径优化问题的一个经典变种：动态路径优化问题。

动态路径优化问题定义在有向完全图G＝(V，E)上，其中V代表点集，包含了1个仓库点(0号点)、c位需要服务的顾客(用集合C表示)和n-c-1个可能需要服务的顾客的地点；E代表边集。动态路径优化问题是一个非对称性问题，即问题不保证边集E中方向相反的边(i，j)与(j，i)长度相等。销售员需要在一天的开始(t＝0)从仓库点出发，然后访问集合C中所有的顾客恰好一次(销售员在访问顾客后需立即出发前往下一个目的地)，最后回到仓库点。任意两点i，j之间所需要的通行时间，和当前时间t相关。即销售员若在t＝t₀时刻从点i出发，目的地是点j，那么所需要的通行时间是g_ij(t₀)。其形式化定义如下：问题的目标为最小化旅行总时间，即min∑_i∈{0}∪c∑_j∈{0}∪cg_ij(s_i)x_ij，其中x_ij∈{0，1}。满足每位顾客恰好被访问一次(入度出度都为1)，即销售员必须在t＝0时刻从仓库点出发，即s₀＝0。销售员必须在访问完点i时，必须立刻出发去访问下一个点j，且通行时间为g_ij(s_i)，即g_ij(s_i)x_ij＝(s_j-s_i)x_ij。

公开日为2018年05月18日，中国专利CN108053059A公开了一种运用基于重用策略的智能群体算法优化动态路径优化问题的方法。传统的路径优化问题需要在一个静态的搜索空间中找到一条代价最小的哈密顿回路。但实际上，现实世界中一些可以以路径优化问题为模型的应用并不都是静态的。它们的问题模型中的城市集合和权重矩阵是动态变化的。在动态环境中，上一次环境中搜索结果可以被新环境下的群体重用并得以学习。目前解决动态路径优化问题的主要解法以启发式算法为主，如遗传算法、蚁群算法等。启发式算法的优点在于能得到较优的解，而缺点在于所需运行时间过长。不适合用于求解动态路径优化问题这类在线问题。

用于求解路径优化问题的主要算法可以分为三类。第一类是精确算法，精确算法如分支定界法，分支切割法，列生成法等。这类算法的思路是遍历所有解空间，并将不可能是最优解的空间舍弃。精确算法能找到问题的最优解，却需要耗费极大量的搜索时间。第二类是启发式算法，如邻域搜索法、模拟退火、遗传算法等等。启发式算法。启发式算法一般首先需要一个或一组最优解，之后迭代对这些解进行优化。第三类是构造算法如最近邻法，最近插入法，最远插入法等。构造算法根据问题特点，直接得到一个解，不需要对解进行优化。构造算法的运行速度快，而一般来说解的质量较低。

发明内容

本发明提供一种基于深度强化学习的动态路径优化问题求解方法，快速高质量的获得问题的最优解。

为解决上述技术问题，本发明的技术方案如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010855264.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政；管理
G06Q10-02 .预定，例如用于门票、服务或事件的
G06Q10-04 .预测或优化，例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理，例如组织、规划、调度或分配时间、人员或机器资源；企业规划；组织模型
G06Q10-08 .物流，例如仓储、装货、配送或运输；存货或库存管理，例如订货、采购或平衡订单
G06Q10-10 .办公自动化，例如电子邮件或群件的计算机辅助管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度强化学习的动态路径优化问题求解方法有效

专利文献下载