[发明专利]一种基于深度强化学习的共享自行车调度方法有效

申请号：	202110744265.2	申请日：	2021-06-30
公开（公告）号：	CN113326993B	公开（公告）日：	2023-06-09
发明（设计）人：	肖峰;涂雯雯	申请（专利权）人：	西南财经大学
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q10/0631;G06Q50/30;G06F30/15;G06F30/27;G06N3/04;G06N3/092;G06F111/04;G06F111/08;G06F119/12
代理公司：	成都正德明志知识产权代理有限公司 51360	代理人：	张小娟
地址：	611130 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习共享自行车调度方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的共享自行车调度方法，其特征在于，包括以下步骤：

S1：划分共享自行车的调度区域，得到调度区域单元，并确定共享自行车的运行环境变量；

S2：基于调度区域单元，根据共享自行车的运行环境变量，确定共享自行车的调度变量；

S3：根据共享自行车的调度变量，构建共享自行车的车辆调度优化模型；

S4：基于共享自行车的车辆调度优化模型，利用平均场理论构建共享自行车调度框架，并利用共享自行车调度框架完成共享自行车调度；

所述步骤S1中，划分共享自行车的调度区域的具体方法为：将共享自行车的调度区域分割为若干个相同的等边六角形，作为调度区域单元，并定义每个调度区域单元的全局标签变量η⁵、水平方向标签变量m和垂直方向标签变量h，其满足如下关系式：

其中，η⁵∈M′，M′＝{0,1,...,((M+1)²-1)}，M表示调度区域单元的水平方向标签变量或垂直方向标签变量的最大值，M′表示调度区域单元的单元标签集合；

所述步骤S1中，共享自行车的运行环境变量包括时间变量和城市固定仓库位置集合变量；

所述时间变量包括时间步变量t、时间步变量集合T和时间步的最大值变量T_max，其中，t∈T，T＝{0,1,...,T_max}；

所述城市固定仓库位置集合变量包括固定仓库位置集合η^w；

所述步骤S2中，共享自行车的调度变量包括策略执行状态变量类、供需环境变量类、骑行出行变量类和调度策略变量类；

所述策略执行状态变量类包括策略执行状态变量tr，其中，tr∈{0,1}；

在时间步t时，所述供需环境变量类包括调度区域单元的共享自行车出行需求变量策略执行状态变量tr＝0时调度区域单元的共享自行车供应量变量和策略执行状态变量tr＝1时调度区域单元的共享自行车供应量变量

在时间步t时，所述骑行出行变量类包括共享自行车出行的OD起点所在调度区域单元的全局标签η²、共享自行车出行的OD讫点所在调度区域单元的全局标签η³、共享自行车出行的OD标签变量(η²,η³)、共享自行车出行的OD流量共享自行车从η²出发并到达η³的出行流量比率η⁵产生的共享自行车的实际出行量变量和η⁵的共享自行车的实际吸引量变量

在时间步t时，所述调度策略变量类包括调度车标签集合I、调度车标签变量i、调度车起始单元标签变量调度车达到单元标签变量调度车移动方向变量集合κ₁、调度比率变量集合κ₂、调度车从移动至相邻的六个正六边形的移动方向变量调度车的调度比率变量调度车的调度策略调度车的车仓最大容量调度车从η_t^i,0拾起并投放于的共享自行车辆数量变量调度车到达且属于η^w时调度车投放于η^i,1的共享自行车辆数目占车仓内车辆数目的比率α_wh、调度车实施调度策略之前预计以往调度车已实施调度策略情况下η⁵的供应量的预计累计增减量变量调度车实施调度策略后增加的收益和调度周期时间终止时城市固定仓库储存的共享自行车的总量Z_warehouse；

其中，I＝{0,1,...,N}，N表示调度车标签变量的最大值，i∈I，κ₁＝{0,1,...,5}，κ₂＝{0,0.25,0.5,0.75}，

所述步骤S3中，共享自行车的车辆调度优化模型具体为：

s.t.

在车辆调度优化模型中，将调度车实施调度策略后增加的收益最大化作为共享自行车的短期调度优化问题的目标函数其计算公式为其中，t表示时间步，T_max表示时间步的最大值变量，i表示调度车标签变量，N表示调度车标签变量最大值，表示调度车的调度策略；

在时间步变量t策略执行状态变量tr＝0时，动作决策的计算公式为其中，表示调度车从移动至相邻的六个正六边形的移动方向变量，表示调度车的调度比率变量；

在时间步变量t策略执行状态变量tr＝0时，当调度区域单元的全局标签变量η⁵和共享自行车出行的OD起点所在调度区域单元的全局标签η²相同时，共享自行车出行的OD标签变量(η²，η³)的共享自行车的路径流量的计算公式为且其中，INT(·)表示向下取整数值，表示调度区域单元的共享自行车出行需求变量，表示初始给定供给量为t＝0时调度区域单元内共享自行车供应量变量，表示策略执行状态变量tr＝1时调度区域单元内的共享自行车供应量变量，表示共享自行车从η²出发并到达η³的出行流量比率，M′表示调度区域单元的单元标签集合；

将以共享自行车出行的OD起点所在调度区域单元的全局标签η²为起点的出行流量比率的总和定值为1，其计算公式为其中，T表示时间步变量集合，η³表示共享自行车出行的OD讫点所在单元的全局标签；

根据路径流量在时间步t策略执行状态tr＝0时，当调度区域单元的全局标签变量η⁵和共享自行车出行的OD起点所在单元的全局标签η²相同时，将共享自行车路径流量的总和作为调度区域单元的全局标签变量η⁵的共享自行车的实际出行量其计算公式为

在时间步变量t策略执行状态变量tr＝0时，当调度区域单元的全局标签变量η⁵和共享自行车出行的OD讫点所在单元的全局标签η³相同时，将共享自行车路径流量的总和作为调度区域单元的全局标签变量η⁵的共享自行车实际吸引量其计算公式为

在时间步变量t策略执行状态变量tr＝0时，共享自行车供应量根据骑行者出行活动中的租借和停放的共享自行车辆数进行更新，其计算公式为其中，表示(t-1)时间步时已实施调度策略后策略执行状态变量tr＝1的共享自行车供应量变量，表示t时间步时η⁵的共享自行车实际出行量变量，表示t时间步η⁵的共享自行车实际吸引量变量；

在时间步变量t策略执行状态变量tr＝0时，调度车在(t+1)时间步将要到达的单元标签变量的计算公式为其中，m表示调度区域单元的水平方向标签变量，h表示调度区域单元的垂直方向标签变量，表示调度车(t+1)时间步的起始单元标签变量，表示调度车从η^i,0移动至相邻的六个正六边形的移动方向变量；

在时间步变量t策略执行状态变量tr＝0时，η⁵的供应量的预计累计增减量的计算公式为其中，表示第(i-1)辆调度车预计从η⁵拾起共享自行车辆数，α_wh表示调度车到达η^i,1且η^i,1属于η^w时调度车投放于η^i,1的共享自行车辆数目占车仓内车辆数目的比率，η^w表示固定仓库位置集合；

在时间步t策略执行状态变量tr＝0时，调度车从η^i,0将辆共享自行车拾起并放入调度车的车仓内，并将辆共享自行车全部投放在η^i,1中，调度车拾起的车辆数的计算公式为且其中，min(·)表示取最小值，表示策略执行状态变量tr＝0时的供给量，η^i,0表示调度车的起始单元标签变量，表示调度车的车仓最大容量，表示调度车的调度比率变量；

在时间步t策略执行状态变量tr＝1时，根据调度车拾起的车辆数执行调度策略，并更新η⁵，得到实施调度策略后η⁵的共享自行车供应量变量其计算公式为

城市固定仓库储存的共享自行车的总量Z_warehouse的计算方式为

所述步骤S4包括以下子步骤：

S41：基于共享自行车的车辆调度优化模型，确定共享自行车调度框架的要素；

S42：利用one-hot编码方式，确定平均动作；

S43：定义共享自行车调度框架的经验池变量和训练回合相关变量；

S44：基于平均场理论，根据共享自行车调度框架的要素、平均动作、经验池变量和训练回合相关变量，构建共享自行车调度框架。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西南财经大学，未经西南财经大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110744265.2/1.html，转载请声明来源钻瓜专利网。