[发明专利]一种基于深度强化学习的共享自行车调度方法有效
申请号: | 202110744265.2 | 申请日: | 2021-06-30 |
公开(公告)号: | CN113326993B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 肖峰;涂雯雯 | 申请(专利权)人: | 西南财经大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/0631;G06Q50/30;G06F30/15;G06F30/27;G06N3/04;G06N3/092;G06F111/04;G06F111/08;G06F119/12 |
代理公司: | 成都正德明志知识产权代理有限公司 51360 | 代理人: | 张小娟 |
地址: | 611130 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 共享 自行车 调度 方法 | ||
1.一种基于深度强化学习的共享自行车调度方法,其特征在于,包括以下步骤:
S1:划分共享自行车的调度区域,得到调度区域单元,并确定共享自行车的运行环境变量;
S2:基于调度区域单元,根据共享自行车的运行环境变量,确定共享自行车的调度变量;
S3:根据共享自行车的调度变量,构建共享自行车的车辆调度优化模型;
S4:基于共享自行车的车辆调度优化模型,利用平均场理论构建共享自行车调度框架,并利用共享自行车调度框架完成共享自行车调度;
所述步骤S1中,划分共享自行车的调度区域的具体方法为:将共享自行车的调度区域分割为若干个相同的等边六角形,作为调度区域单元,并定义每个调度区域单元的全局标签变量η5、水平方向标签变量m和垂直方向标签变量h,其满足如下关系式:
其中,η5∈M′,M′={0,1,...,((M+1)2-1)},M表示调度区域单元的水平方向标签变量或垂直方向标签变量的最大值,M′表示调度区域单元的单元标签集合;
所述步骤S1中,共享自行车的运行环境变量包括时间变量和城市固定仓库位置集合变量;
所述时间变量包括时间步变量t、时间步变量集合T和时间步的最大值变量Tmax,其中,t∈T,T={0,1,...,Tmax};
所述城市固定仓库位置集合变量包括固定仓库位置集合ηw;
所述步骤S2中,共享自行车的调度变量包括策略执行状态变量类、供需环境变量类、骑行出行变量类和调度策略变量类;
所述策略执行状态变量类包括策略执行状态变量tr,其中,tr∈{0,1};
在时间步t时,所述供需环境变量类包括调度区域单元的共享自行车出行需求变量策略执行状态变量tr=0时调度区域单元的共享自行车供应量变量和策略执行状态变量tr=1时调度区域单元的共享自行车供应量变量
在时间步t时,所述骑行出行变量类包括共享自行车出行的OD起点所在调度区域单元的全局标签η2、共享自行车出行的OD讫点所在调度区域单元的全局标签η3、共享自行车出行的OD标签变量(η2,η3)、共享自行车出行的OD流量共享自行车从η2出发并到达η3的出行流量比率η5产生的共享自行车的实际出行量变量和η5的共享自行车的实际吸引量变量
在时间步t时,所述调度策略变量类包括调度车标签集合I、调度车标签变量i、调度车起始单元标签变量调度车达到单元标签变量调度车移动方向变量集合κ1、调度比率变量集合κ2、调度车从移动至相邻的六个正六边形的移动方向变量调度车的调度比率变量调度车的调度策略调度车的车仓最大容量调度车从ηti,0拾起并投放于的共享自行车辆数量变量调度车到达且属于ηw时调度车投放于ηi,1的共享自行车辆数目占车仓内车辆数目的比率αwh、调度车实施调度策略之前预计以往调度车已实施调度策略情况下η5的供应量的预计累计增减量变量调度车实施调度策略后增加的收益和调度周期时间终止时城市固定仓库储存的共享自行车的总量Zwarehouse;
其中,I={0,1,...,N},N表示调度车标签变量的最大值,i∈I,κ1={0,1,...,5},κ2={0,0.25,0.5,0.75},
所述步骤S3中,共享自行车的车辆调度优化模型具体为:
s.t.
在车辆调度优化模型中,将调度车实施调度策略后增加的收益最大化作为共享自行车的短期调度优化问题的目标函数其计算公式为其中,t表示时间步,Tmax表示时间步的最大值变量,i表示调度车标签变量,N表示调度车标签变量最大值,表示调度车的调度策略;
在时间步变量t策略执行状态变量tr=0时,动作决策的计算公式为其中,表示调度车从移动至相邻的六个正六边形的移动方向变量,表示调度车的调度比率变量;
在时间步变量t策略执行状态变量tr=0时,当调度区域单元的全局标签变量η5和共享自行车出行的OD起点所在调度区域单元的全局标签η2相同时,共享自行车出行的OD标签变量(η2,η3)的共享自行车的路径流量的计算公式为且其中,INT(·)表示向下取整数值,表示调度区域单元的共享自行车出行需求变量,表示初始给定供给量为t=0时调度区域单元内共享自行车供应量变量,表示策略执行状态变量tr=1时调度区域单元内的共享自行车供应量变量,表示共享自行车从η2出发并到达η3的出行流量比率,M′表示调度区域单元的单元标签集合;
将以共享自行车出行的OD起点所在调度区域单元的全局标签η2为起点的出行流量比率的总和定值为1,其计算公式为其中,T表示时间步变量集合,η3表示共享自行车出行的OD讫点所在单元的全局标签;
根据路径流量在时间步t策略执行状态tr=0时,当调度区域单元的全局标签变量η5和共享自行车出行的OD起点所在单元的全局标签η2相同时,将共享自行车路径流量的总和作为调度区域单元的全局标签变量η5的共享自行车的实际出行量其计算公式为
在时间步变量t策略执行状态变量tr=0时,当调度区域单元的全局标签变量η5和共享自行车出行的OD讫点所在单元的全局标签η3相同时,将共享自行车路径流量的总和作为调度区域单元的全局标签变量η5的共享自行车实际吸引量其计算公式为
在时间步变量t策略执行状态变量tr=0时,共享自行车供应量根据骑行者出行活动中的租借和停放的共享自行车辆数进行更新,其计算公式为其中,表示(t-1)时间步时已实施调度策略后策略执行状态变量tr=1的共享自行车供应量变量,表示t时间步时η5的共享自行车实际出行量变量,表示t时间步η5的共享自行车实际吸引量变量;
在时间步变量t策略执行状态变量tr=0时,调度车在(t+1)时间步将要到达的单元标签变量的计算公式为其中,m表示调度区域单元的水平方向标签变量,h表示调度区域单元的垂直方向标签变量,表示调度车(t+1)时间步的起始单元标签变量,表示调度车从ηi,0移动至相邻的六个正六边形的移动方向变量;
在时间步变量t策略执行状态变量tr=0时,η5的供应量的预计累计增减量的计算公式为其中,表示第(i-1)辆调度车预计从η5拾起共享自行车辆数,αwh表示调度车到达ηi,1且ηi,1属于ηw时调度车投放于ηi,1的共享自行车辆数目占车仓内车辆数目的比率,ηw表示固定仓库位置集合;
在时间步t策略执行状态变量tr=0时,调度车从ηi,0将辆共享自行车拾起并放入调度车的车仓内,并将辆共享自行车全部投放在ηi,1中,调度车拾起的车辆数的计算公式为且其中,min(·)表示取最小值,表示策略执行状态变量tr=0时的供给量,ηi,0表示调度车的起始单元标签变量,表示调度车的车仓最大容量,表示调度车的调度比率变量;
在时间步t策略执行状态变量tr=1时,根据调度车拾起的车辆数执行调度策略,并更新η5,得到实施调度策略后η5的共享自行车供应量变量其计算公式为
城市固定仓库储存的共享自行车的总量Zwarehouse的计算方式为
所述步骤S4包括以下子步骤:
S41:基于共享自行车的车辆调度优化模型,确定共享自行车调度框架的要素;
S42:利用one-hot编码方式,确定平均动作;
S43:定义共享自行车调度框架的经验池变量和训练回合相关变量;
S44:基于平均场理论,根据共享自行车调度框架的要素、平均动作、经验池变量和训练回合相关变量,构建共享自行车调度框架。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南财经大学,未经西南财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110744265.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种离合装置
- 下一篇:一种耳机控制方法、电子设备及耳机
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理