[发明专利]一种基于逆强化学习的价格激励共享电动汽车调度方法在审
申请号: | 202210960983.8 | 申请日: | 2022-08-11 |
公开(公告)号: | CN115099718A | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 陈丽莉;邢晋奎;张延滋;冉伦;焦子豪 | 申请(专利权)人: | 北京工商大学;清华大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q30/06 |
代理公司: | 北京新科华领知识产权代理事务所(普通合伙) 16115 | 代理人: | 吴变变 |
地址: | 100048 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 价格 激励 共享 电动汽车 调度 方法 | ||
1.一种基于逆强化学习的价格激励共享电动汽车调度方法,其特征在于,包括:
收集用户的历史出行数据,基于所述历史出行数据,根据调度场景构建车辆调度模型;
基于所述历史出行数据和逆强化学习算法对用户的出行策略和行为偏好进行评估,获得区域服务价值;
根据区域服务价值,结合用户用车需求,制定价格激励车辆调度策略;
基于所述车辆调度模型,通过价格激励车辆调度策略与众包调度方式完成车辆调度。
2.根据权利要求1所述的基于逆强化学习的价格激励共享电动汽车调度方法,其特征在于,基于所述历史出行数据,根据调度场景构建车辆调度模型的过程包括,
基于用户历史出行数据在共享汽车情境下的马尔可夫决策过程,将所有车辆视为同质智能体进行建模,根据调度场景获得车辆调度模型。
3.根据权利要求1所述的基于逆强化学习的价格激励共享电动汽车调度方法,其特征在于,
基于所述历史出行数据和逆强化学习算法对用户的出行策略和行为偏好进行评估,获得区域服务价值的过程包括,
基于所述车辆调度模型中的模型元素,将用户的历史出行数据按照运行时间段进行分组,构建用户出行模型;基于改进的动态规划算法对所述用户出行模型进行策略评估,获得区域服务价值。
4.根据权利要求3所述的基于逆强化学习的价格激励共享电动汽车调度方法,其特征在于,
所述车辆调度模型中的模型元素包括,状态元素、动作元素、收益元素、策略元素、折扣因子元素;
其中,所述状态元素为车辆的时空二位变量,包括时间维度状态元素、空间维度状态元素;
所述动作元素为在特定时段内车辆从一个区域行驶到另一个区域的过程元素;
所述收益元素为用户使用共享电动汽车所产生的费用定义为车辆的收益元素;
所述策略元素为客户选择区域转移时所采取的概率矩阵。
5.根据权利要求3所述的基于逆强化学习的价格激励共享电动汽车调度方法,其特征在于,
基于所述车辆调度模型,通过价格激励车辆调度策略与众包调度方式完成车辆调度之前还包括对所述车辆调度模型进行优化;
所述优化过程包括,基于所述区域服务价值获得调度成本参数;
根据调度场景构建车辆调度模型,基于所述调度成本参数对所述车辆调度模型进行优化,获得目标调度模型;基于所述目标调度模型,通过价格激励车辆调度策略与众包调度方式完成车辆调度。
6.根据权利要求1所述的基于逆强化学习的价格激励共享电动汽车调度方法,其特征在于,
基于价格激励车辆调度策略与众包调度方式完成车辆调度的过程包括,获取运营商的调度车辆成本、充电成本、未满足需求的惩罚成本,基于所述调度车辆成本、充电成本、未满足需求的惩罚成本获得确定化需求情景下的最小化成本目标函数;基于所述最小化成本目标函数进行车辆调度。
7.根据权利要求6所述的基于逆强化学习的价格激励共享电动汽车调度方法,其特征在于,
基于所述最小化成本目标函数进行车辆调度的过程包括,获得每个阶段中车辆数目的状态转移方程以及调度车辆的约束条件,基于所述每个阶段中车辆数目的状态转移方程以及调度车辆的约束条件进行车辆调度。
8.根据权利要求7所述的基于逆强化学习的价格激励共享电动汽车调度方法,其特征在于,
所述调度车辆的约束条件包括,每个服务区域内的总车辆数小于等于该地区的停车位数量限制;在任何阶段,运营商在每一地区能够调度的车辆数小于等于该地区的可用车辆数;任意阶段内运营商在每一地区能够调度的车辆数小于等于该地区能够激励的人群数量;运营商租赁的车辆数小于等于该地区的需求数以及调度后的可用车辆数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学;清华大学,未经北京工商大学;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210960983.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双电源切换装置及其控制方法
- 下一篇:单壁围堰变双壁围堰的施工方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理