[发明专利]一种基于强化学习的电动汽车经济性自适应巡航控制方法及系统在审
申请号: | 202210331495.0 | 申请日: | 2022-03-31 |
公开(公告)号: | CN114771520A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 彭军;贾席;周峰;李恒;刘伟荣;彭辉;黄志武;杨迎泽;蒋富;张晓勇;荣介奇 | 申请(专利权)人: | 中南大学 |
主分类号: | B60W30/14 | 分类号: | B60W30/14;B60W40/00;B60W40/10;B60W40/105;B60W30/09 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 颜勇 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 电动汽车 经济 自适应 巡航 控制 方法 系统 | ||
1.一种基于强化学习的电动汽车经济性自适应巡航控制方法,其特征在于,包括以下步骤:
步骤S1,对数据集NGSIM进行数据处理,提取跟车行程片段,对数据集中的主车速度、加速度、前车速度、相对距离归一化处理;
步骤S2,建立电动汽车纵向动力学模型和锂离子电池功率模型,计算行车过程中动力学参数和荷电状态的变化量;
步骤S3,构建车辆自适应巡航过程为马尔科夫决策过程,定义状态、动作,构建安全、能耗和舒适度结合的奖励函数;
步骤S4,构建强化学习DDPG算法环境配置,采用70%NGSIM数据集和电池荷电状态,训练自适应巡航控制DDPG控制器;采用30%数据进行测试;
步骤S5,将训练好的DDPG控制器用于车辆自适应巡航系统仿真,得到理想加速度;定期对DDPG神经网络参数训练更新;
步骤S6,构建PID自适应巡航控制系统执行器,通过逆动力学模型,得到理想加速度的对应驱动/制动力矩。
2.根据权利要求1所述的基于强化学习的电动汽车经济性自适应巡航控制方法,其特征在于,步骤S2电动汽车纵向动力学模型中的最小安全距离为:
上式中Vx、Vy分别表示本车、前车的速度,ax、ay分别表示本车、前车的最大减速度,t0表示驾驶员反应时间,d0表示静止时刻的距离。
3.根据权利要求1所述的基于强化学习的电动汽车经济性自适应巡航控制方法,其特征在于,步骤S2中电动汽车锂离子电池荷电状态变化率为:
上式中ibatt表示电池电流,Qbatt表示电池容量,Voc表示开路电压,Rint表示电池内阻。
4.根据权利要求1所述的基于强化学习的电动汽车经济性自适应巡航控制方法,其特征在于,步骤S3中的奖励函数为:
R=w1Rheadway+w2Rsoft+w3RSoC
w1+w2+w3=1
其中,安全奖励函数为:
舒适度奖励函数为:
能耗奖励函数为:
RSoC=-ΔSoC
上式中w1、w2、w3分别表示安全奖励函数、舒适度奖励函数、能耗奖励函数的权重。
5.根据权利要求1所述的基于强化学习的电动汽车经济性自适应巡航控制方法,其特征在于,步骤S6中PID控制算法公式为:上式中u(t)表示控制输出,e(t)表示控制误差,Kp、Ki、Kd分别表示积分、微分、差分系数。
6.一种基于强化学习的电动汽车经济性y适应巡航控制系统,其特征在于,包括:
信息感知模块:用于实时采集自适应巡航系统中主车和前车的速度、加速度、相对车距和锂离子电池荷电状态信息,并传输到强化学习训练模块和自适应巡航控制模块;
强化学习训练模块:用于构建自适应巡航控制问题的马尔科夫过程问题,搭建强化DDPG算法的环境配置,根据数据信息训练DDPG两个神经网络参数,根据历史数据不断试错学习得到最优的动作,实现安全、经济、舒适地车辆驾驶;
自适应巡航控制模块:用于将训练好的强化学习DDPG神经网络作为自适应巡航控制器,输出控制量即主车加速度到驱动/制动执行模块;
驱动/制动执行模块:用于根据自适应巡航控制模块层输出的最优加速度,通过逆动力学模型,利用PID控制算法得到对应的理想驱动/制动力矩。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210331495.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:溢流组件以及坐便器
- 下一篇:报警信息的处理方法及装置