[发明专利]一种基于确定性策略梯度学习的PHEV能量管理方法有效
申请号: | 201910659905.2 | 申请日: | 2019-07-22 |
公开(公告)号: | CN110341690B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 何洪文;李岳骋;彭剑坤 | 申请(专利权)人: | 北京理工大学 |
主分类号: | B60W20/11 | 分类号: | B60W20/11;B60W50/00;G06N3/04 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 范盈 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于确定性策略梯度学习的PHEV能量管理方法,实现了基于确定性策略梯度学习的PHEV能量管理中包括策略训练、在线应用、效果检测、反馈更新等多个方面的闭环应用,相对于现有技术具有更高的精确度,大大提高了PHEV能量管理的效率与可靠性,具有当前的诸多管理策略所不具备的有益效果。 | ||
搜索关键词: | 一种 基于 确定性 策略 梯度 学习 phev 能量 管理 方法 | ||
【主权项】:
1.一种基于确定性策略梯度学习的PHEV能量管理方法,其特征在于:具体包括以下步骤:步骤一、利用深层神经DNN网络分别搭建动作Actor网络和动作价值Critic网络,共同组成确定性策略梯度学习算法的基本网络框架即AC网络,以构建PHEV能量管理策略学习网络;并对所述AC网络参数进行初始化和状态数据的归一化处理;步骤二、对所述动作价值网络进行预训练,定义并初始化用于存储后续训练产生的状态转移样本的存储空间作为经验池,获取初始时刻的状态向量,采用∈退火贪婪策略选择当前状态下的动作向量,存储当前时刻的状态转移样本,并对所述动作价值网络进行更新;以网络更新迭代次数作为Critic网络预训练和AC网络训练是否满足要求的依据;步骤三、基于所述步骤二中所选择的当前状态下的动作向量,获取动力系统的控制动作量和驾驶需求,计算PHEV动力系统的动力响应,并评估发动机燃油消耗水平,计算动力电池的状态转移,获取下一时刻状态向量并计算奖赏信号;步骤四、对动力电池荷电状态SOC参考值初始化并更新SOC偏差,并依次对累积行驶距离以及所述动力电池参考值进行更新;步骤五、获取当前时刻状态向量并计算当前时刻动作向量,调整动作向量输出频率,动力系统响应动作向量后对下一时刻重复该步骤的能量管理策略在线应用过程;步骤六、根据实时行驶车速更新速度转移概率矩阵,记录瞬时燃油消耗率,更新油耗移动平均值,检测是否需要更新能量管理策略;如需要更新,则执行生成新的训练工况,用于所述步骤一与步骤二对所建立的PHEV能量管理策略模型网络进行训练,从而实现所述模型网络的更新。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910659905.2/,转载请声明来源钻瓜专利网。