[发明专利]一种多物理场约束的锂离子电池智能快速充电方法有效

专利信息
申请号: 202011087624.3 申请日: 2020-10-13
公开(公告)号: CN112018465B 公开(公告)日: 2021-01-29
发明(设计)人: 魏中宝;吴京达;何洪文;李建威;钟浩 申请(专利权)人: 北京理工大学
主分类号: H01M10/44 分类号: H01M10/44;H02J7/00;G06F17/11;G06N3/04;G06N3/06;G06N3/08
代理公司: 成都方圆聿联专利代理事务所(普通合伙) 51241 代理人: 李鹏
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 物理 约束 锂离子电池 智能 快速 充电 方法
【权利要求书】:

1.一种多物理场约束的锂离子电池智能快速充电方法,其特征在于包括以下步骤:

S1.开展锂离子电池测试,建立锂离子电池电热耦合模型和老化模型;

S2.将S1中确定的关键状态归入强化学习状态空间,定义动作空间和奖励函数,搭建深度确定性策略梯度算法的策略网络、价值网络并进行初始化,定义优先经验回放池;

所述步骤S2包括以下子步骤:

S201.确定锂离子电池快速充电过程中的约束变量,作为状态向量空间s的组成变量,选择充电电流或充电功率作为动作变量,作为动作空间A的组成变量;

选取荷电状态SoC,电芯温度Tc和端电压V作为约束变量,充电电流cr作为控制动作,状态空间S、时变状态变量st、动作空间A和时变动作变量at分别定义如下:

S={SoC,Tc,V}

st=[SoCt,Tc,t,Vt],st∈S

A={cr|cr∈(0,6C)}

at=crt,at∈A

其中,下标t代表时刻t,为物理量的时序表达,具体地:

SoCt为t时刻锂离子电池荷电状态;Tc,t为t时刻锂离子电池电芯温度;Vt为t时刻端电压;C为充电倍率,是充电电流cr的单位;at为t时刻动作变量;crt即t时刻充电电流;

S202.根据预期控制目标选择奖励函数的参考指标,建立归一化奖励函数;

S203.建立用于策略选择的全连接深度神经网络作为策略网络μ,θμ表示策略网络的参数;建立用于评估策略价值的全连接深度神经网络作为价值网络Q,θQ表示价值网络的参数;对策略网络和价值网络的权重和偏置进行初始化赋值;复制策略网络作为目标策略网络,复制价值网络作为目标价值网络;

S204.选择经验回放池最大容量值,建立经验回放池,用于储存训练过程每一时刻的信息组,该信息组包括:状态变量,动作变量,奖励函数和状态转移后的状态变量;

S3.设定离线训练场景,获取初始时刻状态变量,利用策略网络获取当前状态下的动作变量,采用基于随机变换的噪声探索机制扩大动作选取范围;

所述步骤S3包括以下子步骤:

S301.对于当前训练回合数i,初始i=1,开启经验储存池,对锂离子电池模型进行状态初始化,设定时间t=0;

S302.获取初始时刻状态变量s0,将状态变量输入策略网络获得动作变量a=μ(s|θμ),为该动作附加一均值为0,标准差为1倍动作变量定义域的随机噪声;

S4.依据S1中电池模型,生成充电动作、电池状态转移、奖励值并记录于经验池,通过选择经验记录进行深度确定性策略梯度网络的同步更新;

所述步骤S4包括以下子步骤:

S401.基于S1中建立的电池模型,输入所选择的当前状态下的动作变量,计算更新状态变量空间和实时奖励函数值,将时间步长内的at,st,st+1和奖励函数值rt组成经验元组;

S402.计算t时刻优先度:

LQ(t)=[rt+γQ'(st+1,μ(st+1)|θQ')-Q(st,atQ)]2

式中,γ为折扣因子;μ(·)代表策略网络,Q(·)代表价值网络;Q′(·)代表目标价值网络;θμ和θQ分别代表策略网络的参数和价值网络的参数;具体地:

μ(s|θμ)代表以θμ为参数的策略网络,对输入的状态变量s的响应;

Q(st,atQ)代表以θQ为参数的价值网络,对t时刻输入的状态变量st和动作变量at的响应;

Q′(st+1,μ(st+1)|θQ′)代表以θQ′为参数的目标价值网络,对t+1时刻输入的状态变量st+1和动作变量μ(st+1)的响应;

将S401中的经验元组和优先度ranzkt作为t时刻的数据储存于经验回放池中,表示如下:

D={rankt,dt=[st,at,rt,st+1]|t=1,2,...}

其中,D即经验回放池;

S403.对于D中任一经验dj,定义其被选择的概率为其中选择得到的一组经验表示为dj=[st,at,rt,st+1];α为调整因子,用于调整概率Pj的具体数值;

S404.以dj中数据为依据,进行价值网络、策略网络及其对应目标网络的更新,具体的,确定价值网络q的评估方程:

式中,rj表示以j为索引值的奖励值;代表选取最大使得Q(sj+1,aj+1)最大化的动作变量aj,并生成此价值网络对选定动作变量和状态变量的响应;

随后建立价值网络的更新误差计算公式:

LQ(j)=[rj+γQ'(sj+1,μ(sj+1)|θQ')-Q(sj,ajQ)]2

进而确定策略网络μ的评估方程:

Φ(θμ)=E[Q(sj,μ(sj))]

式中,E(·)表示求取数学期望;依据目标相对于策略网络μ的梯度,策略网络μ的更新误差为:

S405.对目标网络Q'和μ'采用如下软更新策略:

θQ′←τθQ+(1-τ)θQ′

θμ'←τθμ+(1-τ)θμ'

S406.将时间t增加1个步长,重新回到S401,S401-S406循环执行直至达到定义的最大持续时间步长tL,即t=tL时,则结束本回合;

S5.循环执行S3-S4,直至策略网络和价值网络收敛,导出策略网络成为深度强化学习快速充电策略;

S6.实时采集充电电流、端电压、环境温度、电池表面温度,设计基于模型的状态观测器,实时估计强化学习状态空间内的各个变量;

S7.依据S6中的测量值与估计值,使用S5中训练成熟的深度强化学习控制策略确定当前时刻的最优充电动作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011087624.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top