[发明专利]一种多物理场约束的锂离子电池智能快速充电方法有效
| 申请号: | 202011087624.3 | 申请日: | 2020-10-13 |
| 公开(公告)号: | CN112018465B | 公开(公告)日: | 2021-01-29 |
| 发明(设计)人: | 魏中宝;吴京达;何洪文;李建威;钟浩 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | H01M10/44 | 分类号: | H01M10/44;H02J7/00;G06F17/11;G06N3/04;G06N3/06;G06N3/08 |
| 代理公司: | 成都方圆聿联专利代理事务所(普通合伙) 51241 | 代理人: | 李鹏 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 物理 约束 锂离子电池 智能 快速 充电 方法 | ||
1.一种多物理场约束的锂离子电池智能快速充电方法,其特征在于包括以下步骤:
S1.开展锂离子电池测试,建立锂离子电池电热耦合模型和老化模型;
S2.将S1中确定的关键状态归入强化学习状态空间,定义动作空间和奖励函数,搭建深度确定性策略梯度算法的策略网络、价值网络并进行初始化,定义优先经验回放池;
所述步骤S2包括以下子步骤:
S201.确定锂离子电池快速充电过程中的约束变量,作为状态向量空间s的组成变量,选择充电电流或充电功率作为动作变量,作为动作空间A的组成变量;
选取荷电状态SoC,电芯温度Tc和端电压V作为约束变量,充电电流cr作为控制动作,状态空间S、时变状态变量st、动作空间A和时变动作变量at分别定义如下:
S={SoC,Tc,V}
st=[SoCt,Tc,t,Vt],st∈S
A={cr|cr∈(0,6C)}
at=crt,at∈A
其中,下标t代表时刻t,为物理量的时序表达,具体地:
SoCt为t时刻锂离子电池荷电状态;Tc,t为t时刻锂离子电池电芯温度;Vt为t时刻端电压;C为充电倍率,是充电电流cr的单位;at为t时刻动作变量;crt即t时刻充电电流;
S202.根据预期控制目标选择奖励函数的参考指标,建立归一化奖励函数;
S203.建立用于策略选择的全连接深度神经网络作为策略网络μ,θμ表示策略网络的参数;建立用于评估策略价值的全连接深度神经网络作为价值网络Q,θQ表示价值网络的参数;对策略网络和价值网络的权重和偏置进行初始化赋值;复制策略网络作为目标策略网络,复制价值网络作为目标价值网络;
S204.选择经验回放池最大容量值,建立经验回放池,用于储存训练过程每一时刻的信息组,该信息组包括:状态变量,动作变量,奖励函数和状态转移后的状态变量;
S3.设定离线训练场景,获取初始时刻状态变量,利用策略网络获取当前状态下的动作变量,采用基于随机变换的噪声探索机制扩大动作选取范围;
所述步骤S3包括以下子步骤:
S301.对于当前训练回合数i,初始i=1,开启经验储存池,对锂离子电池模型进行状态初始化,设定时间t=0;
S302.获取初始时刻状态变量s0,将状态变量输入策略网络获得动作变量a=μ(s|θμ),为该动作附加一均值为0,标准差为1倍动作变量定义域的随机噪声;
S4.依据S1中电池模型,生成充电动作、电池状态转移、奖励值并记录于经验池,通过选择经验记录进行深度确定性策略梯度网络的同步更新;
所述步骤S4包括以下子步骤:
S401.基于S1中建立的电池模型,输入所选择的当前状态下的动作变量,计算更新状态变量空间和实时奖励函数值,将时间步长内的at,st,st+1和奖励函数值rt组成经验元组;
S402.计算t时刻优先度:
LQ(t)=[rt+γQ'(st+1,μ(st+1)|θQ')-Q(st,at|θQ)]2
式中,γ为折扣因子;μ(·)代表策略网络,Q(·)代表价值网络;Q′(·)代表目标价值网络;θμ和θQ分别代表策略网络的参数和价值网络的参数;具体地:
μ(s|θμ)代表以θμ为参数的策略网络,对输入的状态变量s的响应;
Q(st,at|θQ)代表以θQ为参数的价值网络,对t时刻输入的状态变量st和动作变量at的响应;
Q′(st+1,μ(st+1)|θQ′)代表以θQ′为参数的目标价值网络,对t+1时刻输入的状态变量st+1和动作变量μ(st+1)的响应;
将S401中的经验元组和优先度ranzkt作为t时刻的数据储存于经验回放池中,表示如下:
D={rankt,dt=[st,at,rt,st+1]|t=1,2,...}
其中,D即经验回放池;
S403.对于D中任一经验dj,定义其被选择的概率为其中选择得到的一组经验表示为dj=[st,at,rt,st+1];α为调整因子,用于调整概率Pj的具体数值;
S404.以dj中数据为依据,进行价值网络、策略网络及其对应目标网络的更新,具体的,确定价值网络q的评估方程:
式中,rj表示以j为索引值的奖励值;代表选取最大使得Q(sj+1,aj+1)最大化的动作变量aj,并生成此价值网络对选定动作变量和状态变量的响应;
随后建立价值网络的更新误差计算公式:
LQ(j)=[rj+γQ'(sj+1,μ(sj+1)|θQ')-Q(sj,aj|θQ)]2
进而确定策略网络μ的评估方程:
Φ(θμ)=E[Q(sj,μ(sj))]
式中,E(·)表示求取数学期望;依据目标相对于策略网络μ的梯度,策略网络μ的更新误差为:
S405.对目标网络Q'和μ'采用如下软更新策略:
θQ′←τθQ+(1-τ)θQ′
θμ'←τθμ+(1-τ)θμ'
S406.将时间t增加1个步长,重新回到S401,S401-S406循环执行直至达到定义的最大持续时间步长tL,即t=tL时,则结束本回合;
S5.循环执行S3-S4,直至策略网络和价值网络收敛,导出策略网络成为深度强化学习快速充电策略;
S6.实时采集充电电流、端电压、环境温度、电池表面温度,设计基于模型的状态观测器,实时估计强化学习状态空间内的各个变量;
S7.依据S6中的测量值与估计值,使用S5中训练成熟的深度强化学习控制策略确定当前时刻的最优充电动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011087624.3/1.html,转载请声明来源钻瓜专利网。





