[发明专利]一种多物理场约束的锂离子电池智能快速充电方法有效

申请号：	202011087624.3	申请日：	2020-10-13
公开（公告）号：	CN112018465B	公开（公告）日：	2021-01-29
发明（设计）人：	魏中宝;吴京达;何洪文;李建威;钟浩	申请（专利权）人：	北京理工大学
主分类号：	H01M10/44	分类号：	H01M10/44;H02J7/00;G06F17/11;G06N3/04;G06N3/06;G06N3/08
代理公司：	成都方圆聿联专利代理事务所(普通合伙) 51241	代理人：	李鹏
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种物理约束锂离子电池智能快速充电方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多物理场约束的锂离子电池智能快速充电方法，其特征在于包括以下步骤：

S1.开展锂离子电池测试，建立锂离子电池电热耦合模型和老化模型；

S2.将S1中确定的关键状态归入强化学习状态空间，定义动作空间和奖励函数，搭建深度确定性策略梯度算法的策略网络、价值网络并进行初始化，定义优先经验回放池；

所述步骤S2包括以下子步骤：

S201.确定锂离子电池快速充电过程中的约束变量，作为状态向量空间s的组成变量，选择充电电流或充电功率作为动作变量，作为动作空间A的组成变量；

选取荷电状态SoC，电芯温度T_c和端电压V作为约束变量，充电电流cr作为控制动作，状态空间S、时变状态变量s_t、动作空间A和时变动作变量a_t分别定义如下：

S＝{SoC,T_c,V}

s_t＝[SoC_t,T_c,t,V_t],s_t∈S

A＝{cr|cr∈(0,6C)}

a_t＝cr_t,a_t∈A

其中，下标t代表时刻t，为物理量的时序表达，具体地：

SoC_t为t时刻锂离子电池荷电状态；T_c，t为t时刻锂离子电池电芯温度；V_t为t时刻端电压；C为充电倍率，是充电电流cr的单位；a_t为t时刻动作变量；cr_t即t时刻充电电流；

S202.根据预期控制目标选择奖励函数的参考指标，建立归一化奖励函数；

S203.建立用于策略选择的全连接深度神经网络作为策略网络μ，θ^μ表示策略网络的参数；建立用于评估策略价值的全连接深度神经网络作为价值网络Q，θ^Q表示价值网络的参数；对策略网络和价值网络的权重和偏置进行初始化赋值；复制策略网络作为目标策略网络，复制价值网络作为目标价值网络；

S204.选择经验回放池最大容量值，建立经验回放池，用于储存训练过程每一时刻的信息组，该信息组包括：状态变量，动作变量，奖励函数和状态转移后的状态变量；

S3.设定离线训练场景，获取初始时刻状态变量，利用策略网络获取当前状态下的动作变量，采用基于随机变换的噪声探索机制扩大动作选取范围；

所述步骤S3包括以下子步骤：

S301.对于当前训练回合数i，初始i＝1，开启经验储存池，对锂离子电池模型进行状态初始化，设定时间t＝0；

S302.获取初始时刻状态变量s₀，将状态变量输入策略网络获得动作变量a＝μ(s|θ^μ)，为该动作附加一均值为0，标准差为1倍动作变量定义域的随机噪声；

S4.依据S1中电池模型，生成充电动作、电池状态转移、奖励值并记录于经验池，通过选择经验记录进行深度确定性策略梯度网络的同步更新；

所述步骤S4包括以下子步骤：

S401.基于S1中建立的电池模型，输入所选择的当前状态下的动作变量，计算更新状态变量空间和实时奖励函数值，将时间步长内的a_t，s_t，s_t+1和奖励函数值r_t组成经验元组；

S402.计算t时刻优先度：

L_Q(t)＝[r_t+γQ'(s_t+1,μ(s_t+1)|θ^Q')-Q(s_t,a_t|θ^Q)]²

式中，γ为折扣因子；μ(·)代表策略网络，Q(·)代表价值网络；Q′(·)代表目标价值网络；θ^μ和θ^Q分别代表策略网络的参数和价值网络的参数；具体地：

μ(s|θ^μ)代表以θ^μ为参数的策略网络，对输入的状态变量s的响应；

Q(s_t，a_t|θ^Q)代表以θ^Q为参数的价值网络，对t时刻输入的状态变量s_t和动作变量a_t的响应；

Q′(s_t+1，μ(s_t+1)|θ^Q′)代表以θ^Q′为参数的目标价值网络，对t+1时刻输入的状态变量s_t+1和动作变量μ(s_t+1)的响应；

将S401中的经验元组和优先度ranzk_t作为t时刻的数据储存于经验回放池中，表示如下：

D＝{rank_t,d_t＝[s_t,a_t,r_t,s_t+1]|t＝1,2,...}

其中，D即经验回放池；

S403.对于D中任一经验d_j，定义其被选择的概率为其中选择得到的一组经验表示为d_j＝[s_t,a_t,r_t,s_t+1]；α为调整因子，用于调整概率P_j的具体数值；

S404.以d_j中数据为依据，进行价值网络、策略网络及其对应目标网络的更新，具体的，确定价值网络q的评估方程：

式中，r_j表示以j为索引值的奖励值；代表选取最大使得Q(s_j+1，a_j+1)最大化的动作变量a_j，并生成此价值网络对选定动作变量和状态变量的响应；

随后建立价值网络的更新误差计算公式：

L_Q(j)＝[r_j+γQ'(s_j+1,μ(s_j+1)|θ^Q')-Q(s_j,a_j|θ^Q)]²

进而确定策略网络μ的评估方程：

Φ(θ_μ)＝E[Q(s_j,μ(s_j))]

式中，E(·)表示求取数学期望；依据目标相对于策略网络μ的梯度，策略网络μ的更新误差为：

S405.对目标网络Q'和μ'采用如下软更新策略：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ'←τθ^μ+(1-τ)θ^μ'

S406.将时间t增加1个步长，重新回到S401，S401-S406循环执行直至达到定义的最大持续时间步长t_L，即t＝t_L时，则结束本回合；

S5.循环执行S3-S4，直至策略网络和价值网络收敛，导出策略网络成为深度强化学习快速充电策略；

S6.实时采集充电电流、端电压、环境温度、电池表面温度，设计基于模型的状态观测器，实时估计强化学习状态空间内的各个变量；

S7.依据S6中的测量值与估计值，使用S5中训练成熟的深度强化学习控制策略确定当前时刻的最优充电动作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011087624.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于内嵌光纤传感器的锂离子电池荷电状态估计方法
下一篇：一种新鲜葡萄汁的加工方法

同类专利

专利分类

H 电学

H01 基本电气元件
H01M 用于直接转变化学能为电能的方法或装置，例如电池组
H01M10-00 二次电池；及其制造
H01M10-02 .零部件
H01M10-04 .一般结构或制造
H01M10-05 .非水电解质蓄电池
H01M10-06 .铅—酸蓄电池
H01M10-20 .半铅蓄电池，即仅有一个电极含铅的蓄电池

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多物理场约束的锂离子电池智能快速充电方法有效

专利文献下载