[发明专利]一种基于特征优化和在线学习的固井泵压预测方法有效

申请号：	202310558753.3	申请日：	2023-05-18
公开（公告）号：	CN116303626B	公开（公告）日：	2023-08-04
发明（设计）人：	钟原;杨建新;周静;李平;张涛	申请（专利权）人：	西南石油大学
主分类号：	G06F16/2455	分类号：	G06F16/2455;G06F18/23213;G06F18/214;G06N5/01
代理公司：	成都金英专利代理事务所(普通合伙) 51218	代理人：	詹权松
地址：	610500 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于特征优化在线学习固井泵压预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于特征优化和在线学习的固井泵压预测方法，其特征在于，对于固井作业过程中的真实数据进行特征处理与特征构造，引入集成学习模型根据数据分布的变化进行模型构建与预测，包括以下步骤：

S1: 特征在线计算；

S2: 模型预训练阶段；

S3: 模型在线训练与预测；

所述步骤S1包括以下子步骤：

S11：构造井内质量变化量，读取真实数据与对应井身结构数据，根据真实数据逐条计算当前情况的流体进入井内的总体积，通过物理公式计算出每个时刻下的每种流体的质量，同时井内与环空为两种情况，将特征分为井内和环空两种情况进行计算其变化量；

S12：实时特征构建及优化；

S121：构造井径扩大率，读取真实数据与对应井身结构数据，使用对应井身结构数据构造出深度与井径大小相对应的字典；

S122：根据真实数据逐条计算当前情况的流体进入井内的总体积并通过体积与井身信息计算出流体在井内的具体高度信息，通过查询字典得出深度的相关井径，再通过数理公式计算其井径扩大率；

S123：同井内质量一样，由于井内与环空为两种情况，将特征分为井内和环空两种情况分别计算其井径扩大率；

S13：特征处理，不同数据集中存在异常值，采用信息补全和归一化方式实现数据处理；

所述步骤S2包括以下子步骤：

S21：数据流聚类处理；

S211：在数据流聚类过程中，采用流量和作业阶段作为聚类的依据，将数据按照流量大小和阶段划分为不同的类别的数据；

S212：采用在线聚类的方法，使用自适应数据流K-均值（Adaptive Streaming K-Means）算法实现针对于固井作业数据流的聚类；

S213：自适应数据流K-均值算法分为初始化阶段和连续聚类阶段两个阶段；

S2131：初始化阶段，数据点将经历累计和确定候选中心两个阶段；

数据经过核密度估计（Kernel density estimation，KDE）计算之后得到的概率密度函数（Probability density function，PDF）作为聚簇个数k的选择依据，并针对各个簇确定其候选中心，区域指的是PDF曲线两个连续方向变化之间的部分，新区域开始的标志是计算所得的PDF曲线的形状的所有方向变化；

候选的聚类的簇的个数k是区域的数量，候选的初始中心是区域的中心，对于所得的不同的k∈[kmin，kmin+kmax]进行重新聚类，比较不同k值得聚类结果，选最好的k以及k所对应的区域的中心作为初始中心；

S2132：连续聚类阶段，对历史数据和现有数据进行概念漂移检测，计算算法执行过程中存储的数据的标准差和均值；

对标准差和均值进行概念漂移的预测，当预测到概念漂移时就对聚类算法重新进行初始化，重新计算k和聚类中心；

使用新的k和聚类中心进行聚类操作，否则定义为现有数据与历史数据之间没有发生概念漂移，就对现有的数据进行聚类处理；

S22：基模型构建；

S221：VFDT树作为基模型，使用Hoeffding不等式作为决策节点的最佳属性划分依据；

S222：VFDT模型在决策树的生成阶段中，将数据流中的数据信息根据Hoeffding不等式划分不同的节点；

S223：不断读取数据并且不断将叶节点替换为决策节点而生成决策树，决策树中每一个叶节点中都保存着有关属性值的统计信息；

S224：新的数据样本传入VFDT模型时，树的每一个节点都会对其进行测试或判断，通过对其取值进行划分，进入到不同的分支中，最终到达树的叶节点；

S23：模型集成；

S231：采用Stacking动态集成不同的基模型，采用一元线性回归模型作为Stacking集成模型的元学习器；

S232：使用自适应数据流K-均值聚类出的结果参数作为集成模型中基模型的初始参数，随模型的在线训练动态调整元学习器的参数，实现模型的动态集成；