[发明专利]一种基于动态插值的城市污水处理过程数据清洗方法在审
申请号: | 202110221279.6 | 申请日: | 2021-02-27 |
公开(公告)号: | CN113157674A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 韩红桂;赵子凡;杨宏燕;乔俊飞;郑江;顾剑;赵楠;王思维;李谦 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F17/16;G06F17/18;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 城市 污水处理 过程 数据 清洗 方法 | ||
1.一种基于动态插值的城市污水处理过程数据清洗方法,其特征在于,包括以下步骤:
(1)数据选择:
采用主成分分析法筛选得到关键特征变量:缺氧池前端氧化还原电位,进水端悬浮物,缺氧池末端硝态氮,进水端酸碱度;
(2)识别异常值:
①初始化滑动窗口长度l,滑动窗口移动步长m,异常识别数据集第k距离为30,迭代次数n=1;
②滑动窗口内好氧池前端溶解氧数集为L,距数据集L第k距离的数据集为O,数据集O需要满足:至少存在k个数据集O’,O’∈D,使d(L,O’)≤d(L,O)成立,至多存在k-1个数据集O’,O’∈D,使d(L,O’)d(L,O)成立,
其中,数据段O’是滑窗将好氧池前端溶解氧数据分割后的数据段,D是分割后数据段的集合,d(L,O)是数据集L和数据集O的距离,q是好氧池前端溶解氧数集异常属性个数,异常属性包括均值、最大值、最小值、峰值区间和均方差,q=5,f(Lp)和f(Op)是数据集L和数据集O的第p维属性值,p=1,2,3,…q,计算L的异常因子系数:
r-dis(L,O)=max{k-dis(O),d(L,O)} (2)
其中,r-dis(L,O)表示数据集L与数据集O的可达距离,k-dis(O)是数据集L和数据集O的第k距离,Idrk(L)是数据集L的局部可达密度,Nk(L)是输入好氧池前端溶解氧数据点与数据集L的距离小于数据集L第k距离数据点的集合,∑o∈Nk(L)Idrk(O)是集合Nk(L)中局部可达密度总和,LOFk(L)是数据集L的异常因子系数,计算数据集L的异常阈值V:
V=μ+λσ (5)
其中,μ是数据集L中异常因子的均值,σ是数据集L的标准差,λ=1,若LOFk(L)V或数据集L中含连续r个重复数据,则标记数据集L为异常数据集,跳转步骤③,否则则标记数据集L为正常数据集,跳转步骤④;
③若nl,则比较数据集L中第n个数据L(n)与V的大小,大于V的L(n)置0,复数据置0,重迭代次数n加1返回步骤③,否则跳转步骤④;
④滑动窗口移动步长m,若窗口内数据含空值,则输出异常识别后的数据,否则迭代次数n=1,返回步骤②;
(3)建立随机森林回归模型:
①初始化回归树数目为100,当前迭代次数t=1;
②从训练样本中有放回随机抽样一个g×f的节点矩阵Dt,f为训练样本中输入变量个数,g为训练样本单一变量包含数据样本的个数,计算最大树高hmax:
hmax=log2(gf) (6)
③从Dt中无放回抽样一个e×w的切割矩阵Xcut,e、w均为随机数,0e<<g,0wf,计算矩阵Xcut中的切割点系数,选择最小值作为当前切割点:
其中,i=1,2,3,...,e,j=1,2,3,...,w,e为Xcut中变量的个数,w为单一变量包含数据样本的个数,C(i,j)是以Xcut(i,j)为切割点分枝后的最优系数,Rleft(i,j)是切割后左子树矩阵,Rright(i,j)是切割后右子树矩阵,Q1是Rleft(i,j)的样本个数,Q2是Rright(i,j)的样本个数,
④以最优C(i,j)为切割点划分,记录Rleft(i,j)所在节点路径长度hl,若hl≥hmax或Q1Q,则停止当前节点的分枝生长,跳转步骤⑤,否则用Rleft(i,j)更新Dt,跳转步骤③,
⑤记录未分支的Rright(i,j)所在节点径长度hr,若hr≥hmax或Q2Q,则停止当前节点的分枝生长,跳转步骤⑥,否则用Rright(i,j)更新Dt,返回步骤③;
⑥若t100,则迭代次数t加1,返回步骤②,否则停止训练,完成随机森林回归插值模型的建立,模型输出为:
其中,是第v棵回归树划分后叶子节点内集合的平均值,v=1,2,3,...,100;
(4)插值处理:选择标记异常的数据集,以缺氧池前端氧化还原电位,进水端悬浮物,缺氧池末端硝态氮,进水端酸碱度为随机森林回归模型输入,好氧池前端溶解氧为随机森林回归模型模型输出进行预测,用预测值代替异常数据集中数值为0的点,更新异常数据集,输出清洗后的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110221279.6/1.html,转载请声明来源钻瓜专利网。