[发明专利]基于相似距离判别的单指标数据质量控制方法有效
申请号: | 201710565035.3 | 申请日: | 2017-07-12 |
公开(公告)号: | CN107436277B | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 徐伟嘉;刘永红;冯梦思;黄建彰;卢志想;王家恒 | 申请(专利权)人: | 中山大学;广东旭诚科技有限公司 |
主分类号: | G01N15/06 | 分类号: | G01N15/06;G01D1/14 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 温旭;张泽思 |
地址: | 510220 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于相似距离判别的单指标数据质量控制方法,大气环境单个监测指标,包括:S1.比较每一个站点对应PM2.5与PM10的浓度大小判断是否为异常检测值,反之进行下一步计算;S2.按照时间顺序导入检测数据;S3.通过离群程度P筛选正常值,剩余为疑似异常值;S4.当S3筛选的疑似异常值在1倍标准差范围内判断为正常监测,反之确认为疑似异常值;S5.计算S4确定的疑似异常值的波动程度q,并判断是否为正常监测,反之再次确认为疑似异常值;S6.计算S5中疑似异常值所在时刻的各站点的波动性w,通过w95%值判断是否异常;S7.S1和S6最终确认的值为异常值。本发明从数据距离、数据波动性、站点之间的关联性出发判断数据是否存在异常现象。实现数据自动化审核机制,有效保障数据质量。 | ||
搜索关键词: | 基于 相似 距离 别的 指标 数据 质量 控制 方法 | ||
【主权项】:
1.一种基于相似距离判别的单指标数据质量控制方法,其特征在于,所述单指标数据为大气环境单个监测指标,主要包括以下步骤:S1.基于倒挂的原理比较每一个站点对应PM2.5与PM10的浓度大小,当PM2.5的浓度>PM10的浓度便视为倒挂情况判断为异常检测值,反之进行下一步计算;S2.按照时间序列的格式导入同一个城市不同站点的单个大气环境监测物的检测数据;S3.依据单个大气环境监测物之间的浓度差值来判断监测物的离群程度P,通过离群程度P筛选出正常值,剩余为疑似异常值;S4.计算S3筛选的疑似异常值对应时刻各站点检测数据的均值和标准差,当S3筛选的疑似异常值在1倍均值的标准差范围内判断为正常监测,反之进一步确认为疑似异常值;S5.将S4进一步确认为疑似异常值的数据作为待检测样本,通过波动程度q判断是否为正常监测,反之再次确认为疑似异常值;S6.计算S5再次确认为疑似异常值所在时刻各站点检测数据的波动性w,通过w95%值判断是否异常;S7.将S1和S6判断为异常的值确认为最终异常值;步骤S3通过离群程度P筛选出正常值主要包括以下步骤:S21.根据时间序列的格式导入同一个城市不同站点的单个大气环境监测物的检测数据:
S22.计算每一列每个元素与对应列的其他元素之间的距离记为dijm=∣xim‑xjm∣,dijm表示x中的第m列的第i个元素的浓度减去第j个元素的浓度;最终n得到一个包含n行n列的矩阵Am;
S23.依据S22的计算步骤对原始数据中的每列计算扫描,计算矩阵Am每列各元素的平方和记为Pi,对应的Pi值为:
得到序列P;S24.将计算序列P的95%分位数作为判断标准,如果Pi﹥P95%,则需进一步判断,反之为正常监测值;步骤S5所述通过波动程度q判断是否正常监测主要包括以下步骤:S31.根据同一站点不同时间监测物的浓度x=x1m、x2m、x3m……xnm;S32.后一个时刻监测物浓度与前一时刻监测物浓度差值的绝对值记为qim=︳x(i+1)m‑xim︳,得到序列q1m、q2m、q3m……qn‑1m,计算每列浓度差值的95%分位数记为qm95%;S33.将S4进一步确认为疑似异常值所在行的检测数据作为计算对象,判断qim与qm95%的大小,如果qim>qm95%需进一步判断,反之为正常检测值;步骤S6所述通过w95%值判断是否异常的方法为:通过qim与wi95%比较,当qim大于wi95%则为异常。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学;广东旭诚科技有限公司,未经中山大学;广东旭诚科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710565035.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种用于检测金刚石线金刚石颗粒的方法
- 下一篇:多通道分流结构采样器