[发明专利]一种基于距离的异常数据检测方法及系统有效
申请号: | 201610251384.3 | 申请日: | 2016-04-21 |
公开(公告)号: | CN107305563B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 张华宾;刘亚萌;洪莲 | 申请(专利权)人: | 北京暖流科技有限公司 |
主分类号: | G06F16/907 | 分类号: | G06F16/907 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于距离的异常数据检测方法,具体通过设置若干数据区间,并判断每个区间内的数据数量来判断所设置的区间是正常区间还是异常区间,从而检测出异常数据的方法。本发明还涉及一种使用该方法来进行异常数据检测的系统,其包括数据采集模块、中央服务器和内置于中央服务器内的数据检测模块构成,采集模块用来采集数据,上传至中央服务器,中央服务器通过内置的数据检测模块按照本发明提供的方法进行异常数据检测和剔除。 | ||
搜索关键词: | 一种 基于 距离 异常 数据 检测 方法 系统 | ||
【主权项】:
一种异常数据检测方法,其特征在于:包括以下步骤:(1)确定需要处理的数据集合S,S中的元素数量大于1;(2)提取需要处理的数据集合中的最小数据minValue和最大数据maxValue;(3)将取值范围(minValue,maxValue)等分成N个区间,定义区间间隔minD为异常点与正常点的距离阈值,minD按照式(1)计算:minD=maxValue-minValueN---(1)]]>则第i个分隔区间为Di=[minValue+(i‑1)*minD,minValue+i*minD)其中i=1,……,N;N通过观察确定的任意整数,N大于1;(4)统计落在每个区间Di范围上数据的数量;(5)给出数量阈值k,对各个区间进行分类。若区间内数据数量≤k,将该区间分类为异常点候选区间;若区间内数据数量>k,将该区间分类为正常区间,k通过观察确定的任意整数,但k应小于数据集合S中的元素数量;(6)对异常点候选区间进行判定,判断规则为:对于任意一个p∈S(k),满足:distance(p,q)=value(p)-value(q)>minD,q∈S(normal)---(2)]]>式中distance(p,q)—p与q之间的距离;value(p)——p的值;value(q)—q的值;S(normal)——包含所有最初被标定为正常区间中的数据的集合;S(k)——异常点区间内所有数据的集合;(7)依据第(6)步规则,按照下述方式进行操作:第一,若某异常点候选区间在两个正常区间之间,将其重新划分为正常区间;第二,若某异常点候选区间与正常区间紧邻,将其重新划分为正常区间。剩余的异常点候选区间将作为异常点区间,包含在这些区间内的点即为异常点。需要注意的是,若一个异常点候选区间在判定后被重新划分为正常区间,那么该正常区间不参与其他异常点候选区间的判定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京暖流科技有限公司,未经北京暖流科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610251384.3/,转载请声明来源钻瓜专利网。
- 上一篇:生成KML文件的方法、装置及移动终端
- 下一篇:一种数据处理的方法和设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置