[发明专利]基于top‑k(σ)算法的异常数据检测方法有效
申请号: | 201510256798.0 | 申请日: | 2015-05-19 |
公开(公告)号: | CN104902509B | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 李光辉;胡石;冯海林 | 申请(专利权)人: | 浙江农林大学 |
主分类号: | H04W24/08 | 分类号: | H04W24/08;H04W84/18;G06F17/30 |
代理公司: | 南京先科专利代理事务所(普通合伙)32285 | 代理人: | 缪友菊 |
地址: | 311300 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于top‑k(σ)算法的异常数据检测方法,通过构造PC列表,将潜在异常数据点对应的小数据单元格对应的第四列数据分别与阈值进行比较,如果大于阈值,则与该第四列数据对应的小数据单元格内的数据点为异常数据点,否则为正常数据点;有效避免了把异常值误判为正常值或者有效避免了将正常值误判为异常值,大大降低了本发明算法的误报率,通过具体仿真实验发现,本发明提出的算法的误报率比基于top‑k算法降低了4.48%;本发明通过调整阈值的取值大大提高了本发明算法的检测率,通过具体仿真实验发现,本发明提出的算法检测率达到了93.7%,本发明的算法与基于top‑k算法比较检测率提高了4.94%。 | ||
搜索关键词: | 基于 top 算法 异常 数据 检测 方法 | ||
【主权项】:
基于top‑k(σ)算法的异常数据检测方法,其特征在于:包括以下步骤:S1:将传感器节点采集的数据进行数据标准化处理;S2:根据处理后的数据的分布规律构造数据单元格,该数据单元格包括若干个小数据单元格,小数据单元格表示为Ci×j,其中i表示小数据单元格的行号以及j表示小数据单元格的列号;S3:构造PC列表,所述PC列表包括四列数据,第一列数据表示小数据单元格Ci×j的位置,第二列数据表示该小数据单元格Ci×j中数据点的个数,第二列数据用N(C)表示,第三列数据ND(C)表示该小数据单元格Ci×j的D领域内的数据点的个数,第三列数据用ND(C)表示,第四列数据RD表示分布数据集到中心数据集的距离,第四列数据用RD表示;所述小数据单元格Ci×j的D领域表示以点o为中心,D为半径的领域,其中所述点o位于所述小数据单元格Ci×j的正中心,半径D为正数;计算分布数据集到中心数据集的距离包括以下步骤:S31:设传感器节点采集的所有数据点的集合为样本集Γ,所述中心数据集是指所述样本集Γ中正常数据点的集合,所述分布数据集是指所述样本集Γ中任一子集;S32:设数据点o1是所述中心数据集的中心数据点,设数据点o2是所述分布数据集的中心数据点;S33:计算所述数据点o1和所述数据点o2之间的欧式距离,则所述数据点o1和所述数据点o2之间的欧式距离为所述分布数据集到所述中心数据集的距离;S4:将小数据单元格Ci×j中数据点的个数填入所述PC列表中与该小数据单元格Ci×j对应的第二列数据中,将小数据单元格Ci×j的D领域内的数据点的个数填入所述PC列表中与该小数据单元格Ci×j对应的第三列数据中,将分布数据集到中心数据集的距离填入所述PC列表中与该小数据单元格Ci×j对应的第四列数据中;S5:将所述PC列表中的第三列数据进行升序排列;S6:将排列后的PC列表中位于上层位置的对应的小数据单元格Ci×j中的数据点作为潜在异常数据点;S7:将所述潜在异常数据点对应的小数据单元格Ci×j对应的第四列数据分别与阈值σ进行比较,如果第四列数据大于阈值σ,则与该第四列数据对应的小数据单元格Ci×j内的数据点为异常数据点,否则与该第四列数据对应的小数据单元格Ci×j内的数据点为正常数据点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江农林大学,未经浙江农林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510256798.0/,转载请声明来源钻瓜专利网。