[发明专利]一种面向大数据的离群点检测方法在审

专利信息
申请号: 201810249198.5 申请日: 2018-03-21
公开(公告)号: CN108549669A 公开(公告)日: 2018-09-18
发明(设计)人: 徐小龙;崇卫之;段卫华;贾佳;刘大勇;胥备;王俊昌 申请(专利权)人: 南京邮电大学
主分类号: G06F17/30 分类号: G06F17/30;G06K9/62
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 姜慧勤
地址: 210023 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 离群点检测 数据元组 数据集中 高维数据 整体数据 大数据 数据集中数据 属性重要性 估计模型 领域知识 数据特征 数量计算 有效处理 粗糙集 数据集 准确率 降维 检测
【说明书】:

发明公开了一种面向大数据的离群点检测方法,该方法将数据集中每个数据元组所有属性值的组合在整个数据集中的数量作为该数据元组的特征,由于该特征是从数据元组中所有属性值的组合在整个数据集中的数量计算得来的,所以该特征能够全面而准确的反应该数据元组与整体数据集之间的区别程度,从而可以检测出哪些数据特征明显不同于整体数据集,即作为离群点。并且本发明基于粗糙集的属性重要性知识对高维数据进行降维,使得该发明能有效处理高维数据集。本发明方法具有较高的离群点检测准确率,而且简单易行,不需要掌握数据集中数据的分布,领域知识,也不需要在数据集上训练估计模型,为离群点检测节省大量的时间。

技术领域

本发明涉及一种面向大数据的离群点检测方法,属于数据预处理技术领域。

背景技术

近年来随着信息技术的高速发展,全球数据持续的以爆炸性的速度增长,我们的世界已经迈入大数据时代。如何从繁杂的数据中获取有价值的数据或信息,已成为人们关注的焦点。离群点检测是数据挖掘的一个重要方向。离群点检测主要关注于数据集中的一小部分对象,与数据集中其余数据相比,这一小部分对象不符合数据集的一般模型,我们就称这部分的数据为离群点。离群检测就是用于从海量数据中发现非常规模式的数据挖掘技术。检测离群点的目的是消除原始数据集的噪音或者发现原始数据集中潜在的有价值的信息。其广泛应用在质量控制、故障检测、金融欺诈、网络日志分析、医疗、环境科学、智慧城市等领域。在许多科学领域,离群数据可能会给我们带来新的启发,从而导致新的知识被发现和新的应用被开发。因此对于离群点的检测具有十分重要的理论意义和实际应用价值。目前对离群点的检测和分析已经发展成为数据挖掘和数据管理中一项重要任务。而传统的离群点检测方法普遍存在检测准确率低,不能处理大规模高维度数据集。

因此,急需一种离群点检测准确率高的算法,且算法能够较好的适用于大规模数据集的环境。

发明内容

本发明所要解决的技术问题是:提供一种面向大数据的离群点检测方法,定义数据特征明显不同于数据集的对象即为离群点,该方法具有更高的检测准确率,并且采用分布式的离群点检测方法适应大规模高维数据集。

本发明为解决上述技术问题采用以下技术方案:

一种面向大数据的离群点检测方法,包括如下步骤:

步骤1,设定数据集D包括m行n列数据,每一行为一个数据元组,每一列为一个属性,扫描数据集D的每个数据元组Dj并依次进行编号j,得到新的数据集D1=(j,Dj),j=1,…,m;

步骤2,根据粗糙集中“划分”的定义,扫描数据集D1,并将相同的数据元组划分为一类U/IND(A)={C1,C2,…,Ct},其中,U表示论域,A表示所有属性组成的集合,Ck表示第k个分类,k=1,…,t,t表示所有分类数,相同的数据元组即某个数据元组中各属性对应的属性值与另一个数据元组中相同属性对应的属性值相同,统计每个分类Ck中数据元组的数量,并计算所有属性对论域U的知识熵E(A);

步骤3,依次选取一个属性Ai,在数据集D1中将属性Ai对应的属性值一列去掉,针对剩余的数据集,将相同的数据元组划分为一类U/IND(A-{Ai})={C1,C2,…,Ct},统计每个分类中数据元组的数量,并计算去掉属性Ai后剩余属性对论域U的知识熵E(A-{Ai}),i=1,…,n,同时计算属性Ai的属性重要性;对所有属性的属性重要性从大到小排序,在数据集D1中选取前p个属性重要性对应的属性,构成新的数据集D2,p<n;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810249198.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top