[发明专利]一种面向大数据的离群点检测方法在审
申请号: | 201810249198.5 | 申请日: | 2018-03-21 |
公开(公告)号: | CN108549669A | 公开(公告)日: | 2018-09-18 |
发明(设计)人: | 徐小龙;崇卫之;段卫华;贾佳;刘大勇;胥备;王俊昌 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 姜慧勤 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向大数据的离群点检测方法,该方法将数据集中每个数据元组所有属性值的组合在整个数据集中的数量作为该数据元组的特征,由于该特征是从数据元组中所有属性值的组合在整个数据集中的数量计算得来的,所以该特征能够全面而准确的反应该数据元组与整体数据集之间的区别程度,从而可以检测出哪些数据特征明显不同于整体数据集,即作为离群点。并且本发明基于粗糙集的属性重要性知识对高维数据进行降维,使得该发明能有效处理高维数据集。本发明方法具有较高的离群点检测准确率,而且简单易行,不需要掌握数据集中数据的分布,领域知识,也不需要在数据集上训练估计模型,为离群点检测节省大量的时间。 | ||
搜索关键词: | 离群点检测 数据元组 数据集中 高维数据 整体数据 大数据 数据集中数据 属性重要性 估计模型 领域知识 数据特征 数量计算 有效处理 粗糙集 数据集 准确率 降维 检测 | ||
【主权项】:
1.一种面向大数据的离群点检测方法,其特征在于,包括如下步骤:步骤1,设定数据集D包括m行n列数据,每一行为一个数据元组,每一列为一个属性,扫描数据集D的每个数据元组Dj并依次进行编号j,得到新的数据集D1=(j,Dj),j=1,…,m;步骤2,根据粗糙集中“划分”的定义,扫描数据集D1,并将相同的数据元组划分为一类U/IND(A)={C1,C2,…,Ct},其中,U表示论域,A表示所有属性组成的集合,Ck表示第k个分类,k=1,…,t,t表示所有分类数,相同的数据元组即某个数据元组中各属性对应的属性值与另一个数据元组中相同属性对应的属性值相同,统计每个分类Ck中数据元组的数量,并计算所有属性对论域U的知识熵E(A);步骤3,依次选取一个属性Ai,在数据集D1中将属性Ai对应的属性值一列去掉,针对剩余的数据集,将相同的数据元组划分为一类U/IND(A‑{Ai})={C1,C2,…,Ct},统计每个分类中数据元组的数量,并计算去掉属性Ai后剩余属性对论域U的知识熵E(A‑{Ai}),i=1,…,n,同时计算属性Ai的属性重要性;对所有属性的属性重要性从大到小排序,在数据集D1中选取前p个属性重要性对应的属性,构成新的数据集D2,p
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810249198.5/,转载请声明来源钻瓜专利网。