[发明专利]一种面向大数据的离群点检测方法在审
申请号: | 201810249198.5 | 申请日: | 2018-03-21 |
公开(公告)号: | CN108549669A | 公开(公告)日: | 2018-09-18 |
发明(设计)人: | 徐小龙;崇卫之;段卫华;贾佳;刘大勇;胥备;王俊昌 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 姜慧勤 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 离群点检测 数据元组 数据集中 高维数据 整体数据 大数据 数据集中数据 属性重要性 估计模型 领域知识 数据特征 数量计算 有效处理 粗糙集 数据集 准确率 降维 检测 | ||
1.一种面向大数据的离群点检测方法,其特征在于,包括如下步骤:
步骤1,设定数据集D包括m行n列数据,每一行为一个数据元组,每一列为一个属性,扫描数据集D的每个数据元组Dj并依次进行编号j,得到新的数据集D1=(j,Dj),j=1,…,m;
步骤2,根据粗糙集中“划分”的定义,扫描数据集D1,并将相同的数据元组划分为一类U/IND(A)={C1,C2,…,Ct},其中,U表示论域,A表示所有属性组成的集合,Ck表示第k个分类,k=1,…,t,t表示所有分类数,相同的数据元组即某个数据元组中各属性对应的属性值与另一个数据元组中相同属性对应的属性值相同,统计每个分类Ck中数据元组的数量,并计算所有属性对论域U的知识熵E(A);
步骤3,依次选取一个属性Ai,在数据集D1中将属性Ai对应的属性值一列去掉,针对剩余的数据集,将相同的数据元组划分为一类U/IND(A-{Ai})={C1,C2,…,Ct},统计每个分类中数据元组的数量,并计算去掉属性Ai后剩余属性对论域U的知识熵E(A-{Ai}),i=1,…,n,同时计算属性Ai的属性重要性;对所有属性的属性重要性从大到小排序,在数据集D1中选取前p个属性重要性对应的属性,构成新的数据集D2,p<n;
步骤4,扫描数据集D2,对数据集D2中的所有属性值进行组合,并统计各属性值组合在整个数据集D2中的数量;
步骤5,扫描数据集D2,针对数据集D2每个数据元组的属性值进行组合,得到各数据元组对应的属性值组合集合;
步骤6,根据步骤4和步骤5,将各数据元组对应的属性值组合集合中,每个属性值组合在整个数据集D2中的数量,作为各数据元组的特征向量,将各数据元组的特征向量之和作为各数据元组的特征值;
步骤7,对各数据元组的特征值从小到大进行排序,前q个特征值对应的数据元组即为数据集D的离群点,q<m。
2.根据权利要求1所述面向大数据的离群点检测方法,其特征在于,步骤2所述所有属性对论域U的知识熵E(A)计算公式如下:
其中,Ck表示第k个分类,k=1,…,t,t表示所有分类数,U表示论域。
3.根据权利要求1所述面向大数据的离群点检测方法,其特征在于,步骤3所述属性Ai的属性重要性计算公式如下:
Sig(Ai)=E(A)-E(A-{Ai})
其中,Sig(Ai)表示属性Ai的属性重要性,E(A)表示所有属性对论域U的知识熵,E(A-{Ai})表示去掉属性Ai后剩余属性对论域U的知识熵。
4.根据权利要求1所述面向大数据的离群点检测方法,其特征在于,所述p、q均为预先设定的正整数。
5.根据权利要求1所述面向大数据的离群点检测方法,其特征在于,所述步骤4、步骤5没有顺序限制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810249198.5/1.html,转载请声明来源钻瓜专利网。