[发明专利]一种保证质量单调性的大规模数据挖掘方法有效
申请号: | 201510080263.2 | 申请日: | 2015-02-13 |
公开(公告)号: | CN104657473B | 公开(公告)日: | 2019-01-25 |
发明(设计)人: | 陈志;党凯乐;岳文静;黄继鹏;芮路 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 保证质量 调性 大规模 数据 挖掘 方法 | ||
本发明给出一种保证质量单调性的数据挖掘方法,该方法将原始大数据集用PCA技术压缩处理后映射到R‑tree数据结构上;然后改进改进的K近邻分类算法对数据集进行挖掘处理。本发明给出的方法主要包含两部分:编码部分及挖掘部分,其中编码部分利用R‑tree来表示数据,它将数据中有高相似性的数据组合在一起,作为R‑tree的一个结点,以达到对海量数据压缩的目的并提高挖掘部分的效率;挖掘部分利用改进的K近邻分类算法的思想,对数据结点进行处理,预测输入的测试点分类。本发明能解决传统的算法在进行有限的时间及资源限制下对大数据挖掘时,很难做到挖掘结果的质量与资源限制的平衡以及保证近似结果质量单调性的问题。
技术领域
本发明涉及一种高效处理数据的方法,通过该方法来保证大规模数据挖掘结果质量的单调性,属于数据挖掘、大数据和计算机软件的交叉技术应用领域。
背景技术
大数据的数据容量及类型多样性,使得我们愿意利用算法产生近似结果来对大数据进行数据挖掘,传统的算法在进行有限的时间及资源限制下对大数据挖掘时,很难做到挖掘结果的质量与资源限制的平衡以及保证近似结果质量单调性的问题。为解决这个问题,我们在香农熵的基础上,设计保证质量单调性的大数据挖掘方法,该挖掘方法分为两部分:编码部分及挖掘部分,通过保证算法编码部分熵的单调性及挖掘部分的保熵性来确保挖掘算法输出近似结果质量的单调性,原始数据集用PCA技术压缩处理后映射到R-tree数据结构上的K近邻分类的思想。该算法的编码部分利用R-tree来表示数据,它将数据中有相似性的数据组合在一起,作为R-tree的一个结点,并尽量做到同节点内数据的高相似性,不同节点间的相对独立性,以达到对海量数据压缩的目的并提高挖掘部分的效率。挖掘部分利用K近邻分类算法的思想,处理数据,建立数据分类模型,并对测试数据进行分类。
数据挖掘是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘的一般步骤:(1)数据清理(2)数据集成(3)数据选择(4)数据变换(5)数据挖掘(6)模式评估(7)知识表示。本发明使用的处理技术为主方法分析(PCA)技术。该技术方法通过减少数据的属性来达到压缩数据的目的,移除不重要的属性。这种方法通过移除不重要的部分,保留重要部分来对海量数据压缩,以便提高挖掘效率。
信息论中,熵表示的是不确定性的量度。信息熵可以理解成某种特定信息的出现概率(离散随机事件的出现概率)。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。信息熵的函数说明:H=entropy(P,r)为信息熵函数P为信源的概率矢量,r为进制数,H为信息熵。本发明中将信息熵用于R树上,且定义如下:设R-tree为T,同层节点对应一条编码CodeA不同层节点生成编码集,如果编码集中任意两条编码A,B都满足ifA<B,then A(x)<B(x),那么编码集单调,即该编码集满足熵的单调性。
发明内容
技术问题:本发明的目的是解决在计算机资源和内存有限的条件下大规模数据挖掘输出结果质量的低效问题,该方法能够通过保证编码阶段熵的单调性和挖掘阶段的保熵性来确保挖掘质量的单调性,提高数据挖掘的输出质量。
技术方案:本发明所述的保证质量单调性的大数据挖掘方法包括编码、挖掘等两个部分,其中编码部分利用主成分分析(PCA)压缩技术对数据进行压缩,减少数据的属性;压缩处理后的数据用R树表示,挖掘部分利用K最近邻(KNN)算法对测试数据进行分类,并计算分类准确率。
本发明所述的保证质量单调性的大数据挖掘方法包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510080263.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置