[发明专利]一种基于最小生成树的海量数据聚类处理方法在审
申请号: | 201710467400.7 | 申请日: | 2017-06-20 |
公开(公告)号: | CN107506778A | 公开(公告)日: | 2017-12-22 |
发明(设计)人: | 程林;贺海磊;刘满君;周勤勇;张彦涛;梁才浩;刘琛;江轶 | 申请(专利权)人: | 清华大学;中国电力科学研究院;国家电网公司;国网江苏省电力公司电力科学研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 罗文群 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明一种基于最小生成树的海量数据聚类处理方法,属于分类学及数据挖掘算法技术领域。本方法按照最小生成树的普利姆算法建立全连通的海量数据树状结构;根据海量数据的物理意义确定适用的距离度量,并根据距离度量规则确定海量数据最小生成树的边权值;根据海量数据最小生成树结构生成相应的节点关联矩阵,通过对称处理删除节点关联矩阵中的冗余数据;结合海量数据关联矩阵分别计算高度数节点的权重差异度,并按照大小关系进行排序;根据海量数据的实际物理意义去除节点权重差异度较高点的较长边,从而获取理想数量的样本点簇。本发明能对海量数据进行数据聚类处理,可以减小后续数据分析的难度。 | ||
搜索关键词: | 一种 基于 最小 生成 海量 数据 处理 方法 | ||
【主权项】:
一种基于最小生成树的海量数据聚类处理方法,其特征在于该方法包括以下步骤:(1)将待处理海量数据U转化为节点矩阵A;设定待处理海量数据U中的任意两个数据之间的距离为dist(·,·),将该距离dist(·,·)作为矩阵A的赋值,与节点矩阵A相对应的是一个全连通图,全连通图的边权重为dist(·,·),并将该距离dist(·,·)作为任意两个数据之间的边权重,设待处理海量数据的数目为m,则节点矩阵A如下式所示:(2)利用普利姆方法对节点矩阵A进行处理,得到一个最小边权重节点稀疏矩阵Am:Am=Lm+Um与上述节点稀疏矩阵Am相对应的是一个最小生成树,其中Lm为Am的下半部分,Um为Am的上半部分;(3)分别统计上述步骤(2)中的矩阵Lm的第i行和第i列中与最小生成树中的节点i相连的边的数量D(U),并将该数量D(U)记为节点矩阵A中相应节点的度;(4)根据上述数量D(U),利用下式,计算与D(U)大于2的节点相连的边的权重差异度量θ:θ(U(i))=max(dist(i,j)2dist(i,k)2),1≤j,k≤D(U(i))]]>其中,j和k分别为步骤(2)的最小生成树中与节点i相连的节点;(5)设定一个海量数据聚类处理的聚类值n,根据上述权重差异度量θ的大小,对相应节点进行排序,得到一个节点序列,将节点序列的前n‑1个节点中边权重最大的边从上述步骤(2)的最小生成树中删除,得到n个互不相连的树,每个树中的节点构成一个数据聚类,共得到n个数据聚类,即完成基于最小生成树的海量数据聚类处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;中国电力科学研究院;国家电网公司;国网江苏省电力公司电力科学研究院,未经清华大学;中国电力科学研究院;国家电网公司;国网江苏省电力公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710467400.7/,转载请声明来源钻瓜专利网。