[发明专利]Hadoop框架下高维海量数据GMM聚类方法有效

申请号：	201310047023.3	申请日：	2013-01-25
公开（公告）号：	CN103077253A	公开（公告）日：	2013-05-01
发明（设计）人：	崔江涛;李林;司蓁;彭延国;史玮;陈煜;崔小利;王博	申请（专利权）人：	西安电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	陕西电子工业专利中心 61205	代理人：	田文英;王品华
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种Hadoop框架下高维海量数据GMM聚类方法，主要针对已有聚类算法的不足，将海量数据的聚类问题架构在分布式平台上，用于高维、海量数据的聚类。其实现步骤是：1、组建局域网；2、建立Hadoop平台；3、上传数据到集群；4、初始聚类；5、计算各聚类的参数和判别函数；6、判断聚类是否完成；7、重新聚类；8、计算新聚类中每一个类的均值、权重；9、计算新聚类中每一个类的方差；10、输出聚类结果。本发明利用Hadoop框架中MapReduce运算模型的特点，对聚类中的可并行部分用Map并行方法处理，计算均值和方差时采用两个Map/Reduce分别计算，可以高效、精确的聚类，有较强的可扩展性和容错性。
搜索关键词：	hadoop 框架下高维海量数据 gmm 方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

Hadoop框架下高维海量数据GMM聚类方法，包括如下步骤：(1)组建局域网将多台计算机连接到同一局域网中，每台计算机作为一个节点，建立能够相互通信的集群；(2)建立Hadoop平台对集群中的每个节点配置Hadoop0.20.2文件，通过文件中属性参数dfs.namenode和dfs.datanode的设置，使集群中包含一个名字节点和多个数据节点；通过文件中属性参数mapred.jobtracker和mapred.tasktracker的设置，使集群中包含一个调度节点和多个任务节点，建立开源的Hadoop平台；(3)上传数据到集群使用Hadoop分布式文件命令dfs‑put将待聚类数据集上传至Hadoop平台的各个节点上；(4)初始聚类采用KMeans聚类方法，对集群中节点上的数据进行初始粗略聚类，得到初始的聚类；(5)计算各聚类的参数和判别函数5a)计算初始的聚类每一个类的均值；5b)统计初始聚类每一个类中数据的个数，用统计的数据个数除以待聚类数据集中数据的总数，得到初始聚类每一个类的权重；5c)计算初始的聚类每一个类的方差；5d)计算判别函数按照下式计算高斯概率密度值： G = exp ( - ( x - u i ) Σ i - 1 ( x - u i ) / 2 ) ( 2 π ) d | Σ i | 其中，G表示高斯概率密度的值，x表示待聚类数据集中的任意一个向量数据， ui表示第i个类的均值，i表示聚类中的第i个类，∑i表示第i个类的方差，exp表示以e为底的指数运算；按照下式计算判别函数的值： L = Σ x ∈ D log ( Σ i = 1 K p i G ( x | u i , Σ i ) ) 其中，L表示判别函数值，x表示待聚类数据集中的任意一个向量数据，D表示待聚类数据集，K表示聚类中类的个数，i表示聚类中的第i个类，pi表示第i个类在聚类中的权重，G表示第i个类的高斯概率密度值，ui表示第i个类的均值，Σi表示第i个类的方差；(6)判断聚类是否完成判断判别函数的值是否在设定域值之内，若在阈值内，则聚类结束，执行步骤(10)，若不在阈值内，表示聚类尚未结束，执行步骤(7)；(7)重新聚类7a)启动第一个Map任务，扫描待聚类数据集，每次读入一条数据；7b)对每次读入的数据，采用以下公式计算读入的数据到聚类中每个类的概率值： γ ( x , i ) = p i G ( x | u i , Σ i ) Σ h = 1 K P h G ( x | u h , Σ h ) 其中，γ(x，i)表示待聚类数据集中数据x到聚类中第i个类的概率值，pi表示第i个聚类在待聚类数据集中的权重，G为第i个聚类的概率密度函数值，x表示待聚类数据集中的数据，ui表示第i个聚类的均值，Σi表示第i个聚类的方差，K表示聚类的个数，h表示聚类中的第h个类，Ph表示第h个聚类在待聚类数据集中的权重，uh表示第h个类的均值，∑h表示第h个聚类的方差；7c)选取概率值中的最大值，将步骤7a)读入数据分配到最大值对应的类；7d)判断是否读取完待聚类数据集，若未读取完，则执行步骤7a)，若读取完，则表示得到了新聚类，执行步骤(8)；(8)计算新聚类中每一个类的均值、权重启动第一个Reduce任务，计算第一个Map任务传入的聚类数据，按照步骤5a)的计算方法获得新聚类中每一个类的均值，按照步骤5b)的计算方法获得新聚类中每一个类的权重；(9)计算新聚类中每一个类的方差9a)启动第二个Map任务，第二次扫描待聚类数据集，每次读入一条数据；9b)对每次读入的数据，采用以下公式计算Map/Reduce中间值：Dmid＝(x‑u)2其中，Dmid表示Map/Reduce中间值，x表示步骤9a)读入的一条数据，u表示x所属类的均值；9c)启动第二个Reduce任务，对9b)的中间值先求和，再求和的根，获得新聚类的方差；9d)判断是否读取完待聚类数据集，若未读取完，则执行步骤9a)，若读取完，执行步骤(5)；(10)输出聚类结果聚类结束后，聚类中每一个类的均值、权重、方差作为聚类结果输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310047023.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]Hadoop框架下高维海量数据GMM聚类方法有效

专利文献下载