[发明专利]一种基于MapReduce的大规模数据分布式聚类处理方法有效

申请号：	201710412014.8	申请日：	2017-06-02
公开（公告）号：	CN107291847B	公开（公告）日：	2019-06-25
发明（设计）人：	高天寒;孔雪	申请（专利权）人：	东北大学
主分类号：	G06F16/26	分类号：	G06F16/26
代理公司：	沈阳东大知识产权代理有限公司 21109	代理人：	胡晓男
地址：	110819 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于MapReduce的大规模数据分布式聚类处理方法，包括对大规模数据以等规模不重复的原则进行抽样；向MapReduce分布式并行框架输入抽样数据并计算抽样数据的局部密度和平均密度；找出局部密度大于平均密度的所有抽样数据作为每个簇的初始聚类中心点的候选点集合并反馈给主节点，选取每两个相邻候选点之间距离大于2倍设定范围的所有候选点作为初始聚类中心点；利用MapReduce分布式并行框架进行并行聚类任务，针对每个簇计算数据间距离的平均值来更新聚类中心点；子节点应用误差平方和准则函数判断是否继续迭代；各子节点根据聚类中心点对大规模数据进行聚类。本发明实现并行聚类，减少聚类迭代次数，提高聚类准确率和并行聚类效率。
搜索关键词：	一种基于 mapreduce 大规模数据分布式处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于MapReduce的大规模数据分布式聚类处理方法，其特征在于，包括：步骤1、对大规模数据以等规模不重复的原则进行抽样，记录抽样数据；步骤2、启动Hadoop分布式集群环境，向MapReduce分布式并行框架输入抽样数据并计算抽样数据的局部密度和平均密度；步骤3、主节点以抽样数据的平均密度Avg为基准下发任务到子节点，各个子节点根据局部密度进行排序，找出局部密度大于平均密度Avg的所有抽样数据作为每个簇的初始聚类中心点的候选点集合并反馈给主节点，主节点选取候选点集合中每两个相邻候选点之间距离大于2倍设定范围的所有候选点作为初始聚类中心点；步骤4、主节点接收初始聚类中心点分布任务给子节点，子节点根据初始聚类中心点利用MapReduce分布式并行框架进行并行聚类任务，针对每个簇计算数据间距离的平均值来更新聚类中心点；步骤5：子节点应用误差平方和准则函数作为聚类准则函数，判断是否继续迭代：若根据更新后的聚类中心点计算的误差平方和准则函数是收敛的，则当前的各聚类中心点为最终的聚类中心点并反馈给主节点，执行步骤6；否则返回步骤4继续迭代更新聚类中心点；步骤6：主节点重新输入聚类中心点并分布任务，各子节点根据聚类中心点对大规模数据进行聚类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东北大学，未经东北大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710412014.8/，转载请声明来源钻瓜专利网。

上一篇：一种文具大数据分布式存储系统
下一篇：基于Spark的并行化关联挖掘优化方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于MapReduce的大规模数据分布式聚类处理方法有效

专利文献下载