[发明专利]一种基于MapReduce模型的并行关联方法无效
申请号: | 201310064117.1 | 申请日: | 2013-03-01 |
公开(公告)号: | CN103150163A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 李千目;陈强富;施丛丛;魏士祥;印杰;侯君 | 申请(专利权)人: | 南京理工大学常熟研究院有限公司 |
主分类号: | G06F9/44 | 分类号: | G06F9/44;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215513 江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mapreduce 模型 并行 关联 方法 | ||
技术领域
本发明属于数据挖掘技术,特别是一种基于MapReduce模型的并行关联方法。
背景技术
随着信息化技术的不断发展,人们的现实生活都被数字化了,各种数据被搜集起来,引起了数据爆炸式的增长,为了充分挖掘这些数据之间的关联性,许多公司投入了大量了人力财力来进行数据分析。数据分析得到的结果是企业决策的重要依据,所以,数据分析的方法决定了这些数据的价值。
在数据挖掘方面,关联规则是非常重要的一种技术。它能够将数据库中的一些具有相关联性的数据分析出来。关联规则的挖掘一般分为两步的步骤。第一阶段,从原始资料集合中找出所有频繁项集(Large Itemsets)。频繁的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。该水平值被称为支持度,若支持度大于等于所设定的最小支持度(Minimum Support)阀值时,则该项目组称为频繁项集。一个满足最小支持度的k项集,则称为频繁k项集(Frequent k-itemset)。算法从频繁k项集中再产生频繁k+1项集,直到无法再找到更长的频繁项集为止。第二阶段是产生关联规则(Association Rules)。从频繁项集产生关联规则,是利用前一步骤的频繁k项集来产生规则,在最小置信度(Minimum Confidence)的阀值下,若一规则所求得的置信度满足最小置信度,称此规则为关联规则。
在并行式的关联规则挖掘算法方面,Rakesh Agrawal等(Rakesh Agrawal,John C. Shafer. Parallel Mining of Association Rules[J]. IEEE Transactions on Knowledge and Data Engineering. 1996, 8(6): 962-969P.)提出了三种并行式的关联规则挖掘算法:CD,DD,CaD。这几种关联规则挖掘算法都是基于Apriori算法,主要是通过计数来获得频繁项集并通过集合递推的方式来获得最终结果。
在分布式的编程模型方面,谷歌公司提出了Map/Reduce的分布式编程模型,如图1所示,其利用map和reduce框架能够在分布式的集群上实现大规模的分布式计算(Dean J. and Ghemawat S. Mapreduce: simplified data processing on large clusters[J], Commun. ACM, 51, 1, pp. 107-113, 2008.),并且具有很高的稳定性能。
发明内容
本发明的目的在于提供一种基于MapReduce模型的并行关联方法,从而实现了在巨量的数据中并行式的数据关联性分析,并且克服并行计算的弊端。
实现本发明目的的技术解决方案为:一种基于MapReduce模型的并行关联方法,步骤如下:
第一步,对数据进行预处理,将所有的数据值规约在有限的离散集合中,并设置最小支持度fF和最小置信度fS。
第二步,在MapReduce编程框架下,特殊处理1项集,即:把整个数据集作为输入文件,实现一个map类来统计数据中候选项的计数,实现一个reduce类来合并由map进程返回的计数,然后处理第一个任务,输出作为一个文件,包含1项集的计数m和总记录个数n。
第三步,主进程读取第一个任务的输出文件,利用公式 计算出支持度,如果该支持度不小于最小支持度fF的话,可以得到频繁1项集。
第四步,为第k(k>=2)个任务设置map类和reduce类,这两个类实现并行关联算法CD,利用map/reduce框架来执行任务,输出包含k项集的项目名和该项目的计数。
第五步,主进程读取第k个任务的输出集合,计算并对比支持度,获得了频繁k项集,然后计算出k+1项侯选集,如果k+1项候选集为空,那么结束该步骤;如果候选集为非空,那么执行第四步,设置k值等于k+1,开始下一轮的循环。
第六步,利用公式来计算置信度,如果置信度大于最小置信度fS,该规则就是强规则。
本发明与现有技术相比,其显著优点:(1)利用Map/Reduce编程模型,能够执行分布式的计算,充分地利用集群的效率;(2)使用Map/Reduce能够有效地进行负载均衡;(3)使用Map/Reduce能够有效的避免分布式的节点失效。
附图说明
图1是现有技术中MapReduce编程模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学常熟研究院有限公司,未经南京理工大学常熟研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310064117.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能芯轴装置
- 下一篇:加工筒形壳体零件用装卡工装