[发明专利]一种支持分布式计算的关联规则挖掘算法实现方法及装置有效
申请号: | 201210332525.6 | 申请日: | 2012-09-11 |
公开(公告)号: | CN102945240A | 公开(公告)日: | 2013-02-27 |
发明(设计)人: | 杨进;张金伟 | 申请(专利权)人: | 杭州斯凯网络科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州杭诚专利事务所有限公司 33109 | 代理人: | 尉伟敏 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 分布式 计算 关联 规则 挖掘 算法 实现 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种支持分布式计算的关联规则挖掘算法实现方法及装置。
背景技术
随着“大数据”时代的到来,企业业务数据量激增,数据分析师都在尝试各种数据分析方法以及数据挖掘方法,旨在希望能够从海量数据中发掘潜在的、具有业务价值的用户行为模式。数据挖掘:通过分析每个数据,从大量数据中寻找其规律的技术。另外,本发明中提到的大数据、海量数据、数据集的含义相同。
关联规则挖掘是数据挖掘方法中一种被广泛采用的且具有影响力的方法,它能够用在各种推荐系统中为用户推荐感兴趣的物品。目前能够使用的各种版本的关联规则挖掘算法都是单机形式,面对大数据量情况都显得无能为力,很多场景下也只是采样部分业务数据进行关联规则的查找。
1993年,R.Agrawal等人首次提出了挖掘顾客交易数据中项目集间的关联规则问题,其核心是基于两阶段频繁集思想的递推算法。第一步通过迭代,检索出事务数据库中的所有频繁项集,频繁项集即支持度不低于用户设定的阈值的项集;第二步利用频繁项集构造出满足用户最小信任度的规则。其中,挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。
频繁项集:项的集合称为项集。项集的出现频率(支持计数)是项集的事务数,简称为项集的频率,支持率计数或者计数。如果项集的相对出现频率大于等于预定义的最小支持度阈值,则是频繁项集。
2001年Tobias从贝叶斯统计角度提出了基于预测精度的关联规则模型,并给出了相应的关联规则挖掘算法PredictiveApriori,简称PA算法。PA算法只需要设定输出最好的n个规则,就可以挖掘出n个预测精度最大的规则。PA算法主要通过不断增大规则前项支持度和观察置信度来逐步逼近获得最大预测精度E,从而返回n个最好的关联规则。通过前项支持度和规则的置信度来量化期望预测精度E,同时支持度可以修正规则的置信度。这样综合考虑了支持度和置信度对关联规则的预测精度的影响。
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。关联规则挖掘过程主要包含两个阶段:第一阶段必须先从数据集合中找出所有的频繁项集,第二阶段再由这些频繁项集中产生关联规则。
Hadoop不仅仅是一个用于存储的分布式文件系统,而且还是一个分布式系统基础框架,用户可以在不了解分布式底模块细节的情况下,开发分布式程序。Hadoop充分利用集群的威力进行高速运算和存储,实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS存储hadoop集群中所有存储节点上的文件。HDFS有着高容错性的特点,并且能够设计部署在低廉的硬件上,它以流式数据访问模式来存储超大文件。而且Hadoop提供高传输率来访问应用程序的数据。因此,Hadoop适合那些有着超大数据集的应用程序。Hadoop 由许多元素构成,其最底模块部是分布式文件系统,该分布式文件系统存储 Hadoop 集群中所有存储节点上的文件。该分布式文件系统的上一层是编程模型MapReduce。编程模型MapReduce的优势在于处理大规模数据,用于对大规模数据集(大于1TB)的并行运算。编程模型MapReduce的设计目标是方便编程人员在不熟悉分布式并行编程的情况下,将自己的程序运行在分布式系统上。编程模型MapReduce实现了map函数和reduce函数的功能。map函数把一个函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集。而reduce函数是把从两个或更多个map函数中通过多个线程、进程或者独立系统并行执行处理的结果集进行分类和归纳。map函数和 reduce函数可能会并行运行,即使不是在同一个系统的同一时刻也可能会并行运行。
在关联规则挖掘方面,现有技术方案都是基于单机形式设计。基于单机形式实现的关联规则挖掘算法PA在针对小数据量的情况(比如十万级)能够比较好的进行规则挖掘。但是,现有技术仅用于实验室,很难应用到企业级业务,特别是互联网、移动互联网行业,业务数据量每天动辄千万级甚至亿级,这些现有技术工具已经显得无能为力。在大数据量情况下,单机版的关联规则挖掘算法PA需要花费大量时间计算规则的前项,甚至有时根本计算不出来。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州斯凯网络科技有限公司,未经杭州斯凯网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210332525.6/2.html,转载请声明来源钻瓜专利网。