[发明专利]基于MapReduce的概率频繁项集挖掘方法有效

专利信息
申请号: 201410231646.0 申请日: 2014-05-28
公开(公告)号: CN103995882B 公开(公告)日: 2017-07-07
发明(设计)人: 杨育彬;徐静;王苏琦 申请(专利权)人: 南京大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 江苏圣典律师事务所32237 代理人: 胡建华
地址: 210023 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于MapReduce的概率频繁项集挖掘方法,包含以下步骤1)读入不确定数据集T1;2)在Map端依次处理不确定数据集T1中的每一个事务,将事务中每一项及其概率值映射成<key,value>键值对;3)在Reduce端接收Map端的输出,利用正态近似方法生成概率频繁1项集;4),将3)中所输出的概率频繁1项集,生成列表F_list;5),读入存储在分布式文件系统HDFS上的不确定数据集T1,按照列表F_list进行处理,生成不确定数据集T2;6),运行基于MapReduce的UApriori方法不断处理5)中得到的不确定数据集T2生成候选项集,然后利用正态近似的方法从候选项集中生成概率频繁项集,直到生成所有的概率频繁项集为止。
搜索关键词: 基于 mapreduce 概率 频繁 挖掘 方法
【主权项】:
一种基于MapReduce的概率频繁项集挖掘方法,其特征在于,包含以下步骤:1),读入存储在分布式文件系统HDFS上的不确定数据集T1,该不确定数据集共包含N个事务,N>1;2),在Map端依次处理不确定数据集T1中的每一个事务,事务中包含不同的项以及该项在事务中出现的概率值,项是事务记录数据的基本单元,将事务的每一项及其概率值映射成<key,value>键值对,其中key代表项集,项集是由项组成的集合,此时项集中只含有1项,为1项集,value代表该项集在一个事务中的概率值;3),在Reduce端接收Map端的输出,依次处理每个项集key,利用正态近似方法计算项集key的频繁概率,判断该项集key是否为概率频繁项集,若是,则以项集key的频繁概率作为项集key对应的value的值,输出<key,value>键值对,否则舍去当前项集key,继续处理下一个项集,Reduce输出关于概率频繁1项集的<key,value>键值对;4),将3)中所输出<key,value>键值对中的项集key按照value值由大到小进行排序,由此生成列表F_list,列表F_list为概率频繁1项集的集合,其中1项集表示项集中只含有1个项,当项集中含有k(k≥2)个项时,称之为k项集;5),读入存储在分布式文件系统HDFS上的不确定数据集T1,并且将每个事务中的项及其概率值,按照这些项在列表F_list中的顺序进行排序,删去不在列表F_list中的项及其概率值,生成处理后的不确定数据集T2,将T2存储在分布式文件系统HDFS上;6),运行基于MapReduce的UApriori方法不断处理5)中得到的不确定数据集T2生成候选项集,然后利用正态近似的方法从候选项集中生成概率频繁项集,直到生成所有的概率频繁项集为止;所述步骤3中利用正态近似来计算项集key的频繁概率,具体如下:给定一个包含N条事务的不确定数据集,用户给定一个最小支持率minsup和最小频繁概率阈值σ,其中minsup和σ取值范围都为(0,1),项集X满足:P(sup(X)≥N×minsup)≥σ,则项集X是概率频繁项集;正态分布近似概率频繁项集挖掘包括以下步骤:sup(X)是指项集X在不确定数据集所有事务中出现的次数,即项集X在不确定数据集中的支持度,首先计算项集X在所有事务中出现的次数得到sup(X);如果项集X不满足sup(X)≥N×minsup的条件,那么项集X不是概率频繁项集,若项集X满足sup(X)≥N×minsup的条件,再利用正态分布近似求解项集X的频繁概率,其公式如下:如果项集X的频繁概率不小于阈值σ,那么X是概率频繁项集,否则,X不是概率频繁项集,其中,P(sup(X)≥N×minsup)代表sup(X)大于等于N×minsup的概率值,即项集X的频繁概率,Φ代表正态分布的累积分布函数,esup(X)代表项集X的期望概率支持度,Var(X)代表项集X的方差,计算公式如下:其中,Pi(X)表示项集X在第i个事务中的概率值,i取值范围为[1,N],若第i个事务不包含项集X,则Pi(X)=0,若第i个事务包含项集X,Pi(X)计算公式如下:n≥2,Pi(x)表示项x在第i个事务中的概率值,若第i个事务不包含项x,则Pi(x)=0;所述步骤6)运行基于MapReduce的UApriori方法包含以下步骤:21)根据列表F_list概率频繁1项集的集合,将列表F_list中任意两个不相同的概率频繁1项集组合生成候选2项集,所有的候选2项集组成候选2项集的集合,存储在分布式文件系统HDFS中;22)若候选项集的集合不为空,直接进入步骤23),若候选项集的集合为空,则结束;23)在Map端载入分布式文件系统HDFS上的候选项集的集合,读取分布式文件系统HDFS上的不确定数据集T2,根据候选项集的集合依次处理不确定数据集T2中的每个事务:如果一个事务中包含候选集合中的一个候选项集,将该候选项集及其在事务中的概率值映射成新的<key,value>键值对,其中key代表新的候选项集,value代表该候 选项集在这个事务中的概率值,该概率值根据公式(d)计算;24)在Reduce端接收Map端的输出,依次处理每个项集key,利用正态近似方法计算项集key的频繁概率,判断该项集key是否为概率频繁项集,若是,则以项集key的频繁概率作为项集key对应的新的value的值,输出新的<key,value>键值对,否则舍去当前项集key,继续处理下一个项集;25)如果步骤24)中Reduce输出的概率频繁k项集的集合为空,则结束,如果Reduce输出的概率频繁k项集的集合不为空,k≥2,其中k项集表示为项集含有k个项,如果概率频繁k项集的集合中存在任意两个不相同的概率频繁k项集,且任意两个不相同的概率频繁k项集之间包含k‑1个相同的项,只有1个项不相同,那么将这两个概率频繁k项集进行合并,生成这两个概率频繁k项集的候选k+1项集,直到生成所有的概率频繁k项集的候选k+1项集,组成候选k+1项集的集合,然后返回步骤22)继续运行。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410231646.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top