[发明专利]基于MapReduce的概率频繁项集挖掘方法有效

专利信息
申请号: 201410231646.0 申请日: 2014-05-28
公开(公告)号: CN103995882B 公开(公告)日: 2017-07-07
发明(设计)人: 杨育彬;徐静;王苏琦 申请(专利权)人: 南京大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 江苏圣典律师事务所32237 代理人: 胡建华
地址: 210023 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 mapreduce 概率 频繁 挖掘 方法
【说明书】:

技术领域

本发明涉及计算机数据发掘方法,特别是基于MapReduce的大规模不确定数据概率频繁项集的近似挖掘方法。

背景技术

近年来,由于一些新的应用,比如:传感器网络的检测、移动物体的搜索、蛋白间相互作用的网络分析以及数据的集成和数据的清洗等等,不确定数据的挖掘成为了数据挖掘领域的一个新的热门研究话题。不确定数据挖掘主要包括聚类、分类、关联规则的挖掘、孤立点检测等方面,其中频繁项集的挖掘是数据挖掘领域的一个基础。因此,不确定数据中的概率频繁项集的挖掘成为了研究的热点。例如目前比较流行的无线传感网络,无线传感网络搜集了大量的数据。然而由于传感器固有的不确定性,搜集到的数据通常是不精确的。因此,如何挖掘不确定的概率数据中隐藏的规则是很必要的。然而在传统数据的频繁项集的挖掘过程中,每一事物包含的项是确定的,但是在很多不确定数据中,不确定性造成了挖掘结果的复杂性,因此不确定数据中有效的概率频繁项集的挖掘方法是研究的重要课题。而面对海量的数据,传统的单机模式下的概率频繁项集的挖掘方法往往难以满足要求,开源的Hadoop平台为许许多多的数据挖掘方法提供了沃土。

授权中国专利“一种基于Hadoop的频繁闭项集挖掘方法”(102622447A)和“一种基于MapReduce模型的并行关联方法”(103150163A)也是基于Hadoop平台MapReduce模型下,关于频繁项集的挖掘方法。但是,其所关注的问题还是在确定数据中的频繁项集,所求解的频繁项集也是基于项集在所有事务中的支持度,而非项集的频繁概率,该传统方法根本无法处理不确定数据。另有专利“一种关联规则挖掘方法及其系统”(101799810B)也是针对确定数据中频繁项集的挖掘,但一方面该方法因为没有基于MapReduce的并行化不能处理大数据,另一方面该方法不能处理不确定数据,目前已知的关于频繁项集挖掘的专利都不适用于复杂的不确定数据中概率频繁项集的挖掘。

发明内容

发明目的:本发明为了解决现有技术中的问题,提出了一种基于MapReduce的概率频繁项集挖掘方法,通过Hadoop的MapReduce分布式框架下,采用UApriori方法基础上的一种概率频繁项集正态近似挖掘方法,从而有效解决大规模不确定数据下,概率频繁项集快速准确挖掘的问题。

发明内容:本发明公开了一种基于MapReduce的概率频繁项集挖掘方法,包含以下步骤:

1),读入存储在分布式文件系统HDFS上的不确定数据集T1,该不确定数据集共包含N个事务,N>1;

2),在Map端依次处理不确定数据集T1中的每一个事务,事务中包含不同的项以及该项在事务中出现的概率值,项是事务中记录数据的基本单元,将事务的每一项及其概率值映射成<key,value>键值对,其中key代表项集,项集是由项组成的集合,value代表该项集在一个事务中的概率值,以事务t1{(B,1.0);(C,0.5);(D,0.2);(E,0.5)}为例,t1中包含5个项B,C,D,E,每一项后面的数字,表示该项出现在事务t1中的概率值,对事务t1来说它将会生成<{B},1.0>,<{C},0.5>,<{D},0.2>和<{E},0.5>的<key,value>键值对,此时的项集key中都只含有1个项,为1项集,当项集中含有k(k≥2)个项时,称之为k项集;

3),在Reduce端接收Map端的输出,依次处理每个项集key,利用正态近似方法计算项集key的频繁概率,判断该项集key是否为概率频繁项集,若是,则以项集key的频繁概率作为项集key对应的value的值,输出<key,value>键值对,否则舍去当前项集key,继续处理下一个项集,Reduce输出关于概率频繁1项集的<key,value>键值对;

4),将3)中所输出<key,value>键值对中的项集key按照value值由大到小进行排序,由此生成列表F_list,列表F_list为概率频繁1项集的集合;

5),读入存储在分布式文件系统HDFS上的不确定数据集T1,并且将每个事务中的项及其概率值,按照这些项在列表F_list中的顺序进行排序,删去不在列表F_lsit中的项及其概率值,生成处理后的不确定数据集T2,将T2存储在分布式文件系统HDFS上;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410231646.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top