[发明专利]一种并行化的数据流频繁项集挖掘方法有效

专利信息
申请号: 201710696637.2 申请日: 2017-08-15
公开(公告)号: CN107451290B 公开(公告)日: 2020-03-10
发明(设计)人: 段贵多;罗光春;田玲;韩宏 申请(专利权)人: 电子科技大学
主分类号: G06F16/2455 分类号: G06F16/2455;G06F16/2458
代理公司: 成都弘毅天承知识产权代理有限公司 51230 代理人: 徐金琼;刘东
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种并行化的数据流频繁项集挖掘方法,旨在解决现有技术数据挖掘吞吐量小的问题;本申请包括初始化,预挖掘,FP‑Stream结构维护,频繁项集生成四部分,算法收集一小段时间内到达的事务,构成一个事务集,第一个事务集被特殊处理,它被用于初始化,以建立f_list和FP‑Stream结构,每个事务集触发一轮微批处理。每轮微批处理先进行预挖掘,再进行FP‑Stream结构维护,当计算请求到达时,算法利用FP‑Growth算法在指定的时间窗口内挖掘FP‑Stream结构得到频繁项集;本申请采用的算法增加了系统的整体吞吐量,极大程度提高了数据挖掘的处理速度;本申请适用于数据挖掘相关方面。
搜索关键词: 一种 并行 数据流 频繁 挖掘 方法
【主权项】:
一种并行化的数据流频繁项集挖掘方法,其特征在于,包括以下步骤:步骤1:初始化首个事务集到达时,进行初始化步骤;步骤1.1:收集单位时间的所有事务,形成事务集,依次记为{B1…Bi},并分散存储至各个节点上,第一个事务集为B1,统计所有项目在B1中的频率,然后根据频率降序排列得到f_list;步骤1.2:用FP‑growth算法,支持度阈值设为∈,挖掘事务集B1,并用挖掘事务集B1得到的项目集建立FP‑Stream结构并储存至Zookeeper集群;步骤2:单轮微批处理当除了B1事务集的其他一个事务集到达时,进行一轮微批处理,每轮微批处理包含预挖掘部分与FP‑Stream结构维护两部分,两部分依次分布式执行;步骤2.1:并行执行预挖掘并行执行预挖掘是产生维护FP‑Stream结构所需的项目集;步骤2.1.1:统计分散在各个节点的Bi(i>1)中事务出现的对应频率,得到集合T;步骤2.1.2:以f_list为依据,对T中事务的项目进行排序,得到新的集合W;步骤2.1.3:再次统计事务对应的频率,得到新的集合R,求R中每条事务的元素个数大于1的项目集以及项目集对应的频率,组成集合S;步骤2.1.4:汇总步骤2.1.3中每一个项目集出现的频率;步骤2.2:FP‑Stream结构维护预挖掘执行完毕后,将在各个节点上分布式进行FP‑Stream结构维护;步骤2.2.1:向各节点分发数据步骤2.1中预挖掘的输出集合中每一条记录转化为<key1,<key2,value>>的形式向集群各个节点发送,key1相同的记录被发送到相同的节点,key1是项目集key2的首项,value是项目集的频率;步骤2.2.2:建立集合E各节点建立一个空的集合E,用于记录被删除的项目集;步骤2.2.3:获取部分FP‑Stream结构依次处理各节点收到的每条记录,若其key1字段是第一次出现,则从Zookeeper将FP‑Stream结构中根节点的子树中以key1为根节点的子树下载到本地;步骤2.2.4:优化插入过程提取出key2,用key2的所有前缀,查找E;步骤2.2.5:遍历本地FP‑Stream结构并上传至Zookeeper中当节点收到的全部记录都处理完毕,从根节点出发,深度优先遍历本地存储的FP‑Stream结构,遍历完成后,将整个FP‑Stream结构上传至Zookeeper集群中;步骤2.2.6:遍历FP‑Stream结构中未被访问的节点并更新至Zookeeper中;步骤3:频繁项集生成在指定的时间窗口内,用FP‑Growth算法挖掘得到频繁项集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710696637.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top