[发明专利]一种基于大数据平台的频繁模式挖掘方法有效
申请号: | 201711384435.0 | 申请日: | 2017-12-20 |
公开(公告)号: | CN108197172B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 刘君强;江波 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林松海 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 平台 频繁 模式 挖掘 方法 | ||
本发明公开了一种基于大数据平台的频繁模式挖掘方法。它利用大数据平台从海量数据中发现满足用户需求的频繁模式,一是采用混合的搜索策略,将宽度优先搜索和深度优先搜索相结合,实现混合挖掘,二是采用混合垂直数据格式来表示数据,充分利用交集与差集的运算特点保证垂直数据格式始终保持最小状态,同时实现水平数据格式与垂直数据格式的相互转换,并采用了基于快速失败机制的交叉计算优化方案提高计算效率,三是在宽度优先搜索挖掘阶段采用基于有序搜索树的快速剪枝策略,提高剪枝效率,四是结合大数据平台的特性,进行有效地缓存和均衡分组,实现整个系统负载均衡。
技术领域
本发明涉及智能化信息处理领域。本发明设及一种能从海量数据中发现满足用户需求的频繁模式挖掘方法,特别适用于智能化推荐系统、网络信息检索、文本挖掘以及知识发现等领域。
背景技术
随着互联网时代的不断迈进,数字信息化技术也在不断地提高,以数据库及数据仓库等数据存储技术为核心的信息化处理方案在各行各业得到广泛应用。随之而来的便是激增的数据量,这些庞大的数据背后暗含着许多有价值的信息。如何从中获取到具有实用性的有效信息和知识,以便更好的利用这些数据创造更多的价值,这便是大数据时代带来的机遇与挑战,数据挖掘技术正是在此背景下应运而生。
数据挖掘作为一项处理分析数据的技术,便是在大量数据中分析、计算、识别出有效的、有用的、具有潜在价值的信息或知识。数据挖掘,同时又被称作数据库中的知识发现,按照其挖掘的任务可分为关联规则、聚类、分类、时间序列预测模型等。其中,关联规则是用来描述事务记录中不同数据元素之间存在的内在相关性关系,其核心任务便是频繁模式的挖掘。
然而,在已有的众多频繁模式挖掘成果中,大多都是采用单一的搜索策略或是单一的数据格式,虽然现有的技术在处理某些特定数据时已经有了相当不错的效果,但当面对更加复杂且规模更大的数据时,或多或少的会出现效率低下或是可伸缩性差等问题,从而衍生了时间浪费、能源浪费等问题。
发明内容
针对现有技术中的缺陷,本发明提供了一种基于大数据平台的频繁模式挖掘方法基于大数据平台,采用混合的搜索策略和数据格式,并结合高效的剪枝方案实现并行化挖掘频繁模式,从而解决效率和伸缩性等问题。
一种基于大数据平台的频繁模式挖掘方法,根据事务数据库D、用户设置的最小支持度𝜎,快速地从D中发掘出频繁度不低于𝜎的模式,主要包括以下步骤:
(1)数据输入;
(2)统计频繁1-项集和2-项集;
(3)估算最大内存上限值SMUB,对搜索策略进行划分;
(4)混合挖掘;
(5) 数据输出;
其中所述步骤(2)和(4)中的宽度挖掘阶段的垂直数据格式采用混合数据格式,并采用基于快速失败机制的交叉计算优化方案提高计算速率,同时采用基于有序搜索树的快速剪枝方案避免资源浪费问题;所述步骤(3)中对搜索策略进行了划分,从单一搜索策略转入混合搜索,在所述步骤(4)中按照混合搜索策略执行混合挖掘任务,所述步骤(4)中进行混合挖掘时对宽度挖掘进行有效的缓存机制来降低中间输出量,同时对于深度挖掘采用均衡分组方案实现整个系统的负载均衡。
所述的混合搜索通过在挖掘过程中伺机选择搜索策略,通过宽度搜索的逐层搜索方式,减少数据维度,使部分共享一个父节点的项集可以转入深度挖掘,从而减少宽度搜索的层数,降低了宽度搜索挖掘时的I/O开销,解决深度搜索挖掘时的内存限制;具体步骤如下:
2.1、扫描事务数据库D第一遍,使用垂直数据格式保存每个频繁1-项集的信息,同时对其按照支持度的升序排序后得到一阶频繁模式的有序序列F,并输出;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711384435.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置