[发明专利]一种基于Spark的大数据关联规则挖掘方法在审
申请号: | 201911073607.1 | 申请日: | 2019-11-06 |
公开(公告)号: | CN110825786A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 李成严;辛雪;赵帅 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 数据 关联 规则 挖掘 方法 | ||
1.一种基于Spark的大数据关联规则挖掘方法,其特征在于对数据进行预处理操作和前缀划分原则;预处理操作包含数据库形式转换,过滤操作以位图保存TidSet操作;对于数据库形式转换,就是将水平数据库转换成垂直数据库形式,将数据库操作转换成集合计算;对于过滤操作,就是过滤不满足要求数据集;使用过滤操作去除掉所有不满足要求得数据,得到有效数据集,从而降低要执行的数据集的大小,加快运行效率;对于位图保存TidSet操作,就会在预处理过程直接将每个事务所对应的TidSet用位图来保存,便于后续提高求交集的速度,提高运行效率;计算频繁K-项集时最重要的就是采用前缀划分原则,该原则可以大大减少要遍历的数据集的大小,还能保证不丢解,从而提高运行效率;具体包括:
基于Spark的大数据关联规则挖掘方法包括:
步骤1:给出方法的输入路径,输出路径,最小支持度以及分区数参数;
步骤2:对数据库形式转换并用位图保存TidSet;
步骤3:转换后的数据库过滤得到频繁1-项集;
步骤4:计算频繁2-项集;
步骤5:迭代执行前缀划分计算和计算频繁2-项集得到频繁K-项集;
进一步地,在步骤5中前缀划分计算需要迭代计算,当获取到频繁2-项集时,要对频繁2-项集进行提取前缀,这时提取的前缀个数只有1个;提取后剩余的部分进行计算得到新的频繁2-项集操作,也就是步骤4;将新得到的频繁2-项集加上前缀就得到频繁3-项集;依次类推,对频繁(K-1)-项集进行前缀划分操作,这时的提取前缀个数为(K-2)个,剩余部分求频繁2-项集后加上(K-2)个前缀就得到频繁K-项集。
2.权利要求1中提到的数据库形式转换,就是将数据库存储的数据形式是水平数据库形式,即<Tid: itemID >形式,将其转化成垂直数据库形式,即<itemID:Tid>形式,这样就可以将数据库之间的运算转换到集合之间的运算。
3.权利要求1中提到的过滤操作,就是在数据库转换成垂直数据库后,使用Spark提供的转换算子filter()算子过滤掉不满足要求的数据集,也就是支持度小于给定最小支持度的数据,从而减小数据集的大小,并保证了数据集中数据的有效性。
4.权利要求1中提到的位图保存TidSet,就是使用位图保存就可以将原来的集合之间的运算转换到位图之间的计算;位图是一种特殊的数据结构,将内存中连续区域的位来表示一个准确的数值;将每个项所对应的Tid用位图进行存放,位图的容量就是该项的支持度,用容量和最小支持度进行比较即可判断是否为频繁项集;位图是一种基于内存的数据结构,所以它在求交集运算的速度将会非常快,即使在数据量比较大的时候也能很好的保持快速的特点,大大的提高了运行效率。
5.权利要求1中提到的前缀划分原则,就是将项中具有相同的第一个元素提取出来作为前缀,这样本来是所有频繁项集的遍历就变成了在所有频繁项集中具有相同前缀的项集进行遍历,减少了遍历的空间;具体说明频繁项集的前缀划分操作,当求出频繁2-项集后,将频繁2-项集中的项具有相同第一个元素提出来,该过程使用Spark提供的map()方法;剩余的项和Tid放在一起,对提出来的相同的第一个元素的剩余项和Tid进行合并规约,该过程使用Spark提供的行动算子reduceByKey()方法;这样只需在前缀相同的列表中进行遍历,不需要遍历全部频繁2-项集,大大减少了遍历的列表的长度,从而提高了方法的效率;相同的,频繁K-项集的计算和频繁3-项集的计算相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911073607.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种流动发光型鞋底
- 下一篇:一种高发电量旋转式无线无源装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置