[发明专利]一种基于Spark平台的多尺度关联规则方法在审
申请号: | 201810218838.6 | 申请日: | 2018-03-16 |
公开(公告)号: | CN108446375A | 公开(公告)日: | 2018-08-24 |
发明(设计)人: | 王灵矫;赵博文 | 申请(专利权)人: | 湘潭大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 411105 湖南省湘潭市*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于Spark平台的多尺度关联规则方法,该方法包括:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;Spark平台从HDFS文件系统中读取数据并转换为弹性分布式数据集RDD,并将其存储在内存中;选择多个基准尺度划分数据集在Spark平台上并行运算,得到基准尺度数据集的频繁项集;进而通过尺度转换机制挖掘目标数据集的关联规则,并得到算法的精确度。本发明将传统关联规则算法同尺度转换机制结合,只需对基准尺度数据集进行一次挖掘就能得到目标尺度数据集下相关知识,大大提升了在尺度数据集上运算的精确度和效率,同时在Spark平台上实现进一步提高了数据处理速度。 | ||
搜索关键词: | 数据集 关联规则 基准尺度 文件系统 尺度转换 多尺度 关联规则算法 分布式数据 物理服务器 并行运算 尺度数据 目标尺度 目标数据 频繁项集 数据处理 挖掘 虚拟机 构建 算法 运算 存储 转换 | ||
【主权项】:
1.一种基于Spark平台的多尺度关联规则方法,其特征在于,包括以下步骤:步骤1:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;步骤2:通过客户端向Spark平台提交作业,Spark平台从HDFS文件系统中读取数据并转换为弹性分布式数据集RDD,并将其存储在内存中;步骤3:选择多个基准尺度BS,确定每个基准尺度的数据集dsBS,由于每个RDD对应多个分区partition,所以在每个分区运行一个基准尺度数据集,各个分区并行运算;步骤4:各个partition中以最小支持度min_sup挖掘各个基准尺度数据集,得到各个基准尺度数据集频繁项集的集合FIi,并求取上述若干频繁项集集合的并集FIC作为目标尺度数据集dsSO频繁项集的候选项集集合;步骤5:通过克里格法确定基准尺度数据集对目标尺度数据集的权重矩阵λ,用于估算目标尺度数据集中频繁项集的支持度;步骤6:筛选各个分区目标尺度数据集最终的频繁项集,生成关联规则,并计算各个分区的算法精确度,进而求取精确度的均值作为最终结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湘潭大学,未经湘潭大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810218838.6/,转载请声明来源钻瓜专利网。
- 上一篇:用户意图预测方法、装置、电子设备、存储介质
- 下一篇:数据存储方法与装置