[发明专利]一种基于Spark平台的多尺度关联规则方法在审

申请号：	201810218838.6	申请日：	2018-03-16
公开（公告）号：	CN108446375A	公开（公告）日：	2018-08-24
发明（设计）人：	王灵矫;赵博文	申请（专利权）人：	湘潭大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/16
代理公司：	暂无信息	代理人：	暂无信息
地址：	411105 湖南省湘潭市***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于Spark平台的多尺度关联规则方法，该方法包括：在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台，并将数据集上传到HDFS文件系统中；Spark平台从HDFS文件系统中读取数据并转换为弹性分布式数据集RDD，并将其存储在内存中；选择多个基准尺度划分数据集在Spark平台上并行运算，得到基准尺度数据集的频繁项集；进而通过尺度转换机制挖掘目标数据集的关联规则，并得到算法的精确度。本发明将传统关联规则算法同尺度转换机制结合，只需对基准尺度数据集进行一次挖掘就能得到目标尺度数据集下相关知识，大大提升了在尺度数据集上运算的精确度和效率，同时在Spark平台上实现进一步提高了数据处理速度。
搜索关键词：	数据集关联规则基准尺度文件系统尺度转换多尺度关联规则算法分布式数据物理服务器并行运算尺度数据目标尺度目标数据频繁项集数据处理挖掘虚拟机构建算法运算存储转换
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于Spark平台的多尺度关联规则方法，其特征在于，包括以下步骤：步骤1：在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台，并将数据集上传到HDFS文件系统中；步骤2：通过客户端向Spark平台提交作业，Spark平台从HDFS文件系统中读取数据并转换为弹性分布式数据集RDD，并将其存储在内存中；步骤3：选择多个基准尺度BS，确定每个基准尺度的数据集dsBS,由于每个RDD对应多个分区partition，所以在每个分区运行一个基准尺度数据集，各个分区并行运算；步骤4：各个partition中以最小支持度min_sup挖掘各个基准尺度数据集，得到各个基准尺度数据集频繁项集的集合FIi，并求取上述若干频繁项集集合的并集FIC作为目标尺度数据集dsSO频繁项集的候选项集集合；步骤5：通过克里格法确定基准尺度数据集对目标尺度数据集的权重矩阵λ，用于估算目标尺度数据集中频繁项集的支持度；步骤6：筛选各个分区目标尺度数据集最终的频繁项集，生成关联规则，并计算各个分区的算法精确度，进而求取精确度的均值作为最终结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湘潭大学，未经湘潭大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810218838.6/，转载请声明来源钻瓜专利网。

上一篇：用户意图预测方法、装置、电子设备、存储介质
下一篇：数据存储方法与装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Spark平台的多尺度关联规则方法在审

专利文献下载