[发明专利]基于Spark的并行化关联挖掘优化方法在审
申请号: | 201710413035.1 | 申请日: | 2017-06-05 |
公开(公告)号: | CN107291848A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 肖甫;许平;沙乐天;王少辉;韩崇;王汝传 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所32207 | 代理人: | 张芳 |
地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 spark 并行 关联 挖掘 优化 方法 | ||
技术领域
本发明涉及大数据关联挖掘算法领域,特别是基于Spark的并行化关联挖掘优化方法。
背景技术
大数据通常用来形容大量半结构化和非结构化数据,有明显的自身特征:体量大、种类多、产生速度快、实时性要求高、价值密度低,这意味着传统的数据关联挖掘算法已不能满足大数据的处理需求,面向多机、并行、分布式的大数据处理方式变得越来越重要,因此研究并提出新的能够适应大数据环境的关联挖掘算法已经显得十分迫切而重要。
Apriori算法是最为经典的关联规则挖掘算法,该算法的核心是生成最大项目集,通过迭代方式逐层搜索频繁项集,直至没有更大项目集生成。目前Apriori算法存在的性能瓶颈主要体现在两个方面:(1)每次搜索都需要完整地扫描一次数据库,(2)需要通过自连接和剪枝产生庞大的候选项集。与此同时,在当前大数据背景下,面对海量数据,这种传统串行方式效率特别低,对算法进行并行化改造成为了研究的热点。
发明内容
针对Apriori算法的不足,本发明提供一种基于Spark的并行化关联挖掘优化方法,Spark是一种快速、通用、可扩展的大数据分析引擎,利用改进的基于Spark平台的关联挖掘算法Apriori对网站点击流日志进行用户访问路径分析,通过对经典关联规则算法Apriori的分析并结合Spark计算模型的特点,提供基于用户访问路径关联的算法,最终能够快速准确为用户提供页面访问推荐策略。
基于Spark的并行化关联挖掘优化方法,先对事务数据库进行预处理,根据业务需求进行数据清洗,提取简要有效信息,将事务项数据编码化后,全部读取到内存,转换成RDD模型;在生成频繁1项集的过程中,构造新的数据结构存放1项集的事务序列号;在频繁项集连接、剪枝生成候选集的过程中,舍去候选项集的产生过程,筛选出连接后事务序列号数满足最小支持度的项集;重复以上过程,直到没有满足最小支持度条件的更大的项集产生。
所述生成频繁项集的过程为:
a1、对事务中包含的所有项发射该项及对应事务编号的键值对,reducer将每项对应的事务编号合并起来,构造成(item,BitSet)的存储形式;
a2、对事务编号进行统计,根据支持度过滤得到只包含频繁1项集的转换后的数据集F;
a3、将存储于数据集F1中的频繁1项集进行两两自连接,然后判断其支持度,将满足最小支持度条件的(item,BitSet)存入F2中,其中item表示事务项,BitSet表示事务编号;
a4、将存储于FK-1中的频繁k-1项集两两自连接,连接规则为:k-1项集中的前k-2项相同,第k-1项不同,则可连接成fi[1],fi[2]…fi[k-2],fi[k-1],fj[k-1],将满足支持度的项集和事务编号集存入Fk。
本发明的显著优点为:求项集的出现次数从遍历整个数据集简化到将对应项的BitSet求与,减少了系统I/O;舍去了候选项集的产生过程,提高了算法的运行效率。本发明可以对网站用户访问路径数据进行基于关联规则的数据挖掘分析,可以帮助技术人员合理修改网站结构及适度分配资源,构建后台服务器群组;可以帮助企业改善市场营销决策,获取更高投资回报率。
附图说明
图1为本发明实施例中网站用户访问源数据库图;
图2为本发明实施例数据预处理流程图;
图3是本发明实施例由关联规则产生的非循环图;
图4是本发明实施例基于Spark的关联挖掘优化方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
基于Spark的并行化关联挖掘优化方法步骤如下:
(1)扫描事务数据库D,对源数据进行数据清洗,将数据记录简化,提取有效信息,并将所有的数据项替换为其所对应的编号生成新的事务数据库D,存入HDFS中。新的编码化后的数据如表1所示。
表1
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710413035.1/2.html,转载请声明来源钻瓜专利网。