[发明专利]一种基于并行框架的时态频繁子图挖掘方法在审
申请号: | 202010513672.8 | 申请日: | 2020-06-08 |
公开(公告)号: | CN113836133A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 阿里阿米尔;黄芳;张予琛;赵义健 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 并行 框架 时态 频繁 挖掘 方法 | ||
本发明提供了一种基于并行框架的时态频繁子图挖掘方法,方法针对现有的频繁子图挖掘研究都没有考虑图中节点或边上时间属性的问题,利用时间属性累加方法并行挖掘大图中的频繁子图。为了计算包含时态属性的频繁子图,发明中采用了使用最小支持度的频繁子图挖掘方法。实验结果表明,该算法可以准确,高效地计算出具有相应时间频率的所有时态频繁子图,并且在具有人工时间信息的真实数据集上的实验结果也验证了时态频繁子图挖掘算法的实际可用性。
技术领域
本发明属于计算机科学与技术领域,特别涉及一种基于并行框架的时态频繁子图挖掘方法
背景技术
近年来,大量的研究集中在对网络的分析上,包括书目数据库的演变网络、社会网络中的信息传播网络和其他信息网络。现有的对这些网络的研究大多采用各种图挖掘算法,如GRAMI。GRAMI算法是在单个图上挖掘频繁子图的最有效的单机算法之一。将频繁子图挖掘问题转化为约束满足问题(CSP)。然而,GRAMI算法是一种独立的算法,在大规模的图运算中效率较低,难以实现对于较低支持度频繁子图的挖掘。而且,现有的在分布式环境下挖掘单个子图的频繁子图的算法都是针对有向图的,需要指定子图k的顶点个数,不支持子图增长模式的挖掘。其他分布式频繁子图挖掘算法大多基于MapReduce框架,在迭代计算过程中需要多次读写磁盘,导致大量的输入输出I/O、序列化和反序列化开销,也不能移植到单个图上进行挖掘。基于上述缺陷,最近有研究者提出了基于Spark的频繁子图挖掘算法FSMBUS和基于Spark的单图挖掘SSIGRAM算法。但上述基于Spark的算法未考虑时态图中的时间信息属性。
文献综述表明,现有的图挖掘算法大多不考虑图中的时态信息,导致无法利用时态属性来检测重要的时态模式。因此,本发现尝试以最小支持度的FSMBUS演算方法来分析时态频繁子图,并融合时态属性计算其频率。此外,基于FSMBUS的结果,本发明也尝试使用增量式更新策略来计算时态频繁子图。
发明内容
本发明所解决的问题是,针对现有技术的不足,提供一种Spark平台下的时态频繁子图挖掘方法,该方法对Spark框架下单个大图中的频繁子图挖掘方法FSMBUS进行拓展,根据用户自定义的最小支持度实现时态频繁子图挖掘。
本发明所提供的技术方案为:
一种基于并行框架的时态频繁子图挖掘方法,包括两个阶段。第一阶段为系统从HDFS中加载具有时间属性的图数据,并按时间序列对边进行划分,为同一时间片生成单个RDDs并计算频繁的边;第二阶段又分为频繁子图挖掘和时频计算两个子阶段,频繁子图挖掘阶段接收频繁子图edgesRDD并迭代挖掘子图,而时频计算则从频繁子图挖掘阶段接收第一个FSGsRDD并计算所有子图的时间频率,最后将结果写入HDFS。
第一阶段具体步骤为:
步骤1:edgeRDDs基于输入边数据集的附加时间属性形成,根据图的边和顶点的组合,将它们组合生成图,然后将最小支持度小于给定最小支持度的边直接过滤为不频繁边。以三元组(srclabel,attr,dstlabel)格式存储的剩余频繁边,其中srclabel是源顶点标签,attr是边标签,dstlabel是目标顶点标签。这些频繁边是由CAMs构成的次优树的第一层频繁子图,树的根是一个空矩阵。
步骤2:根据频繁边遍历原始图,得到与顶点ID关联的所有频繁边。在映射频繁边和顶点ID之后,它被存储为一个域。因为在频繁子图挖掘的迭代过程中,这个频繁edgeRDD将被用来扩展候选子图,并且将被直接缓存以加快扩展速度。这种存储结构的优点是可以直接用来计算候选子图的支持度。
第二部分的步骤为:
步骤1:在i-1迭代中,利用广度优先搜索(BFS)策略,通过FFSM连接和FFSM扩展,生成所有候选频繁子图,新的候选子图相当于在父子图中添加一条边,称为扩展边。新的候选子图的数据结构包括其父图的ID,以及它的拓扑结构,这些拓扑结构可以帮助候选子图构造候选子图,并在频繁边图数据中进行搜索和支持。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010513672.8/2.html,转载请声明来源钻瓜专利网。