[发明专利]一种基于并行框架的时态频繁子图挖掘方法在审
申请号: | 202010513672.8 | 申请日: | 2020-06-08 |
公开(公告)号: | CN113836133A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 阿里阿米尔;黄芳;张予琛;赵义健 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2458 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 并行 框架 时态 频繁 挖掘 方法 | ||
1.一种基于并行框架的时态频繁子图挖掘方法,其特征在于,包括两个阶段,第一阶段为系统从HDFS中加载具有时间属性的图数据,并按时间序列对边进行划分,为同一时间片生成单个RDDs并计算频繁的边;第二阶段又分为频繁子图挖掘和时频计算两个子阶段,频繁子图挖掘阶段接收频繁子图edgesRDD并迭代挖掘子图,而时频计算则从频繁子图挖掘阶段接收第一个FSGsRDD并计算所有子图的时间频率,最后将结果写入HDFS。
2.根据权利要求1所述的方法,其特征在于,第一阶段具体步骤为:
步骤1:edgeRDDs基于输入边数据集的附加时间属性形成,根据图的边和顶点的组合,将它们组合生成图,然后将最小支持度小于给定最小支持度的边直接过滤为不频繁边。以三元组(srclabel,attr,dstlabel)格式存储的剩余频繁边,其中srclabel是源顶点标签,attr是边标签,dstlabel是目标顶点标签;所述频繁边是由CAMs构成的次优树的第一层频繁子图,树的根是一个空矩阵;
步骤2:根据频繁边遍历原始图,得到与顶点ID关联的所有频繁边。在映射频繁边和顶点ID之后,它被存储为一个域。
3.根据权利要求1所述的方法,其特征在于,第二部分的步骤为:
步骤1:在i-1迭代中,利用广度优先搜索(BFS)策略,通过FFSM连接和FFSM扩展,生成所有候选频繁子图,新的候选子图相当于在父子图中添加一条边,称为扩展边;新的候选子图的数据结构包括其父图的ID,以及它的拓扑结构,这些拓扑结构可以帮助候选子图构造候选子图,并在频繁边图数据中进行搜索和支持;
步骤2:当子图扩展后,所有新生成的子图都被发送到下一个支持度评估过程中,并采用约束满足问题CSP模型作为MNI支持度计算策略,这是寻找子图同构的有效途径;它采用了RDD的迭代增量设计和Spark的双连接方法,保存了每个生成子图的CSP域数据。第一个连接操作将新生成的子图和频繁边结合起来得到扩展边,而第二个连接操作将新生成的子图和扩展边结合起来生成搜索方式;
此过程将继续进行,直到没有任何频繁项被留下,然后合并子图并发送到下一个过程以进行时间频率计算,并对edgesRDD2重复整个过程,然后对edgesRDD3重复整个过程,直到edgesRDDn为止;
步骤3:迭代执行所有搜索,首先导入FSGsRDD1,并认为所有元素(频繁子图)在FSGsRDD1中具有频率值“1”,然后导入第二个元素(FSGsRDD2),并搜索将与FSGsRDD2中的候选频繁子图矩阵同构的子图。假设FSGsRDD中的所有元素(频繁子图)都是唯一的,且不应多于一个元素(矩阵),并且每个元素只搜索一次;当在FSGsRDD2中搜索一个候选子图(矩阵)并且矩阵匹配时,它的频率将增加“1”,并且不会搜索整个RDD,courser将被转移到FSGsRDD1的下一个迭代中;
步骤4:搜索完成后,将结果合并到一个RRD中,以便下次搜索FSGsRDD2,现在将对合并的RDD重复整个匹配过程,并且下一个FSGsRDD3和该过程将继续到最后一个FSGsRDDn;
步骤5:
按时间粒度划分的从开始时间到最后一次的不同数据流时间段的计数次数,用Tt表示,其中t是最后一次的值。时态频繁子图数据可以用如下公式表示:其中是在总时间t中出现i时间的单个子图的外观;
Tt=Tt-1+1 (1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010513672.8/1.html,转载请声明来源钻瓜专利网。