[发明专利]一种频繁子图挖掘的方法及系统在审
申请号: | 201611139493.2 | 申请日: | 2016-12-12 |
公开(公告)号: | CN106777065A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 龚湛;张清 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/38 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 罗满 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 频繁 挖掘 方法 系统 | ||
技术领域
本发明涉及图数据挖掘领域,特别是涉及一种频繁子图挖掘的方法及系统。
背景技术
随着网络技术以及数据库技术的迅速发展,数据的规模越来越大,为了将海量的数据转换成有价值的信息,数据挖掘技术应运而生。
数据挖掘技术可以应用于从数据库中挖掘频繁项集,其广泛应用于计算化学、生物信息学、web挖掘等领域。频繁子图挖掘属于数据挖掘技术的范畴,频繁子图挖掘可以是指从图集中查找频繁出现的子图集,而图可以是表征实体集之间连接关系的数据结构。
图集的规模一般较大,从大规模图集中挖掘出频繁子图,有助于了解图集的特征,对图集进行分类和聚类。在现有技术中,一般是基于深度优先搜索的方法,利用CPU来进行频繁子图的挖掘。其利用模式树来进行相应的图集频繁项挖掘,但是,由于模式树会造成空间复杂度过大、数据量较大的问题,从而导致系统的性能低下,耗时较长,执行效率较低。如何提高频繁子图挖掘的执行效率是本领域亟待解决的问题,基于此,本发明提出了一种频繁子图挖掘的方法及系统。
发明内容
本发明的目的是提供一种频繁子图挖掘的方法,目的在于解决现有技术中频繁子图挖掘的执行效率较低的问题;本发明的另一目的是提供一种频繁子图挖掘的装置,其频繁子图挖掘的执行效率较高;本发明的另一目的是提供一种频繁子图挖掘的系统,其频繁子图挖掘的执行效率较高。
为解决上述技术问题,本发明提供一种频繁子图挖掘的方法,该方法包括:
获取待挖掘图数据,将所述待挖掘图数据划分成子图;
基于深度优先搜索算法,对所述子图进行并行计算,查找出相应的子频繁项集;
将所述子频繁项集进行合并,得出所述待挖掘图数据的频繁子图。
可选地,所述基于深度优先搜索算法,对所述子图进行并行计算,查找出相应的子频繁项集包括:
将所述子图并行分发至众核处理器;
所述众核处理器利用所述深度优先搜索算法,并行计算所述子图,查找出相应的所述子频繁项集。
可选地,所述众核处理器利用所述深度优先搜索算法,并行计算所述子图,查找出相应的所述子频繁项集包括:
将所述子图进行初始化操作;
对初始化后的所述子图进行遍历,查找出相应的所述子频繁项集。
可选地,所述将所述子图进行初始化操作包括:
计算所述子图的边和点的频度;
将所述频度与预设的最小支持度阈值相比较;
移除频度小于所述最小支持度阈值的边和点;
将剩下的边进行编码,并进行初始化操作。
可选地,所述将所述待挖掘图数据划分成子图包括:
处理器对所述待挖掘图数据进行分块操作,得出所述子图。
此外,本发明还提供了一种频繁子图挖掘的系统,该系统包括:处理器和众核处理器;
其中,所述处理器用于获取待挖掘图数据,将所述待挖掘图数据划分成子图;
所述众核处理器用于基于深度优先搜索算法,对所述子图进行并行计算,查找出相应的子频繁项集;
所述处理器用于将所述子频繁项集进行合并,得出所述待挖掘图数据的频繁子图。
可选地,所述处理器具体用于将所述子图进行初始化操作;
所述众核处理器具体用于对初始化后的所述子图进行遍历,查找出相应的所述子频繁项集。
可选地,所述处理器具体用于计算所述子图的边和点的频度;将所述频度与预设的最小支持度阈值相比较;移除频度小于所述最小支持度阈值的边和点;将剩下的边进行编码,并进行初始化操作。
本发明所提供的一种频繁子图挖掘的方法及系统,通过获取待挖掘图数据,将所述待挖掘图数据划分成子图;基于深度优先搜索算法,对所述子图进行并行计算,查找出相应的子频繁项集;将所述子频繁项集进行合并,得出所述待挖掘图数据的频繁子图。将图数据进行分块,得到子图,然后对子图进行并行计算,即同时计算处理多个子图,得出相应的子频繁项集。相较于串行处理,并行处理可以提高处理效率。最后可以将子频繁项集进行合并,得到最终的频繁子图。可见,本申请基于并行搜索频繁子图,大大提高了运行速度,减少了执行时间,提高了频繁子图挖掘的执行效率。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611139493.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种按时序实时动态缓存的方法
- 下一篇:一种图像识别匹配媒体文件的方法和装置