[发明专利]一种基于分层搜索不确定图的频繁子图的方法在审
申请号: | 201911074171.8 | 申请日: | 2019-11-06 |
公开(公告)号: | CN110807061A | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 徐周波;李萍;李珍;韦贤强;杨健;黄文文;杨欣;陈浦青 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/22;G06F16/28 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 杨雪梅 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分层 搜索 不确定 频繁 方法 | ||
本发明公开了一种基于分层搜索不确定图的频繁子图的方法,其特征在于,包括如下步骤:1)设定不确定图中频繁子图的概率阈值,不同频繁子图概率阈值的设定依据具体情况来定;2)构建不确定图中每个子图的边索引IE和连接索引IC;3)构建分层搜索树;4)按层遍历搜索树,搜索每层的频繁子图。这种方法提高了搜索效率,并且分层搜索减轻了频繁子图搜索的压力,节约了搜索的时间。
技术领域
本发明涉及图数据挖掘技术,具体涉及一种基于分层搜索不确定图的频繁子图的方法。
背景技术
图是用于表示实体之间复杂关系的通用数据结构,其已在生物信息学,社交网络,道路网络等中广泛应用。近年来,通过现代数据采集方法,例如高通量生物实验、在线社交网络系统和GPS收集了由图表表示的越来越多的数据,也称为图数据。大量的图数据需要有效且智能的工具来分析和理解它。频繁子图挖掘是探索图数据结构的强大数据挖掘技术之一,特别是重复的子结构。
由于数据采集技术的局限性,数据不完整性,数据不精确性,噪声等原因,图数据中存在不确定性。具有不确定性的图称为不确定图。不确定图的每个边与(0,1)中的不确定性值相关联,表明边存在于实际中的概率并且假设边的存在是相互独立的。本质上,不确定图表示实际存在不确定图的所有特定图形的概率分布。从术语上讲,这些特定图中的每一个都称为蕴含图。图中的不确定性对频繁子图挖掘的语义和计算都提出了新的挑战。
目前不确定图频繁子图的挖掘主要是利用Apriori算法性质,即一个频繁项集的任一子集也应该是频繁项集。由此性质可以裁剪搜索空间,提高算法的效率。并且主流算法在搜索频繁子图时采用的都是深度优先搜索策略(Depth-First,简称DFS),自上而下搜索。采用这种搜索策略时,当深度较大时,图也越来越大,求解会比较耗时。
发明内容
本发明的目的是针对现有技术中存在的不足,而提供一种基于分层搜索不确定图的频繁子图的方法。这种方法提高了搜索效率,并且分层搜索减轻了频繁子图搜索的压力,节约了搜索的时间。
实现本发明目的的技术方案是:
一种基于分层搜索不确定图的频繁子图的方法,包括如下步骤:
1)设定不确定图中频繁子图的概率阈值,不同频繁子图概率阈值的设定依据具体情况来定;
2)构建不确定图中每个子图的边索引IE和连接索引IC:不确定图中包含频繁子图和不频繁子图,频繁子图和不频繁子图统称为子图,每个子图由顶点和顶点之间的边组成,对不确定图中的每个子图构建边索引IE和连接索引IC,其中IE={(LA,LB,Le):(LG,PG)},IC={(LG,LA,LB,l):(0/1)},IE为边索引键值对的集合,(LA,LB,Le)为边索引的键,LA,LB为顶点A、B的标签,Le为顶点A、B之间的边标签;(LG,PG)为边索引的键值,LG是存在顶点A,B及边e的不确定图标签,PG为在不确定图中至少有一条边顶点标签为LA,LB及边标签为Le的概率,其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911074171.8/2.html,转载请声明来源钻瓜专利网。