[发明专利]一种基于四维索引的大规模图的可达查询方法和系统在审
申请号: | 201710366030.8 | 申请日: | 2017-05-23 |
公开(公告)号: | CN107239515A | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 袁平鹏;金海;周双 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心42201 | 代理人: | 廖盈春,李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 索引 大规模 查询 方法 系统 | ||
技术领域
本发明属于大数据处理技术领域,更具体地,涉及一种基于四维索引的大规模图的可达查询方法和系统。
背景技术
随着大数据时代的到来,图的规模也越来越大。图查询作为一种基础性操作被应用于很多领域,比如社交网络、运输网络、交通定位、基因的生物学功能分析和数据挖掘等。图的可达性代表了图上一个结点到另一个结点的能力,即是否存在一条以u为起始结点,以v为终止结点的路径。
图可达查询有两种极端的解决方法。第一种是基于预计算和存储图的完整传递闭包的方法,也就是预先记录图中任意两个结点之间的可达性,该方法最早的研究工作可以追溯到1989年。这种方法的优点是查询时间很快,时间复杂度是O(1),但是该方法的缺点也很明显,它需要O(|V|*|E|)的索引构建时间和O(|V|2)的索引存储空间。第二种方法是采用深度优先遍历或者广度优先遍历的方法来回答结点对的可达性,该方法虽然不需要构建索引,但是查询时间的复杂度却高达O(|V|+|E|)。因此,在大规模图中,上述两种方法都是不可行的。
目前,图可达查询的关键挑战是在保证高效查询时间的同时保证索引构建时间比较快和索引大小也比较有竞争力。到目前为止,很多研究者都研究了这个问题,但是随着图规模的增加,现有的方法都或多或少存在着问题,它们要么是索引构建时间太长,要么是索引太大,要么是查询时间太慢。因此,如何在索引构建时间、索引大小和查询时间三者之间找到一个平衡点是一个亟待解决的问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于四维索引的大规模图的可达查询方法和系统,其目的在于通过对给定图进行划分,为每个结点构建一个四维索引来回答结点对的可达性,由此确保高效的查询时间的同时保证索引构建时间和索引大小与现有方法相比都比较有竞争力。
为实现上述目的,按照本发明的一个方面,提供了一种基于四维索引的大规模图的可达查询方法,所述方法包括以下步骤:
(1)通过递归遍历从目标图中划分出互不相交的不共享子图和连接这些不共享子图的跨子图边;结点的不共享子图的编号为其所处不共享子图所含根结点的编号,其层次索引按递归次数增加;
(2)由不共享子图中所有结点的拓扑排序值求取该结点的间隔域,所述间隔域包括初始间隔域和目标间隔域;
(3)记录所有不共享子图中由于非树边的存在导致的不能使用间隔域判断结点对可达性的异常情况;记录所有不共享子图中由于跨子图边的存在导致的不能直接判断结点对可达性的异常情况;
(4)计算每个结点的向上等级索引和向下等级索引若结点u的出度为0,则u的上等级索引否则其中v为结点u的后继邻接点;若结点u的入度为0,则u的下等级索引否则其中v为结点u的前驱邻接点;
(5)通过结点对的层次索引、所在不共享子图编号、间隔域和等级索引的对比关系确定结点对的可达性。
进一步地,所述步骤(1)包括以下子步骤:
(11)找出目标图G=(V,E)中所有单根子图M(r)=(VM(r),EM(r)),单根子图即目标图中一个根结点能到达的所有结点和该根结点的集合,其中,V表示目标图的结点;E表示目标图的边;r表示该单根子图的根结点;VM(r)表示单根子图的结点;EM(r)表示单根子图的边;
(12)在目标图中找出所有位于两个或两个以上单根子图中的结点VU,由所有结点VU和结点间相连的边EU构成共享子图U=(VU,EU);
(13)构建不共享子图为N(r)=(VN(r),EN(r)),其中,EN(r)={(u,v)|u∈VN(r),v∈VN(r),(u,v)∈E};并将该不共享子图中所有结点的层次索引赋值为1,不共享子图编号赋值为不共享子图的根结点ID;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710366030.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于卷积神经网络的植物识别方法及系统
- 下一篇:一种网络资源搜索训练系统