[发明专利]基于Pregel的分布式起源保障正则路径查询算法在审
| 申请号: | 201810177109.0 | 申请日: | 2018-03-04 |
| 公开(公告)号: | CN108519994A | 公开(公告)日: | 2018-09-11 |
| 发明(设计)人: | 王鑫;辛月祺 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘玥 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 路径查询 正则表达式 算法 结果路径 起源 图数据 自动机 消息传递模型 扩展性 查询结果 消息传递 优化策略 中间结果 构建 等价 匹配 查询 引入 统计 | ||
本发明公开了一种基于Pregel的分布式起源保障正则路径查询算法:1)对于给定的正则路径查询Q=(x,r,y),根据正则表达式r计算first,last,follow集;2)进一步构建正则表达式r所等价的Glushkov自动机A=(St,Σ,δ,q0,F);3)使用Pregel消息传递模型在RDF图数据中匹配正则路径查询,通过消息传递的方式、以顶点为中心的计算之后得到结果路径;4)统计所有满足正则表达式r的结果路径即为查询结果。本发明能够利用Glushkov自动机,对于大规模RDF图数据进行起源保障正则路径查询,并且通过引入的优化策略,以达到减少查询时间,减少中间结果以及提高算法扩展性的目的。
技术领域
本发明涉及分布式图查询领域,具体来说,涉及面向大规模RDF图数据的正则路径查询领域。
背景技术
随着知识图谱的日益普及,越来越多的领域采用资源描述框架(ResourceDescription Framework,RDF)作为数据表示和存储的标准格式。与传统关系模型相比,RDF更自然地刻画和反应现实世界中的事物及其联系。随着图数据的大规模涌现,基于多机集群系统的高效率分布式图查询已成为必然选择。正则路径查询(Regular Path Queries,RPQs)是一种不可或缺的基本图查询操作,旨在以导航的方式找到所有满足正则表达式的路径,一般情况下返回匹配的一系列数据节点对。W3C推荐的RDF图数据标准查询语言SPARQL也在最新版1.1中引入了属性路径(property path)特性来支持RDF图上的RPQs。
传统的正则路径表达式被定义为Q=(x,r,y),在RDF图T上找到一组资源对 (v0,vn),使得在图T中从v0到vn存在路径ρ,其中ρ的标签表示为λ(ρ)且λ(ρ)满足Q 中正则表达式r。但是,从以上RPQ的传统语义来看,我们不能得到从v0到vn的路径的中间信息。为了提供路径ρ的起源信息,辨析从v0到vn的路径ρ是如何满足Q的,即研究起源保障的正则路径查询(provenance-aware regular path queries),其结果返回的是满足Q的路径ρ中的所有点和边,即RDF图的一个子图,能够更好地反应查询结果全貌,方便用户理解。
根据我们的调查,目前尚缺少相关研究工作对现有的分布式正则路径查询算法加以改进调整,适配到Pregel模型下进行算法研究与实验比较。Pregel模型具有“以顶点为中心”计算的特点,因此更适合并行图计算,使用Pregel消息传递模型来进行并行图计算可以进一步提高图计算效率。
目前已有的标准语义下的正则路径查询算法包括如下:
Calvanese等人在不同的假设下解决正则路径查询问题,基于视图和索引来检测一对资源对是否满足正则表达式,这种方法的弊端是对于查询的种类有所限制。Koschmieder等人提出使用“罕见标签”(rare-label)方法对RPQ进行分解,然后进行分段求值。该方法实际上采取了分治策略,但需要通过预处理事先确定“罕见标签”,其性能很大程度上取决于具体的查询分解方法和罕见标签的选择。面对海量的RDF图数据,部分求值的方法也被应用到分布式正则路径查询,查询过程分为本地计算和整合局部答案两个阶段,本地计算基于动态规划方法,整合阶段基于Thompson自动机构造方法来合并上一阶段的局部结果。Sartiani等人提出了Vertigo,一种基于Brzozowski导数的分布式正则路径查询算法。该方法的实验基于Giraph图计算框架,但是仅有ER图和幂律图上的测试,缺少对合成RDF数据集和真实世界数据集的验证实验。
目前已有的起源保障语义下的正则路径查询算法算法包括如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810177109.0/2.html,转载请声明来源钻瓜专利网。





