[发明专利]一种适用于子图匹配的数据预处理方法及系统在审

专利信息
申请号: 202110207712.0 申请日: 2021-02-25
公开(公告)号: CN112559814A 公开(公告)日: 2021-03-26
发明(设计)人: 史晓春;陈文;周凡吟;吴桐 申请(专利权)人: 成都数联铭品科技有限公司
主分类号: G06F16/901 分类号: G06F16/901;G06F16/903
代理公司: 北京市领专知识产权代理有限公司 11590 代理人: 张玲;罗慧
地址: 610015 四川省成都市自由贸易试*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 适用于 匹配 数据 预处理 方法 系统
【说明书】:

发明涉及一种适用于子图匹配的数据预处理方法及系统,其中,该适用于子图匹配的数据预处理方法包括步骤:将子图中的所有节点进行排序,得到排序后的集合S;将集合S中的所有节点进行数据化表示。本发明方案中,通过对子图的节点进行排序,并且对排序后的节点进行数据化表示,为子图匹配提供数据支持,可以实现节点搜索,即通过搜索方式实现子图匹配,因此可以极大地提高子图匹配效率,降低内存消耗。

技术领域

本发明涉及知识图谱技术领域,特别涉及一种适用于子图匹配的数据预处理方法及系统。

背景技术

图数据在许多应用中都是重要的数据结构,现有很多研究致力于提升在图数据结构上的操作效率,如子图匹配、正则表达式匹配等。子图匹配是指子图同构,即给定查询图和数据图,找出数据图中与查询图有相同结构的子图。目前进行子图匹配时,是直接基于图谱的现成结构,将图谱划分为多个基本单元,分别得到每个基本单元的同构子图集合表,然后再进行表内连接操作,这样会产生大量的通信开销(相当于单机的时候多个表格联合查询)以及中间结果,导致算法的时间开销以及内存开销都很大。另外,由于有中间结果,所以在中间结果庞大的时候难以对最终的子图匹配结果进行筛选。如果能够通过搜索的方式实现子图匹配,那么将会克服这些缺陷。然而目前的图谱数据的结构无法满足搜索的应用需求。

发明内容

本发明的目的在于目前的图谱数据的结构无法满足搜索的应用需求的问题,提供一种适用于子图匹配的数据预处理方法及系统,通过对图谱数据进行预处理,使得处理后的图谱数据能够满足以搜索方式进行子图匹配的应用需求,继而可以降低内存消耗,以及提高匹配效率。

为了实现上述发明目的,本发明实施例提供了以下技术方案:

一方面,本发明实施例提供了一种图匹配方法,包括以下步骤:

将子图中的所有节点进行排序,得到排序后的集合S;

将集合S中的所有节点进行数据化表示。

上述方案中,通过对子图的节点进行排序,并且对排序后的节点进行数据化表示,这样处理后,子图匹配时就不再是基于图谱的本身结构而进行,而基于这样处理后的数据进行子图匹配,可以实现以搜索方式进行匹配,将表内连接操作转换为搜索操作,且可以设置搜索结束条件,因此可以提高处理效率。

所述将子图中的所有节点进行排序的步骤,包括:

S101,遍历在V中且不在S中的节点v,计算节点v与S中节点相连的边数d1、v在E中的总边数d2;其中,V为子图的节点集合,E为子图的边集合,S为预先设定的一个空集;

S102,将在V中且不在S中的节点,按照(d1, d2)进行字典排序;

S103,选取排序中(d1, d2)最大的节点v加入S;

S104,重复S101-S103,直到V的中所有节点都加入S;

S105,按照加入S的先后顺序输出有序集合S。

上述方案中,按照(d1, d2)进行字典排序,即d1的优先级高于d2的优先级,这样做的好处是,基于这样预处理后的数据进行子图匹配时,在全图按排序后的数据化表示进行节点搜索的时候,d1可以降低下一步搜索的节点范围,减少搜索次数,继而进一步提高匹配效率。对于下一步需要搜索的节点v,d1越大, v需要与已经搜索到的节点集合S中越多的节点相连。实际上d1等于下文中提到的ind_v中的元素个数,ind_v元素个数越多,v要满足验证一就越困难,这样就可以减少搜索次数。另外,(d1, d2)越大的节点,对全图进行节点搜索的时候越难以满足条件,因此S103中选取排序中(d1, d2)最大的节点v加入S,可以实现搜索次数的最小化,进一步提高匹配效率。

所述S103中,如果排序中(d1, d2)最大的节点不止一个,则随机选取其中一个节点加入S。

所述将集合S中的所有节点进行数据化表示的步骤中,针对于节点集合S中的每一个节点,根据该节点的位置关系,以及与该节点相连接的边的数量进行数据化表示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110207712.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top