[发明专利]一种适用于子图匹配的数据预处理方法及系统在审
申请号: | 202110207712.0 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112559814A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 史晓春;陈文;周凡吟;吴桐 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 张玲;罗慧 |
地址: | 610015 四川省成都市自由贸易试*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用于 匹配 数据 预处理 方法 系统 | ||
本发明涉及一种适用于子图匹配的数据预处理方法及系统,其中,该适用于子图匹配的数据预处理方法包括步骤:将子图中的所有节点进行排序,得到排序后的集合S;将集合S中的所有节点进行数据化表示。本发明方案中,通过对子图的节点进行排序,并且对排序后的节点进行数据化表示,为子图匹配提供数据支持,可以实现节点搜索,即通过搜索方式实现子图匹配,因此可以极大地提高子图匹配效率,降低内存消耗。
技术领域
本发明涉及知识图谱技术领域,特别涉及一种适用于子图匹配的数据预处理方法及系统。
背景技术
图数据在许多应用中都是重要的数据结构,现有很多研究致力于提升在图数据结构上的操作效率,如子图匹配、正则表达式匹配等。子图匹配是指子图同构,即给定查询图和数据图,找出数据图中与查询图有相同结构的子图。目前进行子图匹配时,是直接基于图谱的现成结构,将图谱划分为多个基本单元,分别得到每个基本单元的同构子图集合表,然后再进行表内连接操作,这样会产生大量的通信开销(相当于单机的时候多个表格联合查询)以及中间结果,导致算法的时间开销以及内存开销都很大。另外,由于有中间结果,所以在中间结果庞大的时候难以对最终的子图匹配结果进行筛选。如果能够通过搜索的方式实现子图匹配,那么将会克服这些缺陷。然而目前的图谱数据的结构无法满足搜索的应用需求。
发明内容
本发明的目的在于目前的图谱数据的结构无法满足搜索的应用需求的问题,提供一种适用于子图匹配的数据预处理方法及系统,通过对图谱数据进行预处理,使得处理后的图谱数据能够满足以搜索方式进行子图匹配的应用需求,继而可以降低内存消耗,以及提高匹配效率。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一方面,本发明实施例提供了一种图匹配方法,包括以下步骤:
将子图中的所有节点进行排序,得到排序后的集合S;
将集合S中的所有节点进行数据化表示。
上述方案中,通过对子图的节点进行排序,并且对排序后的节点进行数据化表示,这样处理后,子图匹配时就不再是基于图谱的本身结构而进行,而基于这样处理后的数据进行子图匹配,可以实现以搜索方式进行匹配,将表内连接操作转换为搜索操作,且可以设置搜索结束条件,因此可以提高处理效率。
所述将子图中的所有节点进行排序的步骤,包括:
S101,遍历在V中且不在S中的节点v,计算节点v与S中节点相连的边数d1、v在E中的总边数d2;其中,V为子图的节点集合,E为子图的边集合,S为预先设定的一个空集;
S102,将在V中且不在S中的节点,按照(d1, d2)进行字典排序;
S103,选取排序中(d1, d2)最大的节点v加入S;
S104,重复S101-S103,直到V的中所有节点都加入S;
S105,按照加入S的先后顺序输出有序集合S。
上述方案中,按照(d1, d2)进行字典排序,即d1的优先级高于d2的优先级,这样做的好处是,基于这样预处理后的数据进行子图匹配时,在全图按排序后的数据化表示进行节点搜索的时候,d1可以降低下一步搜索的节点范围,减少搜索次数,继而进一步提高匹配效率。对于下一步需要搜索的节点v,d1越大, v需要与已经搜索到的节点集合S中越多的节点相连。实际上d1等于下文中提到的ind_v中的元素个数,ind_v元素个数越多,v要满足验证一就越困难,这样就可以减少搜索次数。另外,(d1, d2)越大的节点,对全图进行节点搜索的时候越难以满足条件,因此S103中选取排序中(d1, d2)最大的节点v加入S,可以实现搜索次数的最小化,进一步提高匹配效率。
所述S103中,如果排序中(d1, d2)最大的节点不止一个,则随机选取其中一个节点加入S。
所述将集合S中的所有节点进行数据化表示的步骤中,针对于节点集合S中的每一个节点,根据该节点的位置关系,以及与该节点相连接的边的数量进行数据化表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110207712.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置