[发明专利]一种基于特征图的非精确子图匹配方法在审
申请号: | 201710128034.2 | 申请日: | 2017-03-06 |
公开(公告)号: | CN106997377A | 公开(公告)日: | 2017-08-01 |
发明(设计)人: | 马廷淮;于思洋;唐美丽;曹杰 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 江苏爱信律师事务所32241 | 代理人: | 唐小红 |
地址: | 210044 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 精确 匹配 方法 | ||
技术领域
本发明属于图数据挖掘领域,具体涉及的是一种基于特征图的非精确子图匹配方法。
背景技术
图是由有限的节点和边的集合构成的数据存储结构,比起以往传统的数据存储结构,图有着许多的优越性,如复杂的语义能够通过图结构直观地体现等。由于图的结构特点,它被广泛应用于生物蛋白质网络、社交网络等许多方面。对图数据进行分析可以从中挖掘出许多有价值的信息,如用户的兴趣、行为偏好等。而这些信息能够应用在电子商务、舆情管理等许多领域(《基于社交网络好友关系的图查询算法研究与应用》,作者史岭峰,南京理工大学,2012)。
子图匹配分为精确图匹配方法和非精确图匹配方法,典型的精确图匹配算法有Luigi P.Cordella等人提出的VF2算法(A(Sub)Graph Isomorphism Algorithm for Matching Large Graphs Luigi P.Cordella,et al.),它是基于图同构的。由于现实世界的图具有非常大的噪音,在精确图匹配的基础上又提出了非精确图匹配方法,该类方法能够很好地适应现实世界如社交网络图的噪声,使得匹配得到较好的结果。典型的算法有Wolverton M等人提出的的LAW算法(Law:A workbench for approximate pattern matching in relational data)等。但这些非精确图匹配算法大多都只考虑点周围1-2步邻居的情况,当网络结构复杂时得到的结果误差很大。本发明通过建立特征图,大大强化了图的结构信息,采用迭代方法能够使得匹配结果收敛,具有更好的匹配效果,同时算法运行效率高。
发明内容
本发明的所要解决的技术问题是大型网络图下的非精确子图匹配问题,针对现有的非精确图匹配算法存在的当网络结构复杂时得到的结果误差很大的问题,提出一种基于特征图的非精确子图匹配方法。本方法利用点的标签确立匹配候选点集,然后根据特征图对其建立索引。通过索引可以求得两点之间的差异向量从而求得他们之间的匹配开销,选择匹配开销最小的匹配点对作为初始匹配集,然后通过迭代使结果更加精确。本发明大大强化了结构特征对匹配的影响,使得匹配结果更加准确。
一种基于特征图的非精确子图匹配方法,包括以下步骤:
步骤1),根据结点标签得到查询图中每个点关于数据图的候选点集。
步骤2),根据步骤1)对查询图中的每个点及其匹配候选集建立关于特征图的索引;
步骤3),根据步骤2)计算每个点的特征图向量R
步骤4),根据步骤3),计算每个点与它的候选点集中的点两两之间的匹配开销,通过迭代求得匹配映射,迭代的结束条件是两次匹配之间的差异小于规定的阈值。
进一步的,本发明的基于特征图的非精确子图匹配方法,步骤1)查找查询图Q中每个点v关于数据图G的候选匹配点集C,其中v的候选匹配点集C是数据图G中与v标签相同的点组成的集合;
进一步的,本发明的基于特征图的非精确子图匹配方法,步骤2)将2-4个点组成的完全连接图作为特征图,每个点在这些完全连接图中可能有15种不同的位置,计算查询图Q中的每个点v以及它在数据图G上的匹配候选集中的每一个点u在这15个位置出现的次数作为索引保存;
进一步的,本发明的基于特征图的非精确子图匹配方法,步骤3)建立特征图向量,根据公式计算查询图Q中的点v与它的匹配候选集中的某一点u在每个位置i处的差异值,其中Qfi表示查询图Q中的点v在i位置出现的次数,Gfi表示v的匹配候选集中的一点u在i位置出现的次数。
进一步的,本发明的非精确图匹配方法,步骤4)根据公式计算Q中的点v与它的匹配候选集中的某一点u的匹配开销,选择候选集中差异值最小的点作为初始匹配映射,公式中αi表示第i个位置在所有的位置中所占重要程度的权重,是一个常量,Ri表示查询图Q中的点v与它的匹配候选集中的某一点u在每个位置i处的差异值,n表示每个点在完全连接图中所有的位置的个数;根据公式计算第i+1次迭代中Q中的点v与它的匹配候选集中的某一点u的匹配开销,其中cost(v,u)i表示第i次迭代的匹配开销,cost(v',φ(v'))i表示v的邻居结点v’第i次迭代时最小的匹配开销,N(v)表示v的邻居结点的集合。选择候选集中差异值最小的点作为该次迭代的匹配映射,直到两次匹配之间的差异小于规定的阈值停止迭代,得到最终的匹配结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710128034.2/2.html,转载请声明来源钻瓜专利网。