[发明专利]一种基于大规模属性网络的节点相似性搜索方法在审
申请号: | 201611207256.5 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106649731A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 沈鸿;蒙在桥 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广东广信君达律师事务所44329 | 代理人: | 杨晓松 |
地址: | 510275 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 大规模 属性 网络 节点 相似性 搜索 方法 | ||
技术领域
本发明涉及信息检索领域,具体地说,涉及一种基于路径采样的大规模属性网络节点相似性搜索方法。
背景技术
给定一个网络(也称为图)及一个查询节点,在该网络中搜索与该查询节点最相似的k个节点具有诸多应用,比如图聚类、图查询及用户推荐等。目前,随着各类在线社交网络、物联网和语义网的发展,网络的规模近几年快速扩大,像Facebook和Twitter甚至已经达到了数十亿节点。并且这些网络的节点存在大量属性特征,而节点的属性也可以刻画节点相似性特性。面对如此大规模且拥有节点属性的网络,如何有效结合属性进行快速搜索相似的节点是一个具有挑战性的任务。
现有的基于图的相似性搜索方法主要基于两种原则:第一种是考虑节点的局部信息(比如邻居和属性),Jaccard指数和Salton指数就是基于该原则下的相似性度量指标;第二种是基于在图中的全局随机游走,Personalized PageRank算法和SimRank算法就是基于该原则下的相似性搜索算法。这两种原则下的各类算法都具有一定的局限性:基于局部信息的算法仅仅考虑了节点的局部信息,当节点之间的局部信息没有交叉时,这种方法就失效了;基于全局随机游走的相似性搜索算法需要迭代矩阵运算,时间和空间复杂度都比较高,不适用于大规模网络当中。
最近的研究中,Zhang等提出的Panther算法是一种新的基于路径采样的方法,在给定误差范围和置信度的情况下可以快速准确的估计大规模网络当中所有节点之间结构相似性。路径采样的方法考虑的是网络的全局信息,并且路径随机采样的技术可以大大提高查询的效率。尽管如此,该方法并没有考虑节点的属性特征,并且该方法在查询单个节点相似性时会采样出过多不相关路径,大大影响了查询效率。考虑到常见的各类网络(比如在线社交网络、物联网和语义网等)都具有节点属性特征(称之为属性网络),且通常网络规模非常大,本发明提出一种基于路径采样的大规模属性网络节点相似性搜索方法。
发明内容
本发明针对现有方法中存在的不足与缺陷,提出一种基于路径采样的相似性度量方法,该方法能有效结合网络中节点的结构相似性和属性相似性,并在处理大规模属性时效率上有较大提升。所谓结构相似性是指节点在网络拓扑结构上具有相似的特征,比如节点的邻居之间相似或者频繁出现在同一条路径当中。本发明中考虑的属性均为二值属性,而所谓属性相似性是指节点之间共同属性的数量。
为了实现上述目的,本发明采用的技术方案包括如下步骤:
S1、根据给定的属性网络,构建出一个属性增广图;
S2、根据构建出的属性增广图,初始化传播概率;
S3、根据传播概率,在属性增广图中进行单源路径采样,当路径数量达到R值时停止采样,并对这些路径进行索引;
S4、运用索引的路径计算出节点相似性;
S5、对相似性进行排序,返回搜索节点。
步骤S1中,用G(V,E,VA,W,WA)表示一个无向加权的属性网络,其中V是节点的集合,E是边的集合,A是属性的结合,W是一个矩阵代表边的权值,WA是一个用来表示节点-属性关系的|V|×|VA|二值矩阵。属性增广图是在原图的基础上,加入属性作为新的节点,加入节点的属性关系作为新的边。具体地,给定一个属性网络G,它的属性增广图GA构建流程如下:GA中节点集合由G的节点集合V和属性集合VA构成,这里将V称为GA的结构节点集合,VA称为GA的属性节点集合;GA中边集合由G的边集合E以及节点与属性的关系构成的边的集合EA构成,(v,a)∈EA当且仅当WA(v,a)=1,且边的权值都为1。最终构成的属性增图可以表示为GA=(V∪VA,E∪EA,W∪WA)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611207256.5/2.html,转载请声明来源钻瓜专利网。