[发明专利]一种基于相似度估计的分布式PageRank加速方法有效
申请号: | 201711481710.0 | 申请日: | 2017-12-29 |
公开(公告)号: | CN110020087B | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 尤佳莉;张欣;薛寒星;刘学 | 申请(专利权)人: | 中国科学院声学研究所;北京中科视云科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;武玥 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相似 估计 分布式 pagerank 加速 方法 | ||
1.一种基于相似度估计的分布式PageRank加速方法,所述方法包括:
步骤1)以计算机网络中的每个节点作为中心节点,构建中心节点与网络临近节点之间连接关系的子图;每个子图计算代表自身后继元集信息的特征向量;
步骤2)当前子图计算相遇对象的后继元集和自身顶点集的相似度,根据预设阈值,决定是否将相遇对象的ID加入自身的候选列表;
步骤3)当前子图将相遇对象的候选列表中子图加入自身候选列表,相遇对象将当前子图的候选列表中子图加入自身候选列表;
步骤4)计算当前子图的顶点集与所有候选对象的后继元集的相似度,取相似度最大的作为下次正式相遇的对象;
步骤5)根据相遇时两个子图之间的交互操作,计算并更新当前子图中所有的PageRank值;
步骤6)根据PageRank值的大小,对当前子图中所有节点降序排列,依次选择节点进行内容扩散,直至内容覆盖率满足要求或网络中已无剩余副本个数;
所述的步骤1)具体包括:
步骤101)以网络中的每个节点作为中心节点,构建中心节点与网络临近节点之间连接关系的子图;
子图用有向图G表示,G=(V,E),V={v1,v2,…,vn}为顶点集,E={e1,e2,…,em}为边集;节点数目为n=|V|,边数为m=|E|;vi∈V,i=1,2,…,n,表示子图的一个节点;(vi,vj)∈E,表示节点vi到节点vj的一条有向边;
步骤102)计算每个子图的后继元集S:
S={u|u∈V∧(v,u)∈E∧u≠v}
步骤103)根据预设的映射方法将后继元集S映射为对应的特征向量;
映射方法为:Bloom filter、min-wise independent permutations或前两种的组合,或者进行自定义;
所述的步骤2)包括:
步骤201)设当前子图A选择子图B作为下次相遇的对象,计算子图B的后继元集S(B)和当前子图A的顶点集V(A)的相似度;
S(B)和V(A)的相似度是指当前子图A中节点是子图B中出链接的终点的比例,记作Containment(S(B),V(A)),计算公式如下:
对于vi∈V(A),检查vi是否在子图B的后继元集S(B)中;若vi在S(B)中存在,则计数器count加1;若vi在S(B)中不存在,则计数器count保持不变;则S(B)和V(A)的相似度实际计算公式如下:
步骤202)给定阈值threshold,如果Containment(S(B),V(A))大于threshold,则当前子图A的候选列表缓存子图B的ID;
Threshold是根据应用需求而预设的参数,根据实际网络拓扑动态进行调整;
所述的步骤3)具体为:
当前子图A将相遇对象B的候选列表中子图加入自身候选列表,相遇对象B将当前子图A候选列表中子图加入自身候选列表;
这些ID被存储为下次相遇的候选对象,记作candidate(A)和candidate(B):
candidate(A)=candidate(B)=IDs(A)∪IDs(B)
其中,IDs(A)和IDs(B)分别表示当前子图A的候选列表和子图B的候选列表;
所述的步骤4)包括:
步骤401)candidate(A)中的每个子图发送后继元集S(C)对应的特征向量给子图A;
步骤402)计算相似度Containment(S(C),V(A));对candidate(A)中所有子图根据其相似度的值从大到小排序,然后取相似度最大的子图C作为下次相遇的对象;
步骤403)若当前子图A与子图C相遇后,当前子图A将C从自己的候选对象中删除;
所述的步骤5)包括:
步骤501)为子图额外增加一个全局节点w,表示除子图顶点集以外的其他所有节点的合集,最终形成的子图中节点数为n+1;
步骤502)计算子图中所有节点的节点间转移概率,并组成节点间转移概率矩阵:
其中:
其中,i和j表示子图中的节点,G表示当前子图,w表示全局节点,pij表示两个节点之间的节点间转移概率,piw表示节点与全局节点之间的节点间转移概率;out(r)表示节点r的出度,α(r)t表示第t次相遇时节点r的PageRank值;
步骤503)初始化子图的PageRank稳态分布为其中,N表示整个网络的节点数目,n表示当前子图的节点数目;初始化转移概率矩阵的最后一行为:
步骤504)调整转移概率矩阵P为P':
其中,ε是参数,ε∈[0,1];
计算矩阵P'的稳态分布α:
α=(α1…αn|αw)T
α向量就是子图所有节点对应的PageRank值;
步骤505)按照步骤1)至步骤4)的方法选出下次相遇的子图B;相遇时,对于子图B的每条边,如果终点在当前子图的顶点集中,且起点不在当前子图的顶点集中,则把该边加入到当前子图的全局节点中,转到步骤502),每次相遇都迭代计算并更新一次当前子图所有节点的PageRank值;当相遇次数达到预设次数时,转入步骤6);
所述的步骤6)包括:
根据步骤5)计算得到的PageRank值,对当前子图中所有节点降序排列,依次选择节点进行内容扩散,直至内容覆盖率满足要求或网络中已无剩余副本个数;所述内容覆盖率是指当前子图中已经存储内容的节点数目占总的节点数目的比例,记为Cov,取值范围为0≤Cov≤1;所述副本个数是预设参数,是指整个网络中的内容副本个数。
2.根据权利要求1所述的基于相似度估计的分布式PageRank加速方法,其特征在于,所述ε取0.85。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科视云科技有限公司,未经中国科学院声学研究所;北京中科视云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711481710.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用户画像查询方法及装置
- 下一篇:外语文本远程遥控智能购物系统的方法