[发明专利]一种基于混合层次聚类的分布式存储RDF数据平衡分割方法有效

专利信息
申请号: 201510603743.2 申请日: 2015-09-19
公开(公告)号: CN105117488B 公开(公告)日: 2018-07-06
发明(设计)人: 陈志奎;冷泳林;程心如 申请(专利权)人: 大连理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 大连理工大学专利中心 21200 代理人: 关慧贞;梅洪玉
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于混合层次聚类的RDF数据平衡分割算法,包括如下步骤:通过对唯一属性值节点的合并和高邻域节点的移除来压缩RDF聚类数据规模;通过基于邻域节点的相似性度量和基于交互边的相似性度量计算RDF图中节点和数据块儿间的相似性;通过逐层AP聚类发现图中所有潜在的聚类中心和数据块儿,实现图的粗化;通过平衡调整算法实现RDF图分割的平衡;最后通过K‑means聚类算法实现指定数目的数据分割。本发明实施例针对RDF数据有向图的本质,将AP聚类与K‑means聚类相结合实现RDF数据基于图的平衡分割。本发明有效地提升网络接入服务评估准确性、动态响应性能和连接时间的预测准确度。
搜索关键词: 平衡分割 聚类 层次聚类 相似性度量计算 动态响应性能 网络接入服务 分布式存储 评估准确性 相似性度量 聚类数据 聚类算法 聚类中心 邻域节点 平衡调整 数据分割 算法实现 准确度 潜在的 图分割 有向图 有效地 粗化 移除 算法 压缩 合并 平衡 预测 发现
【主权项】:
1.一种基于混合层次聚类的分布式存储RDF数据平衡分割方法,包括如下步骤:步骤1:基于节点合并和移除的RDF数据预处理以RDF图节点压缩和节点移除为基础的数据预处理,节点压缩针对唯一属性值节点,节点移除针对高邻域节点,降低RDF图中参与聚类节点数目;1)节点合并给定RDF图G=(V,E),其中V=Ve∪Vl表示图中节点的集合,Ve代表实体节点,Vl表示属性值节点;E={e(vi,vj)|vi,vj∈V}=Er∪Ea表示有向边的集合,其中Er代表关系边,Ea代表属性边;在RDF有向图中,如果属性边Ea所对应的属性值节点vj∈Vl只属于指向它的主语节点vi∈Ve,则节点vj在数据分割时必然要与vi划分到同一存储节点;针对这类节点,将节点vj与指向它的主语节点vi合并成一个节点;2)节点移除在RDF图中,节点邻域分布并不是均匀的,有一部分节点的邻域数目非常高;节点邻域数目越高,和其关联的节点就越多,当查询时这些节点被查询的几率越高,因此产生的网络通信代价越高;为降低存储节点间通信代价,在对RDF图进行分割前,将节点度数超过一定阈值的节点从RDF图中移除,待图分割结束后将这些高度数节点分别存储到与之相关的存储节点上,用存储代价换取通信代价;步骤2:基于邻域和交互边的两种相似性度量方法:1)基于邻域相似性度量:如果一个节点的邻域节点同另一个节点相连,则认为这两个节点相似性大;同时,一个节点的邻域节点同另一个节点的远近关系也影响着相似度的大小;路径长度表示两个节点远近;设Nr(v)是节点v在半径为r的邻域集合,邻域内任意节点q与节点v的最短距离为l,节点q到节点v的权重wqv=1/l;节点q到v的权重和路径长度有关,路径长度越长,则权重越小,即该点与v的相似度越小;计算节点u到任意节点v的相似度如公式(1):其中Nr(u)和Nr(v)是节点u,v的半径为r的邻域集合,interr(u,v)=Nr(u)∩Nr(v)表示两个节点邻域的交集;2)基于交互边相似性度量交互边是指位于两个不同集合的节点间的连接边;RDF图分割的一个目的是使分割后的交互边最小,混合层次聚类算法中从第二层聚类开始;以交互边作为两个聚类数据块间的权重,衡量两个数据块间的相似度,如果数据块间交互边越多,代表两个数据块相似度越大,否则越小;给定两个数据块Ci和Cj,cut(Ci,Cj)表示两个数据块内节点间的交互边数目,cutmin(Ck)和cutmax(Ck)分别代表所有数据块间最小交互边和最大交互边数目,则两个数据块相似性计算如公式(2)步骤3:基于AP聚类算法的多层次聚类:AP聚类算法通过迭代更新吸引度矩阵R=[r(i,j)]与归属度矩阵A=[a(i,j)],逐步确定高质量聚类中心,吸引度矩阵和归属度矩阵更新规则如下:用归属度矩阵与相似度矩阵S=[s(i,j)]更新吸引度矩阵R:用吸引度矩阵R更新归属度矩阵A:其中,s(i,j)为点i到点j的相似度,表明点j作为点i的聚类中心的合适程度;r(i,j)表示点j对点i的吸引度,反映点j通过与其他数据点j'竞争,作为适合数据点i的聚类中心的程度;a(i,j)表示点i对点j的归属度,反映数据点i选择数据点j作为其聚类中心的适合程度;当i=j时,s(j,j)由输入的偏向参数p(j)设置,p(j)越大,数据点j越有可能被选为聚类中心,聚类个数越多;反之,p(j)越小,聚类个数越少;在执行过程中,吸引度矩阵和归属度矩阵需要迭代更新,每次更新的时间复杂度为O(n2),算法迭代T次,时间复杂度为O(Tn2);RDF图分割的目的是将紧密连接的节点分配到一个存储节点,如果两个节点间的相似性越小,则这两个节点被分配到一个存储节点的可能性就越小;在执行AP聚类前,设定相似度矩阵中小于阈值δ的节点间的相似性为‑∞,提高时间性能;AP层次聚类算法步骤:输入:RDF图G=(V,E),聚类数目阈值T输出:聚类数据块C={C1,C2,...,Cm},其中m≤T步骤:a)基于邻域相似度方法构建相似度矩阵S;b)在相似度矩阵S上执行AP聚类算法,产生m个数据块;c)如果m>T,利用公式(2)计算数据块间相似度,生成新的相似度矩阵S;d)将S作为新的输入,重新执行b),直到m≤T;步骤4、层次聚类的平衡调整将大图分割成子图分布式存储到不同存储节点时,子图的大小规模均衡性影响查询效率,如果子图大小规模不均,并行计算和查询效率会降低;为了确保分割均衡性,在AP聚类的每一层引入平衡调整算法;给定一个图G=(V,E),将图分割成k个划分P={P1,P2,…,Pk},k个分割平衡性应满足1‑e1≤PBi≤1+e2,其中并且分割平行性越好,e1,e2值越小;平衡调整算法步骤:输入:聚类后的分割P={P1,P2,…,Pk},e1,e2输出:平衡后分割P'={P1',P2',…,Pt'}步骤:1)分别计算聚类后k个分割的平行度PB={PB1,PB2,...,PBk}2)检验每一个分割Pi,如果平衡度PBi小于1‑e1,那么就再选择和Pi具有最大交互边数目的Pj,且Pj的平衡度PBj小于1+e2,将分割Pi和Pj合并为Pij,并计算平衡度PBij,从P集合中删除Pi、Pj,加入Pij;如果平衡度PBi大于1+e2,利用KL算法分割Pi,直到每个分割的平衡度Pi'满足1‑e1≤Pi'≤1+e2,将分割后的Pi'加入到P集合,删除Pi,PB平衡度集合也执行相应的删除和添加操作;利用AP聚类逐层缩小图的规模,当得到一定规模数据块后,采用K‑means聚类实现最终数目的聚类分割;K‑means算法步骤:输入:相似度矩阵S,最终分割数目k输出:分割集合C={C1,C2,...,Ck}步骤:I)随机选择k个初始聚类中心C={c1,c2,...,ck}II)将其它数据块分配到和其相似度最小的聚类中心III)更新聚类中心①计算聚类Ci的平均向量②计算新的聚类中心ci'③重复步骤II)和III),直到目标函数E收敛
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510603743.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top