[发明专利]一种基于混合层次聚类的分布式存储RDF数据平衡分割方法有效

申请号：	201510603743.2	申请日：	2015-09-19
公开（公告）号：	CN105117488B	公开（公告）日：	2018-07-06
发明（设计）人：	陈志奎;冷泳林;程心如	申请（专利权）人：	大连理工大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	大连理工大学专利中心 21200	代理人：	关慧贞;梅洪玉
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于混合层次聚类的RDF数据平衡分割算法，包括如下步骤：通过对唯一属性值节点的合并和高邻域节点的移除来压缩RDF聚类数据规模；通过基于邻域节点的相似性度量和基于交互边的相似性度量计算RDF图中节点和数据块儿间的相似性；通过逐层AP聚类发现图中所有潜在的聚类中心和数据块儿，实现图的粗化；通过平衡调整算法实现RDF图分割的平衡；最后通过K‑means聚类算法实现指定数目的数据分割。本发明实施例针对RDF数据有向图的本质，将AP聚类与K‑means聚类相结合实现RDF数据基于图的平衡分割。本发明有效地提升网络接入服务评估准确性、动态响应性能和连接时间的预测准确度。
搜索关键词：	平衡分割聚类层次聚类相似性度量计算动态响应性能网络接入服务分布式存储评估准确性相似性度量聚类数据聚类算法聚类中心邻域节点平衡调整数据分割算法实现准确度潜在的图分割有向图有效地粗化移除算法压缩合并平衡预测发现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于混合层次聚类的分布式存储RDF数据平衡分割方法，包括如下步骤：步骤1：基于节点合并和移除的RDF数据预处理以RDF图节点压缩和节点移除为基础的数据预处理，节点压缩针对唯一属性值节点，节点移除针对高邻域节点，降低RDF图中参与聚类节点数目；1)节点合并给定RDF图G＝(V,E)，其中V＝Ve∪Vl表示图中节点的集合，Ve代表实体节点，Vl表示属性值节点；E＝{e(vi,vj)|vi,vj∈V}＝Er∪Ea表示有向边的集合，其中Er代表关系边，Ea代表属性边；在RDF有向图中，如果属性边Ea所对应的属性值节点vj∈Vl只属于指向它的主语节点vi∈Ve，则节点vj在数据分割时必然要与vi划分到同一存储节点；针对这类节点，将节点vj与指向它的主语节点vi合并成一个节点；2)节点移除在RDF图中，节点邻域分布并不是均匀的，有一部分节点的邻域数目非常高；节点邻域数目越高，和其关联的节点就越多，当查询时这些节点被查询的几率越高，因此产生的网络通信代价越高；为降低存储节点间通信代价，在对RDF图进行分割前，将节点度数超过一定阈值的节点从RDF图中移除，待图分割结束后将这些高度数节点分别存储到与之相关的存储节点上，用存储代价换取通信代价；步骤2：基于邻域和交互边的两种相似性度量方法：1)基于邻域相似性度量：如果一个节点的邻域节点同另一个节点相连，则认为这两个节点相似性大；同时，一个节点的邻域节点同另一个节点的远近关系也影响着相似度的大小；路径长度表示两个节点远近；设Nr(v)是节点v在半径为r的邻域集合，邻域内任意节点q与节点v的最短距离为l，节点q到节点v的权重wqv＝1/l；节点q到v的权重和路径长度有关，路径长度越长，则权重越小，即该点与v的相似度越小；计算节点u到任意节点v的相似度如公式(1)：其中Nr(u)和Nr(v)是节点u,v的半径为r的邻域集合，interr(u,v)＝Nr(u)∩Nr(v)表示两个节点邻域的交集；2)基于交互边相似性度量交互边是指位于两个不同集合的节点间的连接边；RDF图分割的一个目的是使分割后的交互边最小，混合层次聚类算法中从第二层聚类开始；以交互边作为两个聚类数据块间的权重，衡量两个数据块间的相似度，如果数据块间交互边越多，代表两个数据块相似度越大，否则越小；给定两个数据块Ci和Cj，cut(Ci,Cj)表示两个数据块内节点间的交互边数目，cutmin(Ck)和cutmax(Ck)分别代表所有数据块间最小交互边和最大交互边数目，则两个数据块相似性计算如公式(2)步骤3：基于AP聚类算法的多层次聚类：AP聚类算法通过迭代更新吸引度矩阵R＝[r(i,j)]与归属度矩阵A＝[a(i,j)]，逐步确定高质量聚类中心，吸引度矩阵和归属度矩阵更新规则如下：用归属度矩阵与相似度矩阵S＝[s(i,j)]更新吸引度矩阵R：用吸引度矩阵R更新归属度矩阵A：其中，s(i,j)为点i到点j的相似度，表明点j作为点i的聚类中心的合适程度；r(i,j)表示点j对点i的吸引度，反映点j通过与其他数据点j'竞争，作为适合数据点i的聚类中心的程度；a(i,j)表示点i对点j的归属度，反映数据点i选择数据点j作为其聚类中心的适合程度；当i＝j时，s(j,j)由输入的偏向参数p(j)设置，p(j)越大，数据点j越有可能被选为聚类中心，聚类个数越多；反之，p(j)越小，聚类个数越少；在执行过程中，吸引度矩阵和归属度矩阵需要迭代更新，每次更新的时间复杂度为O(n2)，算法迭代T次，时间复杂度为O(Tn2)；RDF图分割的目的是将紧密连接的节点分配到一个存储节点，如果两个节点间的相似性越小，则这两个节点被分配到一个存储节点的可能性就越小；在执行AP聚类前，设定相似度矩阵中小于阈值δ的节点间的相似性为‑∞，提高时间性能；AP层次聚类算法步骤：输入：RDF图G＝(V,E)，聚类数目阈值T输出：聚类数据块C＝{C1,C2,...,Cm}，其中m≤T步骤：a)基于邻域相似度方法构建相似度矩阵S；b)在相似度矩阵S上执行AP聚类算法，产生m个数据块；c)如果m>T，利用公式(2)计算数据块间相似度，生成新的相似度矩阵S；d)将S作为新的输入，重新执行b)，直到m≤T；步骤4、层次聚类的平衡调整将大图分割成子图分布式存储到不同存储节点时，子图的大小规模均衡性影响查询效率，如果子图大小规模不均，并行计算和查询效率会降低；为了确保分割均衡性，在AP聚类的每一层引入平衡调整算法；给定一个图G＝(V,E)，将图分割成k个划分P＝{P₁,P₂,…,P_k}，k个分割平衡性应满足1‑e₁≤PB_i≤1+e₂，其中并且分割平行性越好，e₁，e₂值越小；平衡调整算法步骤：输入：聚类后的分割P＝{P1,P2,…,Pk}，e1，e2输出：平衡后分割P'＝{P1',P2',…,Pt'}步骤：1)分别计算聚类后k个分割的平行度PB＝{PB1,PB2,...,PBk}2)检验每一个分割Pi，如果平衡度PBi小于1‑e1，那么就再选择和Pi具有最大交互边数目的Pj,且Pj的平衡度PBj小于1+e2，将分割Pi和Pj合并为Pij，并计算平衡度PBij，从P集合中删除Pi、Pj,加入Pij；如果平衡度PBi大于1+e2，利用KL算法分割Pi，直到每个分割的平衡度Pi'满足1‑e1≤Pi'≤1+e2，将分割后的Pi'加入到P集合，删除Pi，PB平衡度集合也执行相应的删除和添加操作；利用AP聚类逐层缩小图的规模，当得到一定规模数据块后，采用K‑means聚类实现最终数目的聚类分割；K‑means算法步骤：输入：相似度矩阵S，最终分割数目k输出：分割集合C＝{C1,C2,...,Ck}步骤：I)随机选择k个初始聚类中心C＝{c1,c2,...,ck}II)将其它数据块分配到和其相似度最小的聚类中心III)更新聚类中心①计算聚类C_i的平均向量②计算新的聚类中心ci'③重复步骤II)和III)，直到目标函数E收敛

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510603743.2/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于混合层次聚类的分布式存储RDF数据平衡分割方法有效

专利文献下载