[发明专利]一种基于标签传播概率的并行图划分方法在审

专利信息
申请号: 201910212049.6 申请日: 2019-03-20
公开(公告)号: CN109960750A 公开(公告)日: 2019-07-02
发明(设计)人: 季雅雯 申请(专利权)人: 中南大学
主分类号: G06F16/901 分类号: G06F16/901;G06F16/958;H04L12/803;H04L29/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 410083 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 标签 运算效率 传播 大规模数据集 反复迭代计算 分布式环境 传统关系 结构信息 模式数据 社区结构 数量分配 网络关系 文本信息 优化存储 并行图 有效地 准确率 富含 算法 计算机网络 排序 存储 概率 社区 优化
【说明书】:

近年来,随着计算机网络的飞速发展,Web上的RDF数据量飞速增长,特别是出现了很多大规模的RDF数据集,与传统关系数据相比,RDF数据是一种典型的无模式数据且富含文本信息,这些特征也导致难以根据结构信息优化存储。本发明将复杂的网络关系划分为内部紧密联系的社区结构,从而合理地将大规模数据集进行划分及存储。本发明基于标签传播社区划分算法进行优化,针对标签传播顺序,采用顶点影响力排序的方式,选取一定种子数量分配标签开始进行传播,减少了一些不必要的计算代价并提升了划分的准确率;又结合分布式环境,对于需要反复迭代计算的过程提高了运算效率。通过上述方式,本发明能够有效地提高图划分的准确性,并提升了划分运算效率。

技术领域

本发明属于大规模数据下数据划分及存储的相关领域,特别涉及一种在大数据环境下基于标签传播概率的并行图划分方法。

背景技术

语义网是对未来网络的一个设想,作为Web 3.0网络时代的特征之一,语义网在非结构化数据管理、生物信息、数字图书馆等诸多新兴领域中广泛应用并发展迅速,因此逐渐成为了研究的热点。语义网的核心是让机器去识别、分析Web上的信息。资源描述框架是W3C提出的描述语义Web信息的通用语言,是为描述Web元数据而建立的标准。为了方便机器理解,在语义Web模型中,数据信息均以RDF的形式统一进行存储。

RDF数据采用三元组作为其基本单位,每个三元组由主语、谓语和宾语组成,主语和宾语之间的关系通过谓语描述,表示为<s,p,o>。而RDF图可以通过带有标签的结点和边表示,其中结点是主语和宾语,边则是谓语,而每一个三元组对应为图上的一个“结点一边一结点”的子图,表示在主语和宾语所指的事物之间的关系,这个关系由谓语表示。RDF图定义为一个有向图,其中边的方向由三元组中的主语指向宾语。

近年来,随着计算机网络的飞速发展,Web上的RDF数据量飞速增长,特别是出现了很多大规模的RDF数据集。例如,截止2018年6月,链接开放数据云中一共包含1231个开放数据集、16132个链接。与传统关系数据相比,RDF数据是一种典型的无模式数据且富含文本信息,这些特征也导致难以根据结构信息优化存储,从而查询性能低下。所以,实现大规模RDF数据存储及合理划分成为一个急迫问题。

发明内容

本发明的目的是为了解决大规模数据的存储及合理划分问题,由于如今的数据规模巨大并且数据之间存在着复杂的网络关系,单计算节点的存储计算方式已不能满足数据的增长需求,本发明提供一种大规模数据下基于标签传播概率的并行社区发现方法进行图分割。

为实现本发明的目的,结合分布式平台,对传统的标签传播算法进行改进,针对标签传播顺序,采用顶点影响力排序的方式,选取一定种子数量分配标签开始进行传播,从而降低计算代价。本发明采用一种大规模数据下基于标签传播概率的并行社区发现方法来提高数据划分的合理性及划分效率,该方法的具体流程如下:

(1)采用LeaderRank算法,对数据图中的所有顶点进行顶点影响力计算;

(2)选取topK影响力数量的种子集合,对每个种子顶点分配唯一的标签;

(3)传播顺序按照影响力排序对顶点进行标签更新;

(4)检查每个顶点的标签影响值是否达到最大,是则到步骤6,否则执行步骤5;

(5)重复步骤3;

(6)将相同标签的顶点划分为同一社区。

附图说明

图1为本发明所述的方法的系统结构框图。

图2为本发明所述的方法的计算节点负载均衡方案示例图。

图3是本发明所述的方法的传统标签传播算法传播过程示例图。

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910212049.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top