[发明专利]一种大规模图数据表示方法在审
| 申请号: | 201611236351.8 | 申请日: | 2016-12-28 |
| 公开(公告)号: | CN106780640A | 公开(公告)日: | 2017-05-31 |
| 发明(设计)人: | 常亮;曾祥炫;古天龙;徐周波;王荣 | 申请(专利权)人: | 桂林电子科技大学 |
| 主分类号: | G06T9/40 | 分类号: | G06T9/40 |
| 代理公司: | 桂林市持衡专利商标事务所有限公司45107 | 代理人: | 陈跃琳 |
| 地址: | 541004 广西*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 大规模 数据 表示 方法 | ||
技术领域
本发明涉及大数据处理技术领域,具体涉及一种大规模图数据表示方法。
背景技术
图数据是指使用图来抽象表示数据实体以及它们之间的关系,数据实体表示为图中的顶点,数据实体之间的关系表示为图中的边。图数据是一个很宽泛的概念,主要的表现形式有网页图、社交网络图、生物信息图、语义Web以及知识图谱等。图数据正日益成为一种重要的处理对象。
在大数据背景下,图数据的顶点规模往往会达到千万级别,而边数则会达到亿级别。当使用K2-tree表示大规模图数据时主要会存在以下两个问题:
1)K2-tree对邻接矩阵是进行机械式的划分,而图数据中往往存在大量的集群结构,这种划分方式将会严重破坏集群结构,造成子矩阵之间通信频繁。由于将原本聚集大量值为1的元素的区域一部分划分至另外一个子矩阵,从而增加了表示值为1的元素所用的存储空间。
2)由于K2-tree的高度是由图数据中的顶点数所决定,所以在表示大规模图数据时,K2-tree的高度会与图数据的顶点数成正比。由于K2-tree最底层中的L向量包含了邻接矩阵中单个元素的信息,因此从根节点向下访问到叶子层所需要的时间也会随着K2-tree高度的增加而增加。
因此,K2-tree对图数据内在结构特性以及表示大规模图数据时的查询效率方面缺乏必要的考虑,其在紧凑性以及查询效率上仍有较大的改善空间。
发明内容
本发明所要解决的技术问题是现有使用K2-tree表示大规模图数据时存在查询效率低的问题,提供一种大规模图数据表示方法。
为解决上述问题,本发明是通过以下技术方案实现的:
一种大规模图数据表示方法,包括如下步骤:
步骤1、以基于密度的聚类思想为指导,将图数据划分为规模不等的簇;
步骤2、将簇以及未包含在簇范围内的部分所对应的子矩阵进行K2-tree表示;
步骤3、将簇所对应K2-tree的L向量串联成一个全局L向量,并进行DACs编码;
步骤4、将每一个需要查询的节点定位到对应簇的K2-tree中,再根据K2-tree的遍历规则进行查询。
上述步骤1具体为:
步骤1.1、将图数据抽象成邻接矩阵表示;
步骤1.2、将邻接矩阵的第一行第一列的元素作为子矩阵的起点,沿邻接矩阵的主对角线拓展子矩阵的规模,每次拓展后子矩阵的宽度都增加1;
步骤1.3、子矩阵拓展完成后,计算当前子矩阵的离群率φ和规模MinSize;
步骤1.4、如果当前子矩阵的离群率φ小于等于设定的离群阈值,且当前子矩阵的规模大于等于设定的规模阈值,则将当前子矩阵作为一个簇处理;否则,返回步骤1.2,继续拓展当前子矩阵;
步骤1.5、若当前子矩阵的最右下角元素位于第i行第i列,则选取邻接矩阵中第i+1行第i+1列的元素作为新子矩阵的起点,并重复执行步骤1.3和1.4,直到到达邻接矩阵中最后一行最后一列的元素;
步骤1.6、将邻接矩阵中所有被簇包含的区域内的元素全部置为0。
上述步骤2具体为:
步骤2.1、使用数组记录每一个簇所包含行列号的区间;
步骤2.2、对于每一个簇所对应的矩阵,先将该矩阵的规模扩充为K的幂次方,再将矩阵划分为规模相等的K2个子矩阵;
若子矩阵中包含有值为1的元素,则将该子矩阵标记为1;否则,将该子矩阵标记为0;
将划分前的矩阵作为根节点,则划分后的K2个子矩阵作为根节点的孩子节点,节点值则为标记的值;
步骤2.3、将步骤2.2中标记为1的子矩阵继续按照步骤2.2中的划分方式进行K2划分,并根据子矩阵在父矩阵中的位置,按照由上到下,从左至右的顺序将子矩阵作为父矩阵的孩子节点;
步骤2.4、重复步骤2.2和2.3,直到子矩阵只包含一个元素值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611236351.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





