[发明专利]一种对查询友好的关联数据压缩方法有效

专利信息
申请号: 201611209081.1 申请日: 2016-12-23
公开(公告)号: CN106709006B 公开(公告)日: 2020-10-30
发明(设计)人: 顾进广;彭燊;黄智生;符海东;梅琨 申请(专利权)人: 武汉科技大学;武汉楚天云科技有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F16/33
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 鲁力
地址: 430081 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 查询 友好 关联 数据压缩 方法
【说明书】:

发明涉及一种对查询友好的关联数据压缩方法,该方法包括:定义关系挖掘规则,挖掘三元组中潜在的关联关系;定义压缩查询内存模型,由主语向量、谓语向量和宾语矩阵组成;定义压缩查询内存模型的序列化方式,使用三个辅助符号实现序列化和反序列化;定义在压缩查询内存模型上执行SPARQL的查询方式,主语和谓语查询使用二分查找方法,宾语查询使用线性遍历方法;定义当宾语矩阵过大导致查询缓慢的解决方案,将大的数据块拆分为多个小的数据块。使用本发明方法处理的关联数据集,相对于大部分现有的压缩方案,提高了压缩率,并且在压缩状态下,可以直接进行SPARQL查询操作。

技术领域

本发明涉及大数据领域,用于海量RDF、LOD及知识图谱相关数据的存储、传输和查询。尤其涉及一种对查询友好的关联数据压缩方法

背景技术

现有的关联数据压缩方案有很多种,但大部分对于查询并不友好。普遍认同的压缩方案有HDT,这种压缩方案压缩率较高,但是查询时需要先解压缩,对查询并不友好。受HDT方案的启发,很多基于HDT方案的压缩技术也被提出,如HDT FoQ、WaterFowl、HDT++,这些压缩技术都有一个共同的特点:高压缩率,但对查询并不友好。

也有一些对查询友好的方案,譬如BitMat方法,这种压缩方案采用三维矩阵的方式表述三元组关系,为很多不存在的三元组关系也预留存储空间。当关联数据集大到一定规模时,这个三维矩阵就变成了一个超级稀疏矩阵,由于存储了很多冗余信息,压缩率并不理想。为了减少存储的冗余信息,K2-triple方案被提出来,它按照谓语将三维矩阵划分为多个二维矩阵,用K2树的结构存储二维矩阵。这种方法在一定程度上提高了压缩率,但也破坏了原有直观的矩阵结构,所以在进行查询的时候需要先还原矩阵,而这个操作会降低RDF的查询效率。

越来越多的关联数据充斥着整个数据网络,当需要管理和查询这些数据时,查询性能和数据可扩展便成了焦点问题。虽然可以使用足够多的存储介质来存储越来越庞大的关联数据集,但是庞大的数据集不仅会导致查询效率降低,还会加剧其它常见的过程(如RDF发布和交换)的性能问题。随着通过网络传输执行结果的远程SPARQL端点查询方式越来越受欢迎,RDF的发布和交换在关联数据的查询中使用得越来越频繁。因此寻找一种查询友好的关联数据压缩方法具有重大意义。

发明内容

针对上述问题,本发明的目的是找到一种对查询友好的压缩方案。在没有对关联数据压缩数据解压缩的情况下,能直接进行SPARQL查询,同时尽可能提高压缩率。

本发明目标由挖掘关联数据集中潜在的关系矩阵实现。该方法包括:

一种对查询友好的关联数据压缩方法,其特征在于,

一个构建结构模型的步骤,具体包括:

步骤1,将三元组内存模型基于N-Triple格式关联数据并解析,得到三元组集合,然后构建字典,并将三元组ID化,其中,解析的过程包括:

步骤1.1,过滤掉以“#”开始的行或者空行;

步骤1.2,读取每一行数据按空格切分字符串;

步骤1.3,将切分后数据映射到三元组的主语、谓语和宾语,构建成一个三元组;

步骤2,基于关系挖掘约束,挖掘三元组中潜在的关联;

步骤3,定义压缩查询内存模型,由头部信息、字典和数据块集合组成,每个数据块由主语向量、谓语向量和宾语矩阵组成;所述压缩查询内存模型使用主语向量、谓语向量和宾语矩阵的方式表示三元组关系:定义主语向量为一个长度为m的列向量,谓语向量为一个长度为n的行向量,宾语矩阵为一个m*n的矩阵,主语向量和谓语向量做向量乘法,得到一个和宾语矩阵大小相同的由主谓语组成的矩阵,再与宾语矩阵的数据项一一映射,映射后的每一项为一个三元组关系;

一个基于结构模型进行高压缩率数据存储的步骤,具体包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉科技大学;武汉楚天云科技有限公司,未经武汉科技大学;武汉楚天云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611209081.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top