[发明专利]一种对查询友好的关联数据压缩方法有效
申请号: | 201611209081.1 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106709006B | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 顾进广;彭燊;黄智生;符海东;梅琨 | 申请(专利权)人: | 武汉科技大学;武汉楚天云科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430081 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 查询 友好 关联 数据压缩 方法 | ||
本发明涉及一种对查询友好的关联数据压缩方法,该方法包括:定义关系挖掘规则,挖掘三元组中潜在的关联关系;定义压缩查询内存模型,由主语向量、谓语向量和宾语矩阵组成;定义压缩查询内存模型的序列化方式,使用三个辅助符号实现序列化和反序列化;定义在压缩查询内存模型上执行SPARQL的查询方式,主语和谓语查询使用二分查找方法,宾语查询使用线性遍历方法;定义当宾语矩阵过大导致查询缓慢的解决方案,将大的数据块拆分为多个小的数据块。使用本发明方法处理的关联数据集,相对于大部分现有的压缩方案,提高了压缩率,并且在压缩状态下,可以直接进行SPARQL查询操作。
技术领域
本发明涉及大数据领域,用于海量RDF、LOD及知识图谱相关数据的存储、传输和查询。尤其涉及一种对查询友好的关联数据压缩方法
背景技术
现有的关联数据压缩方案有很多种,但大部分对于查询并不友好。普遍认同的压缩方案有HDT,这种压缩方案压缩率较高,但是查询时需要先解压缩,对查询并不友好。受HDT方案的启发,很多基于HDT方案的压缩技术也被提出,如HDT FoQ、WaterFowl、HDT++,这些压缩技术都有一个共同的特点:高压缩率,但对查询并不友好。
也有一些对查询友好的方案,譬如BitMat方法,这种压缩方案采用三维矩阵的方式表述三元组关系,为很多不存在的三元组关系也预留存储空间。当关联数据集大到一定规模时,这个三维矩阵就变成了一个超级稀疏矩阵,由于存储了很多冗余信息,压缩率并不理想。为了减少存储的冗余信息,K2-triple方案被提出来,它按照谓语将三维矩阵划分为多个二维矩阵,用K2树的结构存储二维矩阵。这种方法在一定程度上提高了压缩率,但也破坏了原有直观的矩阵结构,所以在进行查询的时候需要先还原矩阵,而这个操作会降低RDF的查询效率。
越来越多的关联数据充斥着整个数据网络,当需要管理和查询这些数据时,查询性能和数据可扩展便成了焦点问题。虽然可以使用足够多的存储介质来存储越来越庞大的关联数据集,但是庞大的数据集不仅会导致查询效率降低,还会加剧其它常见的过程(如RDF发布和交换)的性能问题。随着通过网络传输执行结果的远程SPARQL端点查询方式越来越受欢迎,RDF的发布和交换在关联数据的查询中使用得越来越频繁。因此寻找一种查询友好的关联数据压缩方法具有重大意义。
发明内容
针对上述问题,本发明的目的是找到一种对查询友好的压缩方案。在没有对关联数据压缩数据解压缩的情况下,能直接进行SPARQL查询,同时尽可能提高压缩率。
本发明目标由挖掘关联数据集中潜在的关系矩阵实现。该方法包括:
一种对查询友好的关联数据压缩方法,其特征在于,
一个构建结构模型的步骤,具体包括:
步骤1,将三元组内存模型基于N-Triple格式关联数据并解析,得到三元组集合,然后构建字典,并将三元组ID化,其中,解析的过程包括:
步骤1.1,过滤掉以“#”开始的行或者空行;
步骤1.2,读取每一行数据按空格切分字符串;
步骤1.3,将切分后数据映射到三元组的主语、谓语和宾语,构建成一个三元组;
步骤2,基于关系挖掘约束,挖掘三元组中潜在的关联;
步骤3,定义压缩查询内存模型,由头部信息、字典和数据块集合组成,每个数据块由主语向量、谓语向量和宾语矩阵组成;所述压缩查询内存模型使用主语向量、谓语向量和宾语矩阵的方式表示三元组关系:定义主语向量为一个长度为m的列向量,谓语向量为一个长度为n的行向量,宾语矩阵为一个m*n的矩阵,主语向量和谓语向量做向量乘法,得到一个和宾语矩阵大小相同的由主谓语组成的矩阵,再与宾语矩阵的数据项一一映射,映射后的每一项为一个三元组关系;
一个基于结构模型进行高压缩率数据存储的步骤,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉科技大学;武汉楚天云科技有限公司,未经武汉科技大学;武汉楚天云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611209081.1/2.html,转载请声明来源钻瓜专利网。