[发明专利]一种应用于海量不完整数据的压缩优化方法有效
申请号: | 201611081153.9 | 申请日: | 2016-11-30 |
公开(公告)号: | CN106598492B | 公开(公告)日: | 2019-04-09 |
发明(设计)人: | 王妍;孙凌峰;李玉诺;王俊陆;宋宝燕 | 申请(专利权)人: | 辽宁大学 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;G06F16/13;G06F16/172 |
代理公司: | 沈阳杰克知识产权代理有限公司 21207 | 代理人: | 罗莹 |
地址: | 110000 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 海量 完整 数据 压缩 优化 方法 | ||
本发明涉及一种应用于海量不完整数据的压缩优化方法,包括硬优化方法、软优化方法;该方法通过将海量不完整数据的压缩与传统粗糙理论相集合,并对其中的方法进行改进,利用其对不完整数据压缩过程中的属性进行属性重要性以及属性综合权重进行计算。同时在属性综合权重的基础上设计一种新的不完整数据集中属性值字段的编码方式。该方法提高海量不完整数据的压缩效率,减少海量不完整数据的存储空间,能够在减少冗余的前提下实现海量不完整数据的高效率压缩。它适应于海量不完整数据的减冗余压缩。
技术领域
本发明涉及一种应用于海量不完整数据的压缩优化方法,属于数据库领域。
背景技术
随着大数据时代的到来,数据规模呈指数倍增加,各种形式的海量数据不断产生。数据的压缩对于海量数据的存储、查询、以及应用至关重要,为了有效地管理海量数据,人们提出了各种数据压缩技术。而在海量数据中由于网络错误、收集错误以及人为错误等原因导致的数据缺失是一个很常见的现象。对于海量不完整的不合理的压缩方法会造成严重的损失。因此针对海量不完整数据压缩方法的研究是十分重要的现实意义。
目前对于海量数据压缩方法的研究,主要集中在对完整数据的压缩,例如基于索引的压缩方法,面向块的增量压缩方法,算术编码压缩方法等,但是这些方法都是需要针对特定的数据特点来进行实现,不具有一定的普遍性。而对海量不完整数据的压缩,通常是在数据预处理之后,“清洗”或者“填补”之后得到完整数据,在其基础上进行压缩操作。AQ-MI方法根据用户频繁查询条件实现了对海量不完整数据的压缩,但是由于基本数据结构的设计,以及为了获得更加精确的查询结果,使得在压缩时存在压缩数据冗余问题,即存在属性值缺失的元组会重复压缩多次的问题。这会使压缩文件的大小增大,造成了存储空间浪费和压缩效率降低,大大加大了压缩的代价。这些方法都不适合海量不完整数据的有效压缩。
发明内容
本发明针对现有技术的不足,本发明提供一种应用于海量不完整数据压缩优化的方法。
本发明的是通过下述技术方案实现的:
一种应用于海量不完整数据的压缩优化方法,其特征在于:包括硬优化方法(1)、软优化方法(2);
所述的硬优化方法(1)实现步骤如下:
(1.1):确定属性字段的编码方式:在一个元组中,当属性值字段没有发生缺失时,根据确定性查询条件,利用位编码形式对属性值字段进行编码,:利用“0”,“1”对元组中确定性查询条件对应的属性字段进行编码;当属性值发生缺失时候,利用“*”对属性值缺失字段进行编码;
(1.2):不管当前元组中是否存在属性值缺失字段,根据(1.1)中的编码方式,计算当前元组t所满足的确定性查询条件所对应的Def_Query值;
(1.3):将元组t写入为该Def_Query值所准备的待压缩缓存块BlockDef_Query中,设定其序号为Block_IdDef_Query;将元组t的不确定性查询条件的值Undef_Vals以及Def_Query值和缓存块号Block_IdDef_Query插入到数据库索引表中;
(1.4):如果Block_IdDef_Query所代表的压缩缓存块已满,则利用压缩算法对该缓存块进行压缩;将得到的Block_IdDef_Query以及压缩得到的地址AddressDef_Query写入地址表中,得到使用硬优化算法后的压缩数据和索引文件;
所述的Def_Query代表用户使用的确定性查询条件,Block代表压缩缓存块,Block_Id代表数据元组所在的缓存块的序号,Undef_Vals代表不确定性查询条件所对应的属性值,Address代表缓存块压缩后的压缩文件地址;
所述的软优化方法(2)实现步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611081153.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法及装置
- 下一篇:一种固态硬盘地址映射表管理方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置