[发明专利]一种基于大数据的非结构化数据压缩处理系统及其方法在审

申请号：	201710073558.6	申请日：	2017-02-08
公开（公告）号：	CN106844728A	公开（公告）日：	2017-06-13
发明（设计）人：	王倬遥;高振国;杨海雷	申请（专利权）人：	深圳市高星文网络科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;H03M7/30
代理公司：	南京知识律师事务所32207	代理人：	王一源,李媛媛
地址：	518000 广东省深圳市南山区粤海***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据结构数据压缩处理系统及其方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及大数据处理的数据流采集、传输、存储以及分析领域，特别是一种基于大数据的非结构化数据压缩处理系统及其方法。

背景技术

据IDC的一项调查报告中指出：企业中80％的数据都是非结构化数据，这些数据每年都按指数增长60％。非结构化数据，顾名思义，是存储在文件系统的信息，而不是数据库。据报道指出：平均只有1％-5％的数据是结构化的数据，更多有价值的信息都保存在非结构化数据当中，而传统的数据处理技术无法挖掘出这些数据中所潜藏的价值。为了应对这种挑战，大数据技术应运而生，全球越来越多的企业采用其来对企业在业务运营中所获得的数据进行采集，存储，分析。

大数据环境下的数据分为三类：结构化数据，半结构化数据，非结构化数据。

结构化数据，即行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据。传统的数据库系统完全能够满足处理需求。

非结构化数据，即为不方便用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。

针对于音视频及图片等数据，行业中已经开发出了多种压缩算法来有效地降低采集，存储，处理时所占用的计算存储资源。但是针对于文档，文本等其它类型的非结构化数据，例如企业收集到的用户行为，业务数据报表等高价值数据采用的都是文本或者XML等格式保存，并未有有效的处理方法来节省传输时所消耗的带宽，与存储时所占用的物理存储空间。

所以现在针对文本类非结构化数据的采集，传输，存储系统的现状是：

1.采集时，所有采集节点都将产生的数据都完整地采集下来；

2.传输时，将所有的数据只进行传统的Zip压缩再进行传输，不能最大化节省各个分部式节点间的传输带宽；

3.存储时，若将数据按时间顺序与逻辑关系将数据进行完整的存储，会占用大量的物理存储空间。

因此，在针对文本类非结构化数据处理时，可以在以下几个节点进行优化：

1.按时间高效的对数据进行采集，天然地形成数据流状态；

2.高效率地对数据进行压缩，有效节省传输流数据的带宽；

3.低成本的存储流数据。

发明内容

针对现有技术中存在的问题，本发明提供了一种采集效率高，传输可靠性高，存储成本低，支持进行实时数据挖掘与分析的基于大数据的非结构化数据压缩处理系统及其方法。

本发明的目的通过以下技术方案实现。

一种基于大数据的非结构化数据压缩处理系统，包括数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块和大数据存储分析平台，所述大数据存储分析平台包括数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口，所述数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块、数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口依次单向数据传输。

进一步的，所述数据采集模块用于设定了数据结构体，所述数据采集模块中间包含所有需要监控的变量，所述数据采集模块每间隔一个单位时间ΔT，对每个所监控的变量采样得到当前帧，并与参考帧进行对比，计算出变化变量的差值，将所有的变化变量记录下Key值与变化量。

进一步的，所述差量缓存模块将每个变化量按顺序存储到一块内存空间M中、并记录下每个变化量的存储相对于该内存空间起点的Offset，接着将Offset与Key通过Hash函数做成一一对应的Hash表。

进一步的，所述ExUDP模块在应用层扩展UDP协议，所述ExUDP模块将Offset-Key Hash表及存储空间M通过ExUDP模块发送到大数据存储分析平台上。

进一步的，所述数据接收模块提用于将Offset-Key Hash表及存储空间M转存到时间序列数据库上的接口，所述数据接收模块将数据以帧为单位接收下来、并存储到时间序列数据库中。

进一步的，所述时间序列数据库用于实现按帧为单位的非结构化数据存储。

进一步的，所述数据还原模块以帧为单位从数据库中读取数据、并将其转化为流数据。

一种基于大数据的非结构化数据压缩处理方法，步骤包括：

1)数据流的采集：数据生成结点以固定的速率A样本每秒在生成文本类非结构化数据，数据采集节点分布在各个数据生成结点上进行实时监测，以B样本每秒的采样速率对数据流进行监测采样，当数据以覆盖的形式生成时，B≥A，当数据以追加的形式生成时，B＜A，之后执行步骤2)；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市高星文网络科技有限公司，未经深圳市高星文网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710073558.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于大数据的非结构化数据压缩处理系统及其方法在审

专利文献下载