[发明专利]一种基于大数据的非结构化数据压缩处理系统及其方法在审

专利信息
申请号: 201710073558.6 申请日: 2017-02-08
公开(公告)号: CN106844728A 公开(公告)日: 2017-06-13
发明(设计)人: 王倬遥;高振国;杨海雷 申请(专利权)人: 深圳市高星文网络科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;H03M7/30
代理公司: 南京知识律师事务所32207 代理人: 王一源,李媛媛
地址: 518000 广东省深圳市南山区粤海*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 结构 数据压缩 处理 系统 及其 方法
【说明书】:

技术领域

发明涉及大数据处理的数据流采集、传输、存储以及分析领域,特别是一种基于大数据的非结构化数据压缩处理系统及其方法。

背景技术

据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。非结构化数据,顾名思义,是存储在文件系统的信息,而不是数据库。据报道指出:平均只有1%-5%的数据是结构化的数据,更多有价值的信息都保存在非结构化数据当中,而传统的数据处理技术无法挖掘出这些数据中所潜藏的价值。为了应对这种挑战,大数据技术应运而生,全球越来越多的企业采用其来对企业在业务运营中所获得的数据进行采集,存储,分析。

大数据环境下的数据分为三类:结构化数据,半结构化数据,非结构化数据。

结构化数据,即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。传统的数据库系统完全能够满足处理需求。

非结构化数据,即为不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。

针对于音视频及图片等数据,行业中已经开发出了多种压缩算法来有效地降低采集,存储,处理时所占用的计算存储资源。但是针对于文档,文本等其它类型的非结构化数据,例如企业收集到的用户行为,业务数据报表等高价值数据采用的都是文本或者XML等格式保存,并未有有效的处理方法来节省传输时所消耗的带宽,与存储时所占用的物理存储空间。

所以现在针对文本类非结构化数据的采集,传输,存储系统的现状是:

1.采集时,所有采集节点都将产生的数据都完整地采集下来;

2.传输时,将所有的数据只进行传统的Zip压缩再进行传输,不能最大化节省各个分部式节点间的传输带宽;

3.存储时,若将数据按时间顺序与逻辑关系将数据进行完整的存储,会占用大量的物理存储空间。

因此,在针对文本类非结构化数据处理时,可以在以下几个节点进行优化:

1.按时间高效的对数据进行采集,天然地形成数据流状态;

2.高效率地对数据进行压缩,有效节省传输流数据的带宽;

3.低成本的存储流数据。

发明内容

针对现有技术中存在的问题,本发明提供了一种采集效率高,传输可靠性高,存储成本低,支持进行实时数据挖掘与分析的基于大数据的非结构化数据压缩处理系统及其方法。

本发明的目的通过以下技术方案实现。

一种基于大数据的非结构化数据压缩处理系统,包括数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块和大数据存储分析平台,所述大数据存储分析平台包括数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口,所述数据采集模块、压缩比较模块、差量缓存模块、ExUDP模块、数据接收模块、时间序列数据库、数据还原模块、数据分析/挖掘接口依次单向数据传输。

进一步的,所述数据采集模块用于设定了数据结构体,所述数据采集模块中间包含所有需要监控的变量,所述数据采集模块每间隔一个单位时间ΔT,对每个所监控的变量采样得到当前帧,并与参考帧进行对比,计算出变化变量的差值,将所有的变化变量记录下Key值与变化量。

进一步的,所述差量缓存模块将每个变化量按顺序存储到一块内存空间M中、并记录下每个变化量的存储相对于该内存空间起点的Offset,接着将Offset与Key通过Hash函数做成一一对应的Hash表。

进一步的,所述ExUDP模块在应用层扩展UDP协议,所述ExUDP模块将Offset-Key Hash表及存储空间M通过ExUDP模块发送到大数据存储分析平台上。

进一步的,所述数据接收模块提用于将Offset-Key Hash表及存储空间M转存到时间序列数据库上的接口,所述数据接收模块将数据以帧为单位接收下来、并存储到时间序列数据库中。

进一步的,所述时间序列数据库用于实现按帧为单位的非结构化数据存储。

进一步的,所述数据还原模块以帧为单位从数据库中读取数据、并将其转化为流数据。

一种基于大数据的非结构化数据压缩处理方法,步骤包括:

1)数据流的采集:数据生成结点以固定的速率A样本每秒在生成文本类非结构化数据,数据采集节点分布在各个数据生成结点上进行实时监测,以B样本每秒的采样速率对数据流进行监测采样,当数据以覆盖的形式生成时,B≥A,当数据以追加的形式生成时,B<A,之后执行步骤2);

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市高星文网络科技有限公司,未经深圳市高星文网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710073558.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top