[发明专利]一种预处理增强的大数据处理系统及方法在审
申请号: | 201911373572.3 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111143367A | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 黄玉划;郭柯卿;蓝天;王娜 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/25;G06F16/953 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 预处理 增强 数据处理系统 方法 | ||
本发明涉及计算机系统技术领域,且公开了一种预处理增强的大数据处理系统及方法,包括采集模块、所述采集模块的输出端与输入模块的输入端单向信号连接、所述输入模块的输出端与预处理模块的输入端单向信号连接、所述预处理模块的输出端与分析模块的输入端单向信号连接、所述分析模块的输出端与输出模块的输入端单向信号连接以及所述输出模块的输出端与存储模块的输入端单向信号连接。通过采集模块对互联网众多数据进行挑选目标性采集,在大数据预处理模块实现对于原始数据进行处理,分析模块的处理效率,最终将有效数据输入至存储模块进行存储,方便以后的利用,从而提高了数据处理速度,筛选储存降低了储存数据所需的容量。
技术领域
本发明涉及计算机系统技术领域,具体为一种预处理增强的大数据处理系统及方法。
背景技术
随着我国计算机及互联网的飞速发展,越来越多的数据信息充斥在各个平台,电子信息数据逐渐成为人们研究的重点,人们日常生活均离不开各种各样的数据,进而大数据成为了目前研究的热点。
数据暴增的年代,无法估计电子设备中在全球的存储数量,与此同时,物联网中机器设备产生的数据远远超过个人所产生的数据,网上公开发布的数据也在逐年递增,这些都将产生巨量的数据。我们遇到的问题却很类似,在硬盘存储容量一直不断提升的同时,访问速度并没有与时俱进,因此无论是解决硬件故障问题的Hadoop文件系统HDFS,还是以某种方式结合大部分数据完成分析的MapReduce编程模型,都在解决对数据的读/写问题。
数据处理系统的主要功能是从众多外部系统中,采集相关的业务数据,一起存储到数据处理系统的数据库中。系统内部对所有的原始数据通过一系列处理和分析、格式转换之后,存储到数据库的基础库中;最后还需要进行一系列的数据转换到相应的数据集,供其它上层数据应用组件进行专题分析或者展示。
根据数据的传统流转流程,一般会有以下几个模块:数据采集、数据存储、数据计算、数据分析和数据展示等等。现有的大数据处理系统存在着大数据的数据来源众多,数据量大,导致对于数据处理的硬件要求依旧较高,这就限制了大数据技术的进一步普及,且传统处理系统速度慢、效率低和系统功能不完善的问题有待解决。
发明内容
[发明目的]现有的大数据处理系统数据源多、数据量大、且面临着可靠性和可扩展性问题,用户可能会存储海量的数据,同时数据规模有持续增长的趋势,因此提出一种预处理增强的大数据处理系统及方法来改善目前大数据处理系统功能不完善,通用性差和效率低的问题。
[技术方案]本发明方案主要包括以下内容:
为实现上述处理速度快,筛选储存以及使系统越来越完善的目的,本发明提供如下技术方案:一种预处理增强的大数据处理系统,包括采集模块、所述采集模块的输出端与输入模块的输入端单向信号连接、所述输入模块的输出端与预处理模块的输入端单向信号连接、所述预处理模块的输出端与分析模块的输入端单向信号连接、所述分析模块的输出端与输出模块的输入端单向信号连接以及所述输出模块的输出端与存储模块的输入端单向信号连接。
基于一种预处理增强的大数据处理系统,对此提出一种大数据处理方法,步骤如下:
S1:采集模块进行主动搜集所需的元数据,例如客户端数据、数据库数据、服务器数据或者第三方数据等等,进行打包传送至输入模块中;
S2:根据S1中采集模块将数据打包传送至输入模块后,输入模块进行主动将数据发送至预处理模块进行预处理,传输过程根据数据的类型来选择传输方式,当数据是流式数据时,将采用Kafka、storm等框架;而当数据是批式数据时,将采用MapReduce批处理模型;
S3:根据S2中预处理模块在收到元数据后,将数据进行解析、解码、填充和纠错等一系列程序,将数据预处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911373572.3/2.html,转载请声明来源钻瓜专利网。