[发明专利]一种预处理增强的大数据处理系统及方法在审
申请号: | 201911373572.3 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111143367A | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 黄玉划;郭柯卿;蓝天;王娜 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/25;G06F16/953 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 预处理 增强 数据处理系统 方法 | ||
1.一种预处理增强的大数据处理系统,包括采集模块、其特征在于所述采集模块的输出端与输入模块的输入端单向信号连接、所述输入模块的输出端与预处理模块的输入端单向信号连接、所述预处理模块的输出端与分析模块的输入端单向信号连接、所述分析模块的输出端与输出模块的输入端单向信号连接以及所述输出模块的输出端与存储模块的输入端单向信号连接。
2.根据权利要求1所述的一种预处理增强的大数据处理系统,对此提出一种大数据处理方法,其特征在于,步骤如下:
S1:采集模块进行主动搜集所需的元数据,例如客户端数据、数据库数据、服务器数据或者第三方数据等等,进行打包传送至输入模块中;
S2:根据S1中采集模块将数据打包传送至输入模块后,输入模块进行主动将数据发送至预处理模块进行预处理,传输过程根据数据的类型来选择传输方式,当数据是流式数据时,将采用Kafka、storm等框架;而当数据是批式数据时,将采用MapReduce批处理模型;
S3:根据S2中预处理模块在收到元数据后,将数据进行解析、解码、填充和纠错等一系列程序,将数据预处理;
解析:接收到来自输入模块的数据时,先运行解析脚本,将传过来的数据转换成XML或者JSON格式数据,再进行业务处理;平台下发数据时,也会先通过脚本将数据转换为模块可以接收的数据格式,再下发给下层模块;
解码:在计算机网络中,需要通过网络实现资源共享和数据传输,因此当链接的双方信号形式不一样,例如当使用的通信网信号形式和传输模块的信号形式不一样时,就必须进行信号形式的转换,接收方进行的信号形式的转换就是解码;
填充:在处理数据时,很多时候都会遇到数据缺失值的情况,面对数据缺失值,简单的方法可以是在连续型变量中填充中位数、平均数等,在离散型变量中填充众数,其次我们可以考虑采用深度学习的方法例如K-means插值、混合高斯分布插值等来填充数据;
纠错:录入数据时,有差错是难免的,随着时间的推移、工作的突进,数据需要补充和修正,数据的完整、准确是动态的,要保持基础数据的正确,关键是要建立尽快纠正错误数据的机制,即审核-纠正-反馈;
S4:根据S3中将数据进行一系列预处理后,将处理后的数据发送至分析模块进行分析,将有利的数据进行筛选而后传输至输出模块;
S5:根据S1、S2、S3和S4中将数据进行采集、输入、预处理和分析后传输至输出模块,输出模块将数据主动传输至存储模块进行储存,若数据格式为文档型,则选用MongoDB文档型数据库;而若数据是结构化的,则采用关系型数据库存储;当数据达到很大规模时,将首选HDFS存储。
3.根据权利要求1所述的一种预处理增强的大数据处理系统及方法,其特征在于所述预处理模块分为四个部分,分别为解析、解码、填充和纠错。
4.根据权利要求1所述的一种预处理增强的大数据处理系统及方法,其特征在于所述预处理模块用于接收大数据采集模块采集的用户行为大数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911373572.3/1.html,转载请声明来源钻瓜专利网。