[发明专利]一种互联网大数据清洗方法有效

申请号：	201910767145.7	申请日：	2019-08-20
公开（公告）号：	CN110737647B	公开（公告）日：	2023-07-25
发明（设计）人：	刘磊;张洪	申请（专利权）人：	广州宏数科技有限公司
主分类号：	G06F16/215	分类号：	G06F16/215;G06F16/27;G06F16/951;G06F16/9536;G06F21/62;G06F18/241
代理公司：	广州市红荔专利代理有限公司 44214	代理人：	李彦孚
地址：	510640 广东省广州市番禺区沙***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及数据清洗技术领域，涉及一种互联网大数据清洗方法，具体步骤如下：S1、利用数据采集模块提取出所需数据；S2、利用爬虫同步模块把oss中的文件同步下来；S3、利用数据清洗模块将处理后的数据打包插入KAFKA模块的kafaka队列中；S4、利用KAFKA模块，运用选举算法将数据合理分配到服务器队列中，通过网络传输数据库模块中；S5、利用数据库模块监测KAFKA模块传输过来的数据，并利用filer‑chainshain扩展监控统计。本发明通过数据清洗模块有效地将数据重新分类整合清洗至各个规范化数据库模块中，提高了数据清洗的准确度，解决了现有技术大数据因数据丢失而造成筛选清洗效率低下的缺陷，达到快速准确筛选清洗数据的目的。
搜索关键词：	一种互联网数据清洗方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种互联网大数据清洗方法，其特征在于，包括以下步骤：/nS1、利用数据采集模块，通过http协议登录目标服务器，使用正则表达式，xpath表达式以及jsonpath表达式提取出所需数据；/nS2、利用爬虫同步模块，通过checksum算法、传输同步算法以及比对算法把oss中的文件同步下来；/nS3、利用数据清洗模块，通过均值填补法、热卡填补法以及回归填补法对数据进行处理，将处理后的数据打包插入KAFKA模块的kafaka队列中；/nS4、利用KAFKA模块，运用选举算法将数据合理分配到服务器队列中，通过网络传输数据库模块中；/nS5、利用数据库模块，通过wallFilter监测KAFKA模块传输过来的数据有没有sql注入攻击、过滤以及保存，并利用filer-chainshain扩展监控统计。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州宏数科技有限公司，未经广州宏数科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910767145.7/，转载请声明来源钻瓜专利网。

上一篇：数据标注方法、装置、设备及可读存储介质
下一篇：性能特征降维方法及装置、电子设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种互联网大数据清洗方法有效

专利文献下载