[发明专利]一种互联网大数据清洗方法有效

专利信息
申请号: 201910767145.7 申请日: 2019-08-20
公开(公告)号: CN110737647B 公开(公告)日: 2023-07-25
发明(设计)人: 刘磊;张洪 申请(专利权)人: 广州宏数科技有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/27;G06F16/951;G06F16/9536;G06F21/62;G06F18/241
代理公司: 广州市红荔专利代理有限公司 44214 代理人: 李彦孚
地址: 510640 广东省广州市番禺区沙*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 互联网 数据 清洗 方法
【权利要求书】:

1.一种互联网大数据清洗方法,其特征在于,包括以下步骤:

S1、利用数据采集模块,通过http协议登录目标服务器,使用正则表达式,xpath表达式以及jsonpath表达式提取出所需数据;

S2、利用爬虫同步模块,通过checksum算法、传输同步算法以及比对算法把oss中的文件同步下来;

S3、利用数据清洗模块,通过均值填补法、热卡填补法以及回归填补法对数据进行处理,将处理后的数据打包插入KAFKA模块的kafaka队列中;

S4、利用KAFKA模块,运用选举算法将数据合理分配到服务器队列中,通过网络传输数据库模块中;所述选举算法的选举流程:如果进程P是最大的ID,直接向所有人发送Victory消息,成功新的Leader;否则向所有比他大的ID的进程发送Election消息;如果P再发送Election消息后没有收到Alive消息,则P向所有人发送Victory消息,成功新的Leader;如果P收到了从比自己ID还要大的进程发来的Alive消息,P停止发送任何消息,等待Victory消息;如果P收到了比自己ID小的进程发来的Election消息,回复一个Alive消息,然后重新开始选举流程;如果P收到Victory消息,把发送者当做Leader;

S5、利用数据库模块,通过wallFilter监测KAFKA模块传输过来的数据有没有sql注入攻击、过滤以及保存,并利用filer-chainshain扩展监控统计;

所述步骤S3包括以下步骤:S31、通过分布式数据采集器,并根据具体任务配置,主动从数据库或文件获取元数据,或者由API被动接收元数据;

S32、通过分布式数据采集器,并根据具体任务配置,将签名密钥,获取到的元数据,以及包含元数据与目标数据字段对应关系、类型对应关系的任务配置,封装成一个分布式数据处理器程序可识别的任务对象,通过分布式数据处理器的分布式任务调度系统,分发给具体的机器及工作进程去执行清洗工作;

S33、通过分布式数据处理器,接收任务,对任务对象进行解析,首先验证签名密钥是否合法,如果不合法则抛弃任务并记录日志,如果合法则进入下一步骤S34;

S34、通过分布式数据处理器,签名密钥校验通过之后,则还原任务对象中所包含的元数据与任务配置,并根据配置中的对应关系,对数据进行清洗处理;

S35、通过分布式数据处理器,根据配置,对元数据进行分类,将元数据字段与目标数据字段进行关系对应;

S36、通过分布式数据处理器,当数据字段对应关系处理完成之后,则按目标数据要求,对元数据进行加工;

S37、通过分布式数据处理器,根据目标数据需求,对不符合要求的数据类型进行类型转换;

S38、通过分布式数据处理器,对转换后的元数据按需规范格式;

S39、通过数据存储器,将规范格式后的元数据按需推送前端UI、推送后端API、推送消息队列或数据库模块中。

2.根据权利要求1所述的一种互联网大数据清洗方法,其特征在于,所述互联网大数据清洗方法包括有数据采集模块、爬虫同步模块、KAFKA模块以及数据库模块,所述数据采集模块分别与所述爬虫同步模块、KAFKA模块以及数据库模块电性连接;还包括有数据清洗模块;其中,所述数据采集模块用于把目标数据采集下来,并将采集的数据保存到数据库模块,同步到爬虫同步模块上面;所述爬虫同步模块定时将数据同步到本地,然后通知数据清洗模块清洗数据,所述数据清洗模块包括有分布式数据采集器、分布式数据处理器以及数据存储器;所述分布式数据采集器采用分布式系统大批量快速的使用多种方式从多种来源抽取和接收数据,然后推送给分布式数据处理器进行数据清洗;所述分布式数据处理器负责处理分布式数据采集器推送过来的元数据,通过配置对不同的数据进行清洗转换,并将清洗完成的数据,推送给数据存储器;所述数据存储器负责处理已经清洗完成的数据,并根据业务需要与使用场景,存入数据库模块中;所述KAFKA模块用于发布和订阅记录流;所述数据库模块用于实时分析存储数据。

3.根据权利要求2所述的一种互联网大数据清洗方法,其特征在于,所述数据采集模块通过网络,模拟登陆目标服务器的公开业务系统,分析目标系统的路由规则,把css、js、图片以及页面文字信息保存到数据库模块中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州宏数科技有限公司,未经广州宏数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910767145.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top