[发明专利]一种大数据清洗方法在审
申请号: | 201710622180.0 | 申请日: | 2017-07-27 |
公开(公告)号: | CN110019152A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 李笠 | 申请(专利权)人: | 润泽科技发展有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 北京东方芊悦知识产权代理事务所(普通合伙) 11591 | 代理人: | 李岩 |
地址: | 065001 河北省廊坊市廊*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种大数据清洗方法,先对清洗流程进行配置定义,再对清洗流程进行解析并转换为Spark的原子操作。将清洗任务提交至大数据分析框架Spark集群后,由Spark集群进行数据清洗,因为每个清洗流程中的每个步骤都已转换为Spark的原子操作,所以在Spark集群中进行的各个清洗步骤均可以分布式并行执行,从而能够显著提高数据清洗的清洗速度,实现高速度和高效率的数据清洗,更加适用于当前的大数据环境。 | ||
搜索关键词: | 清洗 大数据 数据清洗 集群 原子操作 并行执行 任务提交 高效率 转换 解析 配置 分析 | ||
【主权项】:
1.一种大数据清洗方法,其特征在于,包括以下步骤:1)对清洗流程配置清洗规则;2)对清洗流程进行解析,将清洗流程转换为Spark操作;3)根据需要清洗的所述数据大小,配置Spark集群服务器资源;4)部署清洗程序任务;5)清洗后所述数据的存储。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于润泽科技发展有限公司,未经润泽科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710622180.0/,转载请声明来源钻瓜专利网。