[发明专利]一种大数据清洗方法在审
申请号: | 201710622180.0 | 申请日: | 2017-07-27 |
公开(公告)号: | CN110019152A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 李笠 | 申请(专利权)人: | 润泽科技发展有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 北京东方芊悦知识产权代理事务所(普通合伙) 11591 | 代理人: | 李岩 |
地址: | 065001 河北省廊坊市廊*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 清洗 大数据 数据清洗 集群 原子操作 并行执行 任务提交 高效率 转换 解析 配置 分析 | ||
本发明公开了一种大数据清洗方法,先对清洗流程进行配置定义,再对清洗流程进行解析并转换为Spark的原子操作。将清洗任务提交至大数据分析框架Spark集群后,由Spark集群进行数据清洗,因为每个清洗流程中的每个步骤都已转换为Spark的原子操作,所以在Spark集群中进行的各个清洗步骤均可以分布式并行执行,从而能够显著提高数据清洗的清洗速度,实现高速度和高效率的数据清洗,更加适用于当前的大数据环境。
技术领域
本发明属于数据技术领域,特别涉及一种大数据清洗方法。
背景技术
近年来,大数据如浪潮般席卷全球,深刻改变了人们的生活、工作和思维方式。业界通常用4个V来概括大数据的特征。一是数据体量巨大(Volume)。从TB级别,跃升到PB级别。二是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。三是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。四是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
随着互联网技术的不断发展,企业应用应用系统所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。百度目前的总数据量已超过1000PB,每天需要处理的网页数据达到10PB~100PB;淘宝累计的交易数据量高达100PB;Twitter每天发布超过2亿条消息;新浪微博每天发帖量达到8000万条;中国移动一个省的电话通联记录数据每月可达0.5PB~1PB;一个省会城市公安局道路车辆监控数据三年可达200亿条、总量120TB。据世界权威IT信息咨询分析公司IDC研究报告预测:全世界数据量未来10年将从2009年的0.8ZB增长到2020年的35ZB(1ZB=1000EB=1000000PB),10年将增长44倍,年均增长40%。而传统的交互式数据库,对如此庞大的数据处理显得力不从心。
在数据产生和挖掘的过程中,数据量呈大幅度增长。在增长的过程中,数据量的叠加造成了大量数据重复,存在许多垃圾数据或无用数据。另外,数据中存在不完整信息需要补全。为了提高效率和响应速度,需要根据不同业务方向和类型,从现有的大数据量中清洗出对应的数据。对于企业而言,在大数据量的业务需求中,客户的满意度取决于数据的完整度以及查看所需信息的响应速度。为了满足需求,需要进行数据规则分析,从而制定不同业务类型的清洗规则。对于不同的数据挖掘系统,都是针对特定的应用领域进行数据清洗,具体包括:检测并消除数据异常、检测并消除近似重复记录、对数据进行集成以及对特定领域数据进行清洗。然而,对于数据中存在大量缺失值的属性,通常采用的措施是直接删除,但是在有些系统进行抽取-转换-加载(ETL)处理时,不能直接处理大量的缺失值;而对于比较重要的属性,同样会存在少量的缺失值,需要将数据补充完整后进行一系列的数据挖掘。针对不完整的数据特征,在数据清洗过程中通常采取下面两种方式对数据进行填补:其一,将缺失的属性值用同一常数替换,例如“Unknown”。这种方式通常用于处理数据中存在大量缺失值属性的数据,先用一个替换值将空值进行约束替换,然后,如果处理后的数据对后期数据挖掘工作没有价值将会选择删除。其二,利用缺失值属性的最可能值填充缺失值。对于缺失比较重要属性的数据,事先对每个属性进行值统计,统计其值的分布状态和频率,对缺失值属性的所有遗漏的值均利用出现频率最高的值来填补。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于润泽科技发展有限公司,未经润泽科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710622180.0/2.html,转载请声明来源钻瓜专利网。