[发明专利]数据清洗方法及装置在审
申请号: | 202010051037.2 | 申请日: | 2020-01-17 |
公开(公告)号: | CN111291029A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 胡云;龚健;李邱林;唐明辉;贾西贝 | 申请(专利权)人: | 深圳市华傲数据技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06Q50/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000 广东省深圳市龙华区龙*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 清洗 方法 装置 | ||
本发明提出一种数据清洗方法及装置,所述方法包括:接收来自多个对象的业务数据,所述业务数据包括多个信息项;依次对各信息项进行数据清洗,所述数据清洗包括:判断所述信息项是否属于预设的基于认定结果进行清洗的类型;若所述信息项属于预设的基于认定结果进行清洗的对象,则调用所述信息项对应的认定结果,并以所述认定结果作为所述信息项清洗后的数据;若所述信息项不属于预设的基于认定结果进行清洗的类型,则根据预设的多个数据清洗规则,依次对所述信息项进行清洗,得到所述信息项清洗后的数据。本发明实现对多个对象业务数据清洗实现统一的数据输出,解决多个对象数据冲突难以实现数据融合的问题。
技术领域清
本发明涉及数据处理领域,尤其涉及一种数据清洗方法及装置。
背景技术
政务数据采集目前存在如下特点:第一:数据采集难。政府的业务极其复杂,既有数十个直属部门,如公安局、卫计委、人社局、民政局、市场监管委、交通运输委、公积金中心等,还有对应若干区县级单位。这些委办局或机构对应有数十项权责清单和数十个核心系统,这些系统每天都能产生大量的电子化数据。另外,政府还能接入大量的外部数据,如用水、用电、用气、电信业、银行业相关的数据。除了结构化数据,在政府部门内部,有大量的非结构化数据,这些数据包含各种证照的电子件,图片,办公文档,视频,压缩文件等,此外在智慧城市建设过程中还还需要充分采集物联网数据,这些文件既要解决存储的问题,也要解决使用的问题。要提高政府部门的社会管理与城市治理能力,就必须提高对非结构化数据的存储、分析和计算能力,同时将各委办局的业务数据进行共享融合,利用数据辅助管理与决策。要将如此众多复杂的部门和业务数据整合到一起,形成一个统一的融合资源库,是一件极其困难的事情,政府部门急需行业解决方案来提高对政务数据的综合管控能力。第二:数据质控难,数据标准不一,数据质量差。政府部门下拥有较多的委办局,各委办局的业务系统基本属于分散建设,分散运营维护的情况,缺少政府层面的统一规划。国家层面虽然有相应的政务信息资源目录和数据元规范,但标准的建设相对滞后,标准的推广和执行也存在较大的问题,导致各委办局的业务系中对于政务数据的标准引用不统一,数据元定义不一致,加上数据采集录入环节的不规范,使得各委办局的数据质量较差,想要统一数据标准,规范数据质量困难重重。建设智慧城市,提高各委办局之间政务数据的融合共享,建立统一的数据标准和数据质量监控体系是重中之重,没有规范的质量监控和数据标准,政府部门收集上来的数据只会是杂乱无章的,无法起到政务数据应有的价值。建立城市级数据中心需要做好政务数据的数据标准管理和质量管理。第三:数据融合困难,政务数据来源多样。政府部门的业务庞杂,各委办局之间在对政务信息资源管理方面存在很多的重复性部分,例如关于公民、法人、房屋、空间地理等基础信息,不同的委办局都有相关的全部或部分数据,且各委办局之间的数据标准和数据定义都存在较大的差异,甚至同一个委办局的不同系统中对于同一对象的数据也有不同,政务信息资源存在多源多数的问题。如何在众多的数据来源中选择最准确、最合适的数据,极大地考验着政府部门对政务业务和政务数据的理解和处理方式。第四:数据实时采集难。目前政府数据治理项目建设如火如荼,但绝大多数数据治理的项目解决的都是历史数据的迁移与存储的问题,很难实时获取相关业务办理信息,而对实时数据获取的缺失会极大的影响政府行政效率。随着政府效率的提升,对数据的响应速度也随之提高。如网格巡查人员采集到事件,快速流转到融合库,通过简单的清洗融合,再关联到更多信息(如企业信息),再分发给网格处置人员,网格处理人员的处理动态更新后又流转到融合平台。这整个数据处理过程,通常都控制在1分钟以内,第五:数据应用困难。以往的政务信息系统或者政务类数据仓库项目重在进行单个部门的数据收集整合,重在进行内部数据的统计分析,不能很直观地让公民感受到政府部门行政事务办理的效率改善和服务质量的提升。公民在进行政务类业务办理时还是需要多跑腿,多准备材料,甚至还会遇到各政府部门之间互相推诿扯皮的情况,极大地消耗了公民的时间和精力。社会大众急切的希望政府部门之间的数据能互融共通,能让大众有更好的政务服务体验,政府部门也希望改善自身对政务数据的把控能力,挖掘政务数据更多的应用价值,促进政务数据公开共享,提高政府治理能力和服务水平。
因此,亟待提出一种数据清洗方法及装置,以解决多个对象数据冲突难以实现数据融合的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华傲数据技术有限公司,未经深圳市华傲数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010051037.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置