[发明专利]一种基于业务端的数据清洗方法有效
申请号: | 201910863837.1 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110555019B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 周道华;杨陈;曾俊;洪江;彭容;黄维;李武鸿;刘瑞东;张明娟;许江泽;吴婷婷;付志华;刘杰;詹飞;程武彬;杨眉 | 申请(专利权)人: | 成都中科大旗软件股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 成都华风专利事务所(普通合伙) 51223 | 代理人: | 张巨箭 |
地址: | 610000 四川省成都市中国(四川)自由贸易试*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 业务 数据 清洗 方法 | ||
本发明公开了一种基于业务端的数据清洗方法,包括:业务端将本地数据转换为对应的标签字段,并形成标签字段组;将标签字段组上传至服务端;服务端存储有若干标准标签字段与对应数据清洗算法的关联关系;服务端将上传得到的标签字段组与所述标准标签字段进行匹配,得到匹配度最高的标准标签字段;服务端将与匹配度最高的标准标签字段关联的数据清洗算法下发至业务端;业务端利用得到的数据清洗算法对本地数据进行清洗。本发明将服务端的数据清洗下放至业务端,利用业务端的闲置资源进行清洗,节约服务端成本;同时,在该示例性实施例中,利用数据对应的标签字段进行匹配的方式得到最合适本业务端的数据清洗算法,从而得到最适配的数据清洗算法。
技术领域
本发明涉及一种基于业务端的数据清洗方法。
背景技术
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。
然而现有的大数据的数据清洗和数据处理通常在服务端中进行处理,随着数据量增大,服务端的建立和运营成本都越来越高,如果能将其中一个步骤(例如数据清洗)下放至业务端,则可以在一定程度上减少服务端的成本。此时需要在业务端安装数据清理的程序,但是对于不同领域的数据,若均采用相同的程序则会使得清洗效果不好。
公开于本发明背景技术部分的信息仅仅旨在加深对本公开的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于业务端的数据清洗方法。
本发明的目的是通过以下技术方案来实现的:
本发明提供一种基于业务端的数据清洗方法,包括:
业务端将本地数据转换为对应的标签字段,并形成标签字段组;
将标签字段组上传至服务端;
服务端存储有若干标准标签字段与对应数据清洗算法的关联关系;
服务端将上传得到的标签字段组与所述标准标签字段进行匹配,得到匹配度最高的标准标签字段;
服务端将与匹配度最高的标准标签字段关联的数据清洗算法下发至业务端;
业务端利用得到的数据清洗算法对本地数据进行清洗。
进一步地,所述业务端将标签字段组上传至服务端时,将业务端类型一并上传至服务器;
所述服务端存储有若干标准标签字段与对应数据清洗算法的关联关系,替换为:
所述服务端存储有若干业务端类型、标准标签字段与对应数据清洗算法的关联关系。
进一步地,所述的标准标签字段与对应数据清洗算法的关联关系的获取方式,具体包括:
获取若干业务端数据,所述业务端数据包括标签字段;
根据实际需求,选择多个标签字段组成数据字典,以形成标准标签字段;
对标准标签字段的数据采用若干数据清洗算法进行清洗;
将清洗效果最好的数据清洗算法与对应的标准标签字段进行关联。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都中科大旗软件股份有限公司,未经成都中科大旗软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910863837.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置