[发明专利]一种清洗重复数据的方法、系统、设备及介质在审
申请号: | 202010419288.1 | 申请日: | 2020-05-18 |
公开(公告)号: | CN111597178A | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 刘国梁 | 申请(专利权)人: | 山东浪潮通软信息科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/242 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 张涛 |
地址: | 250100 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 清洗 重复 数据 方法 系统 设备 介质 | ||
本发明公开了一种清洗重复数据的方法、系统、设备和存储介质,方法包括:将待查询数据进行拆分,根据拆分后的数据中的多个不连续的关键字在数据库中进行匹配以得到近邻数据集;计算近邻数据集中的各个数据与待查询数据的相似度,并判断近邻数据集中是否存在相似度大于阈值的数据;响应于近邻数据集中存在相似度大于阈值的数据,对相似度大于阈值的数据进行拆分,并将拆分后的每个词组与待查询数据进行匹配;以及响应于相似度大于阈值的数据的每个词组均能匹配成功,将数据删除。本发明提出的清洗重复数据的方法、系统、设备及介质通过关键属性判断待查询数据的近邻,在近邻中进行相似度校验,既能提升效率,又能快速精准定位相似或重复数据。
技术领域
本发明涉及数据处理领域,更具体地,特别是指一种清洗重复数据的方法、系统、计算机设备及可读介质。
背景技术
近几年,随着硬件设施与软件技术不断的推陈出新,以及数据分析在国家和企业发展中起到的作用越来越大,国家政府和企业越来越重视数据的分析与处理。但是在技术发展的同时,大量的数据分别存储在不同的部门或子公司内,形成了信息壁垒,因此对数据的统一管理成为一个急切需要解决的问题。尤其是在大型企业使用ERP产品中,集团与子公司存在一套甚至多套信息系统,如何打通这些信息壁垒成为企业数据化的重要一步。
借助GSP框架研发的主数据产品,成为打破数据壁垒的关键一环,借助GSP框架,主数据可以快速根据实际场景定义出一套适配企业要求的数据管理系统。但是,数据清洗仍然是主数据中关键的一环,各个业务系统的数据要形成主数据,必须经过数据清洗,去除脏数据和重复数据。例如:在不同的业务系统中,“中国国家铁路集团有限公司”这条数据,可能会被叫做“中国铁路集团”、“中铁集团”等多种叫法,由于各个信息系统是独立运行维护的,其主键也很难保持一致。因此,在获取业务系统数据形成主数据前,通过数据清洗,去除相似或重复数据尤为必要。
发明内容
有鉴于此,本发明实施例的目的在于提出一种清洗重复数据的方法、系统、计算机设备及计算机可读存储介质,通过关键属性判断待查询数据的近邻,在近邻中进行相似度校验,既能提升效率,又能快速精准定位相似或重复数据,在不增加用户操作难度的基础上,提升了数据清洗的效率,更便捷的查询出相似或重复数据。
基于上述目的,本发明实施例的一方面提供了一种清洗重复数据的方法,包括如下步骤:将待查询数据进行拆分,根据拆分后的数据中的多个不连续的关键字在数据库中进行匹配以得到近邻数据集;计算所述近邻数据集中的各个数据与待查询数据的相似度,并判断所述近邻数据集中是否存在相似度大于阈值的数据;响应于所述近邻数据集中存在相似度大于阈值的数据,对相似度大于阈值的数据进行拆分,并将拆分后的每个词组与所述待查询数据进行匹配;以及响应于相似度大于阈值的所述数据的每个词组均能匹配成功,将所述数据删除。
在一些实施方式中,还包括:响应于所述近邻数据集中不存在相似度大于阈值的数据,计算所述数据库中的所有数据的相似度。
在一些实施方式中,所述判断所述近邻数据集中是否存在相似度大于阈值的数据还包括:按照所述近邻数据集中的各个数据的相似度从大到小进行排序,并判断排在首位的数据的相似度是否大于阈值。
在一些实施方式中,所述将拆分后的每个词组与所述待查询数据进行匹配包括:将拆分后的每个词组与所述待查询数据的词组进行匹配;以及响应于未匹配成功,将拆分后的每个词组拆分成基本单元,并将所述基本单元与所述待查询数据进行匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮通软信息科技有限公司,未经山东浪潮通软信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010419288.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置