[发明专利]数据处理方法、装置、电子设备及存储介质在审
申请号: | 202110907660.8 | 申请日: | 2021-08-09 |
公开(公告)号: | CN113590605A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 曹逊 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06K9/62 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 关志琨 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 | ||
本公开关于一种数据处理方法、装置、电子设备及存储介质,该方法包括:获取待处理的数据集合中存在冲突的至少两个目标数据元组;数据集合中包含多个数据元组;确定各目标数据元组与数据集合中其他数据元组的相似度;根据各目标数据元组的相似度,从至少两个目标数据元组中确定出异常数据元组,并从数据集合中删除异常数据元组。本公开的方案,基于相似度对数据记录进行准确删除,当存在至少两个具有冲突的数据记录时,通过比较其对应的相似度,优先将存在异常可能性更高的数据记录删除,有效提高数据修复的准确性和修复质量。
技术领域
本公开涉及数据修复技术,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
随着移动终端技术和自媒体领域的高速发展,数据爆炸式增长。当数据中存在冲突数据时,将大大降低数据应用和分析的可靠性。因此需对数据进行修复和清洗。
现有的数据修复方法,可以在检测多条数据记录之间所存在的冲突后,基于最小修复的原则获取最少个数的错误数据记录,通过删除这些错误数据记录而保证余下的数据不存在冲突。
然而,在上述方法中,被删除的错误数据记录可能并非应当删除的数据记录,存在修复质量差的问题。
发明内容
本公开提供一种数据处理方法、装置、电子设备及存储介质,以至少解决相关技术中修复质量差的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种数据处理方法,包括:
获取待处理的数据集合中存在冲突的至少两个目标数据元组;所述数据集合中包含多个数据元组;
确定各目标数据元组与所述数据集合中其他数据元组的相似度;
根据各目标数据元组的所述相似度,从所述至少两个目标数据元组中确定出异常数据元组,并从所述数据集合中删除所述异常数据元组。
在一示例性实施例中,每个数据元组中包含第一类数据和第二类数据,所述获取待处理的数据集合中存在冲突的至少两个目标数据元组,包括:
获取预设的校验规则;所述校验规则表征第一类数据与第二类数据之间应满足的约束关系;
获取待处理的数据集合中相对于所述校验规则存在冲突的至少两个数据元组,作为至少两个目标数据元组;所述至少两个目标数据元组中的第一类数据相同,第二类数据不同。
在一示例性实施例中,所述确定各目标数据元组与所述数据集合中其他数据元组的相似度,包括:
针对各目标数据元组,获取该目标数据元组与所述数据集合中各个其他数据元组对应的数组距离;
基于该目标数据元组与多个其他数据元组对应的多个数组距离,确定该目标数据元组与所述数据集合中其他数据元组的相似度。
在一示例性实施例中,所述基于该目标数据元组与多个其他数据元组对应的多个数组距离,确定该目标数据元组与所述数据集合中其他数据元组的相似度,包括:
获取该目标数据元组与多个其他数据元组对应的多个数组距离中,距离值第K小的一个目标数组距离;K为大于零的自然数;
基于所述目标数组距离确定所述目标数据元组与所述数据集合中其他数据元组的相似度。
在一示例性实施例中,所述获取待处理的数据集合中存在冲突的至少两个目标数据元组,包括:
获取待处理的数据集合中的多对冲突元组对,每对冲突元组对中包含两个存在冲突的目标数据元组;
所述根据各目标数据元组的所述相似度,从所述至少两个目标数据元组中确定出异常数据元组,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110907660.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种预折包装纸设备
- 下一篇:一种妇产科人工破膜装置