[发明专利]一种数据一致性问题的发现修正方法及系统在审
申请号: | 201710610966.0 | 申请日: | 2017-07-25 |
公开(公告)号: | CN107506384A | 公开(公告)日: | 2017-12-22 |
发明(设计)人: | 郑树森 | 申请(专利权)人: | 北京供销科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京航信高科知识产权代理事务所(普通合伙)11526 | 代理人: | 高原 |
地址: | 100081 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据一致性 问题 发现 修正 方法 系统 | ||
技术领域
本发明涉及数据采集和分析技术领域,特别是涉及一种数据一致性问题的发现修正方法及数据一致性问题的发现修正系统。
背景技术
大数据采集处理一般都会涉及多个环节的处理过程,比如数据接收、缓存、数据清洗、去重、数据增强、数据统计分析等。因此在实际应用中,经常由于各种原因会出现数据丢失或重复的现象。因数据量巨大(每秒钟处理上百万-几千万条数据),出现异常问题时,很难定位异常环节和找出并恢复异常数据。
目前有很多理论研究并实现了数据一致性保证技术,比如分布式事务处理方案、单个处理单元实现异常重试操作(要实现多次重试的幂等性)。但是在异常数据发现和恢复方面的理论研究还有很大空白。通常的处理方法有:
1、通过业务统计信息的波动异常表现发现丢失或重复数据。比如某天的统计数据的波形图和预测值差异很大。
2、通过抽查样本数据,发现丢失数据的现象。
3、查找异常环节时,通常的处理方法是搭建一套类似的测试环境,模拟线上操作,先模拟采集网络日志,确认生成的文件是否有数据丢失,依次检查数据清洗环节(丢弃的数据+输出的数据是否和文件中数据一致)、数据缓存环节是否丢失数据...,挨个排查数据。这种处理方式需要各个环节的负责人员配合才能完成,并且很多情况下,线上环境数据量大、影响因素多的原因不能重现问题。
4、数据修复时,因不能幂等操作,或者无法找到异常数据的来源(比如可以统计出丢失了多少条数据,但不知道这些数据来源于哪些原始文件),常常导致数据的不可修复。
因此,急需有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。
发明内容
本发明的目的在于提供一种数据一致性问题的发现修正方法来克服或至少减轻现有技术的至少一个上述缺陷。
为实现上述目的,本申请提供了一种数据一致性问题的发现修正方法,所述数据一致性问题的发现修正方法包括如下步骤:步骤1:采集待检验数据,并将待检验数据保存成文件形式;步骤2:为保存成文件形式的待检验数据增加第一标记;步骤3:将增加第一标记的待检验数据录入分布式存储系统,并检验录入的数据与待检验数据是否对应以及对增加第一标记的待检验数据通过第一维度信息进行统计分析,并判断统计分析结果是否正确;步骤4:若所述检验录入的数据与待检验数据对应且统计分析结果正确,则结束;若所述检验录入的数据与待检验数据对应而统计分析结果错误,则从分布式存储中获取数据进行重新分析,直至所述检验录入的数据与待检验数据对应且统计分析结果正确。
优选地,所述第一标记为:为所述待检验数据增加文件名、行号属性,其中,行号按预设规律递增,行id包括文件名以及行号。
优选地,所述检验录入的数据与待检验数据是否对应具体为:判断录入至分布式存储系统中的数据的总行数与待检验数据的总行数是否一致,若是,则判断检验录入的数据与待检验数据对应;若否,则进行下一步;根据所述预设规律,在录入的数据中找到缺失或重复的行号,并获取异常数据信息。
优选地,所述分布式存储系统包括hbase、ES、HDFS;
当录入多个分布式存储系统中时,检验每一个分布式存储系统中录入的数据与待检验数据是否对应。
优选地,所述异常数据信息包括:
文件名、总行数、录入分布式存储系统中的总行数、分布式存储系统中的缺失行数以及是否进行异常标记。
优选地,所述步骤3根据需要,能够预设开始时间点以及录入范围。
本申请还提供了一种数据一致性问题的发现修正系统,所述数据一致性问题的发现修正系统包括:采集模块,所述采集模块用于采集待检验数据,并将待检验数据保存成文件形式;标记增加模块,所述标记增加模块用于为保存成文件形式的待检验数据增加第一标记;录入模块,所述录入模块用于将增加第一标记的待检验数据录入分布式存储系统;数据判断模块,所述数据判断模块用于检验录入的数据与待检验数据是否对应;统计分析判断模块,所述统计分析判断模块用于对增加第一标记的待检验数据通过第一维度信息进行统计分析,并判断统计分析结果是否正确;处理模块,所述处理模块用于根据数据判断模块以及统计分析判断模块传递的结果进行处理;若所述检验录入的数据与待检验数据对应且统计分析结果正确,则结束;若所述检验录入的数据与待检验数据对应而统计分析结果错误,则从分布式存储中获取数据进行重新分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京供销科技有限公司,未经北京供销科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710610966.0/2.html,转载请声明来源钻瓜专利网。