[发明专利]用于检测数据源中的偏差的方法、设备和计算机程序有效
申请号: | 201380057211.2 | 申请日: | 2013-09-05 |
公开(公告)号: | CN104756113B | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 帕特里克·古林;安德列斯·托斯滕森 | 申请(专利权)人: | 瑞典爱立信有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 穆童 |
地址: | 瑞典斯*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 检测 数据源 中的 偏差 方法 设备 计算机 程序 | ||
技术领域
本公开大体上涉及用于检测数据源中的偏差的方法、设备和计算机程序。
背景技术
在大多数企业(例如,移动通信运营商)中,信息遍布于很多不同的数据源。存储在不同源中的数据是重复的或者至少具有相同含义的情况不在少数。当预期为相同的数据由于某种原因而不同时,可能出现不期望的问题,例如,在移动通信网络中,移动电话的用户不能打电话、或者运营商不能对顾客进行计费等。因此,不一致的数据可能引起很多麻烦。根据申请人的调查,平均移动通信运营商的收入流失约为2%,并且该收入流失的很大一部分是不一致数据(其导致通信使用的含糊不清的登记,因此不能对通信使用进行计费)的直接或间接结果。
如今,市场上存在对数据源进行扫描以寻找数据不一致或数据偏差的工具。此类工具的一个常见问题是必须向工具指示在数据源中寻找什么。因为每一个数据系统包括这样的数据源,即,其中存储的数据具有其自己的数据结构,因此,必须针对要扫描的每一个数据源组合向工具指示。即,工具需要关于数据源的数据模型以及数据模型如何相互相关的指示。然而,不同的系统或源可能来自不同的供应商,并且可能难以有权访问描述数据模型的文件。另一个问题是数据模型通常很复杂,使得即使某人已知或有权访问一个数据模型的描述,也难以分辨它如何与另一数据模型相关。另一个问题是,为了寻找数据偏差,可能还必须理解什么被认为是偏差以及什么不被认为是偏差。
此外,数据源中的数据可以随着时间改变。在这些情况下,被认为是数据偏差的内容可能实时改变。
因此,需要用于有效地检测不同数据源的数据之间的数据偏差的工具。
发明内容
本发明的目的是解决上文列出的问题中的至少一些。可以通过使用所附独立权利要求中定义的方法和设备来实现这些和其他目的。
根据第一方面,提供了一种用于检测数据源中的偏差的方法,每一个数据源包括多个数据公布,每一个数据公布包括多个数据值。所述方法包括:标识数据公布对,每一对包括第一数据源中的第一数据公布和第二数据源中的第二数据公布,其中,针对数据公布对中的第一数据公布和第二数据公布的唯一匹配数据属性,数据值的子集相等。此外,所述方法还包括:确定所述多个数据公布对中的每一个数据公布对中的第一数据公布的数据值和第二数据公布的数据值的多个组合中的个体组合是否满足多个关系模式算法中的个体关系模式算法。此外,所述方法还包括:确定针对所述多个数据公布对所确定的关系模式算法的满足的符合性水平;以及基于所确定的符合性水平,从所述多个关系模式算法中选择关系模式算法。所述方法还包括:关于所选择的关系模式算法,分析个体数据公布对的数据值组合,以检测个体数据公布对中不符合所选择的关系模式算法的数据值组合,不符合指示个体数据公布对的数据的可能偏差。
通过这种方法,可以自动地检测具有可比较的数据公布的两个数据源的数据之间的可能偏差。例如,可以自动地检测两个可比较数据源中的任意一个的数据的错误。如果检测到这种数据错误或数据值错误,则可以容易地减轻这些错误,并且可以避免由于这些错误引起的问题。可能的使用情况是针对移动通信运营商的相当大的数据库。在该使用情况下,可以避免的问题的示例是如果在两个相当大的数据库中存在偏差,则可能不清楚向谁收取拨打的电话的费用,这导致运营商收入流失。此外,该方法使得可以从多个关系模式算法中选择适合于个体数据值组合的关系的关系模式算法,这导致寻找偏差的准确度提高。
根据第二方面,提供了一种用于检测数据源中的偏差的设备,每一个数据源包括多个数据公布,每一个数据公布包括多个数据值。所述设备包括:标识单元,用于标识数据公布对,每一对包括第一数据源中的第一数据公布和第二数据源中的第二数据公布,其中,针对数据公布对中的第一数据公布和第二数据公布的唯一匹配数据属性,数据值的子集相等。此外,所述设备包括:确定单元,用于确定所述多个数据公布对中的每一个数据公布对中的第一数据公布的数据值和第二数据公布的数据值的多个组合中的个体组合是否满足多个关系模式算法中的个体关系模式算法,以及用于确定针对所述多个数据公布对所确定的关系模式算法的满足的符合性水平。所述设备还包括:选择单元,用于基于所确定的符合性水平,从所述多个关系模式算法中选择关系模式算法;以及分析单元,用于关于所选择的关系模式算法,分析个体数据公布对的数据值组合,以检测个体数据公布对中不符合所选择的关系模式算法的数据值组合,不符合指示个体数据公布对的数据的可能偏差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于瑞典爱立信有限公司,未经瑞典爱立信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380057211.2/2.html,转载请声明来源钻瓜专利网。