[发明专利]发现数据规则的方法和系统有效

专利信息
申请号: 200710186779.0 申请日: 2007-11-16
公开(公告)号: CN101201844A 公开(公告)日: 2008-06-18
发明(设计)人: 扬妮克·赛利特;玛丽·A·罗思;布莱尼·钱德;哈拉尔德·C·史密斯 申请(专利权)人: 国际商业机器公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市柳沈律师事务所 代理人: 黄小临
地址: 美国纽*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 发现 数据 规则 方法 系统
【说明书】:

技术领域

发明涉及用于使用数据挖掘(mining)算法来发现数据规则的方法、系统和产品。

背景技术

可通过规则评估引擎应用数据规则来确定具有偏离规则所期望的值的列或字段值的数据记录,来处理数据库中的数据记录。在现有技术中,通过视觉上首先对数据进行分析或者使用简档工具来获得完全形成的记录的模式(pattern)的理解,用户手动地对数据规则进行编码。接着,用户建立逻辑表达式,其定义一组规则,以描述该组中的记录的正常特性。然后,针对数据组重复地执行这些规则,以标记出不满足数据规则所指定的条件的记录,并报告不满足随时间的速率。

用户可使用规则编辑器用户界面来创建新数据规则或修改现有规则。可以用规则语言来表达规则,如BASIC或结构化查询语言(SQL)。然后,用户可以用规则语言或以公用规则格式将规则保存在规则库中。然后,用户可从规则库中选择规则和记录的数据组,以提供给规则评估引擎,从而针对所选的数据记录来执行所选规则,以验证数据,捕捉结果,并向用户显示结果。

开发数据规则可能需要大量的用户时间、工作和技能,以分析数据中的模式,尤其是对于具有数百列的上百万记录的大数据组。为此原因,数据用户一般不开发和部署规则,直到坏数据记录导致可识别的业务问题或挫折之后。由此,经常在经历问题之后才反应性地定义数据规则,并且可能将数据规则定制为针对上次经历的问题,而不是可能随着数据记录而在将来出现的问题。

本领域中存在对提供改进的用于生成和使用数据规则的技术的需求。

发明内容

所提供的是使用数据挖掘算法来发现数据规则的方法、系统和产品。处理包括多个记录的数据组以生成用于该数据组的数据规则,其中每个记录具有包括多个字段的记录格式,每个规则基于至少一个其它字段中的至少一个预测值条件而提供一个字段的预测条件。向用户界面提供所生成的数据规则,以使得用户能够编辑所生成的数据规则。将数据规则存储在规则库中,以可用于验证具有该记录格式的数据组。

在另一实施例中,将所生成的数据规则应用于数据组,以识别不满足规则的记录,并且向用户界面展示所识别的记录,以供用户在编辑所生成的数据规则时进行检查。

在另一实施例中,从所述用户界面接收对所生成的数据规则的用户修改,并且生成包括对所生成的数据规则的用户修改的、用户认可的数据规则组,其中该用户认可的数据规则组被存储在规则库中。

在另一实施例中,处理数据组包括:采用数据挖掘技术来生成数据规则,其中所述数据挖掘技术是包括关联规则和树分类的数据挖掘技术的集合的一部分。

在另一实施例中,处理数据组以生成数据规则包括:将第一数据挖掘算法应用于数据组以生成第一组数据规则;将第二数据挖掘算法应用于数据组以生成第二组数据规则;以及,其中向用户界面提供所生成的数据规则包括:将第一组数据规则和第二组数据规则提供给用户界面,以供用户进行检查。

在另一实施例中,识别第一组数据规则和第二组数据规则中冗余的规则;以及在用户界面中向用户展示表示冗余数据规则的信息,以使得用户能够修改规则以移除冗余数据规则。

在另一实施例中,第一数据挖掘算法使用关联规则来确定数据规则,而第二数据挖掘算法使用树分类数据挖掘算法。

在另一实施例中,第一组数据规则和第二组数据规则提供不同规则语言格式的规则。将第一组数据规则和第二组数据规则转换为公用规则语言格式,以存储在库中。

在另一实施例中,被提供给用户界面并存储在库中的数据规则满足已定义的置信度级别,该已定义的置信度级别表示至少一个字段的至少一个预测值条件推断出一个字段的预测条件的最小可能性。

在另一实施例中,被提供给用户界面并存储在库中的数据规则满足以下中的至少一个:最小支持度级别、最小置信度级别、最小提升级别、以及最大规则长度,并且经由所述用户界面而输入。

在另一实施例中,处理数据组还包括:离散化数值字段,以将该数值字段转换为值的范围,其中根据离散化的数值字段来生成数据规则。

在另一实施例中,数据组具有多个列,并且生成数据规则包括:生成包括节点的每个列的树分类模型,其中每个节点提供用于产生该列中的预测条件的预测性条件;以及为每个树分类模型确定推断出包括满足支持度和置信度级别的预测性和预测条件的数据规则的节点。

附图说明

图1图解了计算环境的实施例。

图2和图4图解了被执行来生成数据规则的操作的实施例。

图3图解了用来将规则应用于数据记录的操作的实施例。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710186779.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top