[发明专利]发现数据规则的方法和系统有效
申请号: | 200710186779.0 | 申请日: | 2007-11-16 |
公开(公告)号: | CN101201844A | 公开(公告)日: | 2008-06-18 |
发明(设计)人: | 扬妮克·赛利特;玛丽·A·罗思;布莱尼·钱德;哈拉尔德·C·史密斯 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所 | 代理人: | 黄小临 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 发现 数据 规则 方法 系统 | ||
技术领域
本发明涉及用于使用数据挖掘(mining)算法来发现数据规则的方法、系统和产品。
背景技术
可通过规则评估引擎应用数据规则来确定具有偏离规则所期望的值的列或字段值的数据记录,来处理数据库中的数据记录。在现有技术中,通过视觉上首先对数据进行分析或者使用简档工具来获得完全形成的记录的模式(pattern)的理解,用户手动地对数据规则进行编码。接着,用户建立逻辑表达式,其定义一组规则,以描述该组中的记录的正常特性。然后,针对数据组重复地执行这些规则,以标记出不满足数据规则所指定的条件的记录,并报告不满足随时间的速率。
用户可使用规则编辑器用户界面来创建新数据规则或修改现有规则。可以用规则语言来表达规则,如BASIC或结构化查询语言(SQL)。然后,用户可以用规则语言或以公用规则格式将规则保存在规则库中。然后,用户可从规则库中选择规则和记录的数据组,以提供给规则评估引擎,从而针对所选的数据记录来执行所选规则,以验证数据,捕捉结果,并向用户显示结果。
开发数据规则可能需要大量的用户时间、工作和技能,以分析数据中的模式,尤其是对于具有数百列的上百万记录的大数据组。为此原因,数据用户一般不开发和部署规则,直到坏数据记录导致可识别的业务问题或挫折之后。由此,经常在经历问题之后才反应性地定义数据规则,并且可能将数据规则定制为针对上次经历的问题,而不是可能随着数据记录而在将来出现的问题。
本领域中存在对提供改进的用于生成和使用数据规则的技术的需求。
发明内容
所提供的是使用数据挖掘算法来发现数据规则的方法、系统和产品。处理包括多个记录的数据组以生成用于该数据组的数据规则,其中每个记录具有包括多个字段的记录格式,每个规则基于至少一个其它字段中的至少一个预测值条件而提供一个字段的预测条件。向用户界面提供所生成的数据规则,以使得用户能够编辑所生成的数据规则。将数据规则存储在规则库中,以可用于验证具有该记录格式的数据组。
在另一实施例中,将所生成的数据规则应用于数据组,以识别不满足规则的记录,并且向用户界面展示所识别的记录,以供用户在编辑所生成的数据规则时进行检查。
在另一实施例中,从所述用户界面接收对所生成的数据规则的用户修改,并且生成包括对所生成的数据规则的用户修改的、用户认可的数据规则组,其中该用户认可的数据规则组被存储在规则库中。
在另一实施例中,处理数据组包括:采用数据挖掘技术来生成数据规则,其中所述数据挖掘技术是包括关联规则和树分类的数据挖掘技术的集合的一部分。
在另一实施例中,处理数据组以生成数据规则包括:将第一数据挖掘算法应用于数据组以生成第一组数据规则;将第二数据挖掘算法应用于数据组以生成第二组数据规则;以及,其中向用户界面提供所生成的数据规则包括:将第一组数据规则和第二组数据规则提供给用户界面,以供用户进行检查。
在另一实施例中,识别第一组数据规则和第二组数据规则中冗余的规则;以及在用户界面中向用户展示表示冗余数据规则的信息,以使得用户能够修改规则以移除冗余数据规则。
在另一实施例中,第一数据挖掘算法使用关联规则来确定数据规则,而第二数据挖掘算法使用树分类数据挖掘算法。
在另一实施例中,第一组数据规则和第二组数据规则提供不同规则语言格式的规则。将第一组数据规则和第二组数据规则转换为公用规则语言格式,以存储在库中。
在另一实施例中,被提供给用户界面并存储在库中的数据规则满足已定义的置信度级别,该已定义的置信度级别表示至少一个字段的至少一个预测值条件推断出一个字段的预测条件的最小可能性。
在另一实施例中,被提供给用户界面并存储在库中的数据规则满足以下中的至少一个:最小支持度级别、最小置信度级别、最小提升级别、以及最大规则长度,并且经由所述用户界面而输入。
在另一实施例中,处理数据组还包括:离散化数值字段,以将该数值字段转换为值的范围,其中根据离散化的数值字段来生成数据规则。
在另一实施例中,数据组具有多个列,并且生成数据规则包括:生成包括节点的每个列的树分类模型,其中每个节点提供用于产生该列中的预测条件的预测性条件;以及为每个树分类模型确定推断出包括满足支持度和置信度级别的预测性和预测条件的数据规则的节点。
附图说明
图1图解了计算环境的实施例。
图2和图4图解了被执行来生成数据规则的操作的实施例。
图3图解了用来将规则应用于数据记录的操作的实施例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710186779.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置