[发明专利]训练和使用具有关联规则模型的分类模型的方法有效
申请号: | 201080058074.0 | 申请日: | 2010-12-07 |
公开(公告)号: | CN102667775A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | T·博林格 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;张亚非 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 使用 具有 关联 规则 模型 分类 方法 | ||
背景技术
数据挖掘一般指用于从输入数据提取信息的数据驱动型方法。用于从输入数据提取信息的其它方法通常为假设驱动型,其中根据输入数据来证明一组假设为真实的或虚假的。
输入数据的量可为巨大的,且因此数据挖掘技术通常需要考虑如何有效地处理大量数据。考虑产品制造作为一个实例。其中,输入数据可包括与组件的产地及特征、在制造厂中对组件的处理、组件如何被组装在一起有关的各种数据片段。在制造上下文中的数据挖掘的目的可为解决与质量分析和质量保证有关的问题。数据挖掘可用于(例如)根本原因分析、用于制造厂内的预警系统,及用于减少保修索赔。作为第二实例,考虑各种信息技术系统。其中,数据挖掘可进一步用于入侵检测、系统监视及问题分析。数据挖掘亦具有各种其它用途,例如,在零售及服务中(其中可分析典型客户行为),及在医学及生命科学中用于寻找临床研究中的因果关系。
模式检测是一门数据挖掘学科(discipline)。输入数据可包括若干事务集合,其中每个事务包含一个项目集合。可附加地排序这些事务。排序可基于时间,但备选地,可定义任何排序。例如,可赋予每个事务一个序号。对于事务数据而言,关联规则为描述项目如何在事务内出现的模式。
考虑项目集合I={I1、I2、……、Im}。假设D为事务集合,其中每个事务T为属于I的项目集合。如果则事务T因此包含I中的项目集合A。关联规则为形式A=>B的蕴涵式(implication),其中且A∩B=φ;A称为规则主体(rule body)且B为规则标题(rule head)。如果D中包含A的事务中的c%亦包含B,则关联规则A=>B在事务集合D中以信任度c有效。换言之,信任度c为条件概率p(B|A),其中p(S)是发现S为D中的事务T的子集的概率。当D中s%的事务包含A∪B时,规则A=>B在事务集合D中具有支持度s。换言之,支持度s是在事务中出现集合A及集合B中的项目的并集的概率。规则的提升(lift)是规则信任度与预期信任度的商。规则的预期信任度是在以下假定下的信任度:在事务中规则标题项目与规则主体项目的出现在统计上彼此独立。其等于规则标题的支持度且表达了规则主体及规则标题中的项目之间的“吸引”程度。大于1的提升值意味项目彼此吸引,而小于1的值为排斥的指示。
关联规则挖掘的目标是准确地找到满足用户定义的准则的所有规则。用户可定义规则的最小支持度或信任度,因为对于一些应用而言非常罕见或松散地相关的事件可能不重要。用户亦可仅对特定项目感兴趣,且仅想要搜索包含这些感兴趣项目中的至少一个项目的模式。
已知的数据挖掘算法在某些情形中具有缺陷。取决于输入数据的量(在一些情况下多达数亿个直至数十亿个记录)及候选模式空间的大小,宽度优先搜索可为缓慢的,因为需要对原始数据源进行许多次扫描,且因为需要对照所有事务来评估每个候选模式。另一方面,深度优先搜索可由于大量输入数据而用完内存或(由于对照输入数据的大量评估)其可在输入数据被交换至磁盘时为缓慢的。另外,这些数据挖掘算法基于项目层级。由于很少可获得此类项目层级,所以必须首先确定项目层级。此类确定可为有缺陷的且可因此使算法的结果不被信任。
寻找用于预测分类“分类”值的分类模型为另一重要的数据挖掘问题。其实例包括预测客户是否将转向竞争者(例如,“流失预测”)、客户是否将对营销活动做出响应、产品(如汽车)是否将被准时、太迟或太早交付,或产品(如计算机芯片)是否有故障。为构建此类模型,将以历史数据开始,亦即,具有已知分类值的案例(例如,最近12个月的流失及非流失案例、测试营销活动的结果或具有交付时间值的生产数据)。可将这些历史数据收集于数据表中,所述数据表对于每个实体(如客户或产品)包含一个行,且具有用于分类值的一个列及用于实体的其它特性的若干列。
分类算法的任务是从这些其它列(例如,“自变量”)的值导出分类值(例如,“因变量”的值),这经常称为分类模型的训练。为了进行流失预测及为了预测客户是否对营销活动做出响应,除关于客户的人口数据(如年龄、婚姻状况或居住地)之外,历史数据还可包括关于他或她作为顾客的行为的信息。为预测产品交付延迟,可包括关于产品的信息,如特定特征及关于生产过程的细节。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080058074.0/2.html,转载请声明来源钻瓜专利网。