[发明专利]用于通过在柱状数据结构中提供数据记录而确定规则的方法有效
申请号: | 201280024809.7 | 申请日: | 2012-05-25 |
公开(公告)号: | CN103548024A | 公开(公告)日: | 2014-01-29 |
发明(设计)人: | M·伍斯特;E·黑希勒;M·奥博霍费尔;P·丹特雷桑格尔 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;李峥宇 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 通过 柱状 数据结构 提供 数据 记录 确定 规则 方法 | ||
技术领域
本发明涉及数据挖掘领域,并且更具体地,涉及规则确定的领域。
背景技术
数据挖掘是从大数据集提取模式(pattern)的过程。数据挖掘允许从为数众多的数据提取知识,由于该数据的结构和/或数量,因而该数据不适合于人类解译或者评估。数据挖掘中的一个问题在于,非假设驱动的方案(non-hypothesis driven)倾向于较慢,并且由此不能交互式使用。基于假设驱动的方案(例如,使用OLAP立方体)典型地需要较少计算能力,但是受限于假设的存在和使用。然而,通常,此类假设并非已知,而是作为数据挖掘的目标用于自动确定似是而非的假设,并且用于进一步基于所述假设来执行向下钻取分析。由于由非假设驱动的方案需要大量处理能力,针对实时地并且交互式的非假设驱动的数据挖掘方案存在需求,要求其能够处理大量数据。
US20100235335公开了一种支持高的吞吐量读取性能的提供列存储数据库系统的方法。US20050278286公开了一种在构造用于过滤数据库列的查询以及用于向用户显示经过滤的信息期间,提供数据挖掘接口的方法。现有技术的列式数据库系统不能提供新候选规则的交互式实时标识。例如,已知的列式数据库为Vertica、ParAccel、Infobright、Sybase IQ等。
发明内容
本发明的实施方式的一个目的在于,提供一种用于自动确定规则的改进的计算机实现的方法、数据处理系统和相应的计算机程序产品。所述目的通过独立权利要求的主题而实现。在从属权利要求中描述了实施方式的优势。
本发明的实施方式提供了一种适合于解决各种数据挖掘相关问题的实时交互分析。例如,可以快速标识在制造场合中导致问题的关键影响因素。可以标识共享给定行为的客户,并且可以标识并且在未来分析中跳过对于所选择属性值并不显著的信息。
“面向列的数据库”或者“列式数据库”是存储其内容的数据库,即,通过列而不是行来包括属性值配对的数据记录。数据库必须将其二维表转换为一维的字节序列,以便将其数据内容写入至RAM和/或硬盘驱动。面向行的数据库将行中的全部值序列化在一起,继而处理下一行中的值,以此类推。相比于面向行的数据库,面向列的数据库将列的全部值以串行方式一起写入到存储器,继而处理下一列的值,以此类推。如在此使用的“列式数据结构”是表数据结构,其具有所指派的列特定的属性(也被称作“列属性”)并且包括列条目的集合,由此每个列条目包括这样的数据值,该数据值对于所述列式数据结构是唯一的并且已经被指派给一个或者多个数据记录的相应“记录属性”。
在此使用的表达式“匹配属性值对”是指包括第一和第二属性值对并且返回布尔值“真”或者“假”响应的任何表达式。例如,此类比较可以包括:第一步,确定第一和第二属性值对是否相等;并且可以包括第二步,另外确定第一属性值对的值是否等于第二属性值的对。在所比较的第一和第二属性值对的属性以及值相等的情况下,返回肯定的匹配结果“真”。依赖于实施方式,匹配属性值对可以基于比特矢量的重叠或者其他数据结构。
“掩码(mask)数据结构”是与列式数据结构具有相同结构的数据结构。掩码数据结构具有所指派的一个列式属性,并且可以包括一个或者多个列条目,每个列条目包括数据值但没有计数信息。通过将掩码数据结构与具有所指派相同列属性的列式数据结构求交(intersect),可以确定包括匹配于掩码数据结构中所包括的值及其特定列式属性的属性值对。
在此使用的术语“规则”涵盖包括源属性值对和目的属性值对的数据结构。另外,规则可以包括指示源属性值与所评估数据集内的目的属性值一起出现的频率的同现(cooccurrence)计数。包括同现计数的规则由此可以指示特定属性值对,即源属性值对与感兴趣的另一属性值对(即,目的属性值对)同现的频率如何。通过评估数据记录集合来自动提取具有特定同现计数的规则的任务由此被认为是用于提取相关属性值对的数据挖掘任务。
术语“机器可读介质”应当被认为包括单介质或者多介质(例如,集中式的或者分布式数据库,和/或相关联的高速缓存与服务器),其存储数据和/或计算机可解译的指令。术语“计算机可读非暂态存储介质”由此应当被认为包括但不限于,固态存储器、光学和磁性介质等,诸如但不限于包括软盘、光盘、CD-ROM、和磁光盘的任何类型的磁盘、只读存储器(ROM)、随机访问存储器(RAM)、可擦除可编程只读存储器(EPROM或者闪存)、光纤、磁性或者光学卡、或者适合于存储电子指令的任何类型的介质。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280024809.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:制造用于将甲醇转化成烯烃的沸石基催化剂的改进方法
- 下一篇:木制球拍