[发明专利]一种基于数据压缩的改进的Apriori算法有效

申请号：	201110430528.9	申请日：	2011-12-20
公开（公告）号：	CN103176976A	公开（公告）日：	2013-06-26
发明（设计）人：	高海洋;沈强;张轩溢;唐朝伟;赵志军;慈松;唐晖	申请（专利权）人：	中国科学院声学研究所;无锡中科智能信息处理研发中心有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京法思腾知识产权代理有限公司 11318	代理人：	杨小蓉;高宇
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据压缩改进 apriori 算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及对一种Apriori算法的改进算法。

背景技术

关联规则挖掘用来发现大量数据中项集之间的有趣的关联或相关联系，它在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系，找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。

Agrawal等于1994年提出了一个挖掘顾客交易数据库中项集间的关联规则的重要方法Apriori，其核心是基于两阶段频繁集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。

该算法的基本思想是：首先找出所有的频繁项集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频繁集产生强关联规则，这些规则必须满足最小支持度和最小可信度。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频繁项集，使用了递推的方法。Apriori的总体性能由第一步决定，第二步相对容易实现。

传统的Apriori算法具有两个主要的缺陷：

1.会产生大量的候选集；

2.会重复地扫描数据库；

为解决上述问题，本发明利用数据库中数据的特点，提出一种基于数据压缩的Apriori算法的改进算法，同时在候选集的选择上进行预先判断，以减少所产生的候选集的数目。

本发明的再一目的是减少扫描数据库的次数，以提高查询的速度。

发明概述

为了实现上述目的，本发明采用了压缩数据库的办法。设有由m个项{I₁，I₂...I_m}组成的数据集合，数据库中的每一项均由该集合中的元素组成，即T_k＝{I₁，I₂...I_j}，数据库共包含N条事务记录，数据库中所有组合的总数为：

M=Cm1+Cm2+Cm3+...+Cmk+...+Cmm=2m-1]]>

当N＞M时，对数据库进行压缩，提取出数据库中的有效信息，生成数据库项和该数据项数量的映射表DB_Map_Tbale，映射函数为H(key)。这里引入转换函数f(X)，F(X)的作用是将数据库项转换为DB_Map_Tbale中该项对应的键值。如：

对于T_k＝{I₁，I₂...I_j}

F(T_k)＝key_k

进一步，对DB_Map_Tbale中内容排序，将该映射表DB_Map_Table中的所有健值对<key，value>按key的大小升序排列，即KEY＝{key₁，key₂，...key_m}，key₁＜key₂＜...＜key_m。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;无锡中科智能信息处理研发中心有限公司，未经中国科学院声学研究所;无锡中科智能信息处理研发中心有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110430528.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种超细光缆
下一篇：全部用机械锚固加强筋无机改性不燃泡沫板的外保温墙体

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于数据压缩的改进的Apriori算法有效

专利文献下载