[发明专利]一种基于数据压缩的改进的Apriori算法有效
申请号: | 201110430528.9 | 申请日: | 2011-12-20 |
公开(公告)号: | CN103176976A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 高海洋;沈强;张轩溢;唐朝伟;赵志军;慈松;唐晖 | 申请(专利权)人: | 中国科学院声学研究所;无锡中科智能信息处理研发中心有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京法思腾知识产权代理有限公司 11318 | 代理人: | 杨小蓉;高宇 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据压缩 改进 apriori 算法 | ||
技术领域
本发明涉及对一种Apriori算法的改进算法。
背景技术
关联规则挖掘用来发现大量数据中项集之间的有趣的关联或相关联系,它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。
Agrawal等于1994年提出了一个挖掘顾客交易数据库中项集间的关联规则的重要方法Apriori,其核心是基于两阶段频繁集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。
该算法的基本思想是:首先找出所有的频繁项集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频繁集产生强关联规则,这些规则必须满足最小支持度和最小可信度。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频繁项集,使用了递推的方法。Apriori的总体性能由第一步决定,第二步相对容易实现。
传统的Apriori算法具有两个主要的缺陷:
1.会产生大量的候选集;
2.会重复地扫描数据库;
为解决上述问题,本发明利用数据库中数据的特点,提出一种基于数据压缩的Apriori算法的改进算法,同时在候选集的选择上进行预先判断,以减少所产生的候选集的数目。
本发明的再一目的是减少扫描数据库的次数,以提高查询的速度。
发明概述
为了实现上述目的,本发明采用了压缩数据库的办法。设有由m个项{I1,I2...Im}组成的数据集合,数据库中的每一项均由该集合中的元素组成,即Tk={I1,I2...Ij},数据库共包含N条事务记录,数据库中所有组合的总数为:
当N>M时,对数据库进行压缩,提取出数据库中的有效信息,生成数据库项和该数据项数量的映射表DB_Map_Tbale,映射函数为H(key)。这里引入转换函数f(X),F(X)的作用是将数据库项转换为DB_Map_Tbale中该项对应的键值。如:
对于Tk={I1,I2...Ij}
F(Tk)=keyk
进一步,对DB_Map_Tbale中内容排序,将该映射表DB_Map_Table中的所有健值对<key,value>按key的大小升序排列,即KEY={key1,key2,...keym},key1<key2<...<keym。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;无锡中科智能信息处理研发中心有限公司,未经中国科学院声学研究所;无锡中科智能信息处理研发中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110430528.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超细光缆
- 下一篇:全部用机械锚固加强筋无机改性不燃泡沫板的外保温墙体