[发明专利]基于递增投影规则的广义无冗余序列规则挖掘方法在审
| 申请号: | 201510312885.3 | 申请日: | 2015-06-09 |
| 公开(公告)号: | CN104915683A | 公开(公告)日: | 2015-09-16 |
| 发明(设计)人: | 尤涛;杜承烈;吴其蔓;钟冬;成驰 | 申请(专利权)人: | 西北工业大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
| 地址: | 710072 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 递增 投影 规则 广义 冗余 序列 挖掘 方法 | ||
技术领域
本发明涉及一种序列规则挖掘方法,特别是涉及一种基于递增投影规则的广义无冗余序列规则挖掘方法。
背景技术
文献“Lo D,Khoo S C,Li J.Mining and Ranking Generators of Sequential Patterns[C]//SDM.2008:553-564.”公开了利用序列生成子和等价类挖掘序列规则的方法。该方法引入了序列数据库等价类和序列模式生成子的概念:一个序列数据库中包含在相同序列集的序列模式集合称为一个等价类;一个序列模式称为生成子,当且仅当该序列模式不存在与其支持度相同的任何一个真子序列模式。基于MDL原理,可以证明序列模式生成子比闭序列模式更适合解决分类问题。该文献提出的GenMiner算法产生了最小前件序列规则全集,首先采用深度优先的搜索策略来创建存储所有序列的前缀搜索树PSL,然后通过遍历PSL得到包含所有序列模式生成子的超集,得到最小前件序列规则。同时,近年来序列规则挖掘方面开展的各类算法,虽然在数据组织、处理流程等方面各有不同,但主要分为三类,如表1所示。
产生序列规则全集的典型算法为TASA、WinMiner。TASA算法分为三个步骤,首先基于广度优先的搜索策略和滑动窗口的序列支持度定义,通过多遍扫描事件序列,以候选、剪枝再测试的处理方式发现频繁序列;其次,由频繁集产生序列规则集;最后使用剪枝技术来筛选无冗余的序列规则。WinMiner算法采用了深度优先的搜索策略和最小发生的序列支持度定义,只需单遍扫描事件序列便可完成挖掘,且不产生任何候选序列。
产生无冗余序列规则集的典型算法为Extractor,算法采用最小且非重叠发生的支持度定义和深度优先的搜索策略来发现频繁闭序列及其生成子,保证了频繁闭序列及其生成子的挖掘质量和挖掘效率;利用非生成子的Apriori性质,避免了冗余的序列生成子判断;直接由频繁闭序列及其生成子产生序列规则,提高了序列规则的生成质量和生成效率。
表1 典型序列规则挖掘算法分类比较
上述序列规则挖掘算法的发展不难看出,规则的产生方式经历了频繁序列投影、频繁序列及其生成子投影、频繁闭序列及其生成子投影等阶段;无论是算法的效率、精确程度、精简粒度都在逐步提高;且都保持了序列规则的完备性,属于无损规则挖掘方法。
有损规则集的挖掘方法典型的算法包括Top-K无冗余序列规则挖掘方法,算法根据支持度大小,选择前K个序列规则。这样既限定了序列规则数量,又保证了规则代表信息的有用性,达到了对规则约减的目的,但却损失了支持度较小的序列规则信息。
综上所述,现有的序列规则挖掘算法存在以下不足:
(1)无损规则挖掘方法仅考虑了两规则间的包含冗余,忽略了多规则之间的关联关系,造成了该类方法虽然能够产生完备的规则集,但仍存在冗余;
(2)有损规则挖掘方法虽然考虑了多规则间的关联关系(如Top-K利用多规则间排序关系、信息序列规则利用多规则的表达关系等),但是方法本身得到的是规则的不完备集。
发明内容
为了克服现有序列规则挖掘方法生成序列规则效率低的不足,本发明提供一种基于递增投影规则的广义无冗余序列规则挖掘方法。该方法包括冗余性检查和递增投影产生规则两部分,通过多规则的关联关系,将频繁闭序列和序列生成子的检查精简到重叠集的检查,通过递增消除冗余的方法经行规则投影,从而提升了时间及空间效率。该方法在保障规则完备性的前提下,得到了更为精简的序列规则,提高了生成序列规则的效率。
本发明解决其技术问题所采用的技术方案是:一种基于递增投影规则的广义无冗余序列规则挖掘方法,其特点是采用以下步骤:
第一部分、冗余性检查的步骤如下:
步骤一、遍历搜索找出闭序列集和生成子集的相同序列构成的重叠集,并删除重叠集中的相同元素;对于输入的频繁闭序列ee及其生成子集合ge,扫描得到生成子和闭序列的重叠项是:AB、ABC和ABCD;
步骤二、找出重叠集在闭序列集合生成子集的投影和被投影序列,即找出生成子集中能被重叠集元素投影的序列集合,并找出闭序列集中能被重叠集中元素投影的序列集合;得到重叠集公共集合ge’,元素包括AB、ABC和ABCD。扫描频繁闭序列集合ee,以及生成子集合ge,得到能投影元素集合g2:A;能被投影的元素集合g1:ABCDE;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510312885.3/2.html,转载请声明来源钻瓜专利网。





