[发明专利]一种序列规则的挖掘方法及系统在审
| 申请号: | 201510777308.1 | 申请日: | 2015-11-11 |
| 公开(公告)号: | CN105404668A | 公开(公告)日: | 2016-03-16 |
| 发明(设计)人: | 于磊 | 申请(专利权)人: | 内蒙古大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 010021 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 序列 规则 挖掘 方法 系统 | ||
技术领域
本发明属于数据挖掘领域,尤其涉及一种序列规则的挖掘方法及系统。
背景技术
序列模式挖掘有着广泛应用。然而,已有的序列模式挖掘中,挖掘出的序列模式常常会误导用户,因为发掘的模式常常是面向应用的。比如,大数据服务日志中的{a},{b},{c}序列模式,它意味着系统日志以{a},{b},{c}的顺序记录了系统和用户事件发生的顺序。例如在序列A1、A2、A3和A4中,符合这种序列模式的序列有序列A2和序列A4,因此这种序列模式有50%的支持度。然而,这种模式是有误导性的,因为在序列A1中{a},{b}按照序列模式中的顺序出现。
A1:{b},{a},{d},{e},{m},{j},{q},{c}
A2:{d},{e},{f},{a},{b},{c},{p}
A3:{a},{b},{d},{h},{o},{g}
A4:{a},{d},{b},{c},{i}
因此,如果基于这种模式,将会将序列A1中的序列模式排除。在实际中,{a},{b}可能并不一定是按照严格的顺序发生,所以基于这种模式会导致错误的决定。有一种解决这一问题的方案是添加可信性度量指标。但是,由于序列的数目可能很多,给序列模式添加这种度量指标并不简单。
序列规则中存在一些规则,他们的区别仅仅在于项目的顺序不同。由于序列模式指定项目之间遵守严格的排序,所以可能存在与该序列模式具有相同项目但不同排序的支持率较低的规则未被挖掘。例如,{a}{b}→{c}有2种具有相同项目但排序不同的规则,如以下所表示的B1、B2规则。但是,所有这些变化说明了同样的情况。
B1:{a}{b}→{c}
B2:{b}{a}→{c}
这种相似规则的评估值的差别可能很大。例如,规则的B1具有较高的支持度和可信度,而规则B2由于支持度和可信度过低不会被选为规则。这些评估值的差异给用户造成了错误的印象。
发明内容
要解决的技术问题
(一)如何挖掘序列中的低支持率的序列关联规则。
(二)技术方案
针对以上技术问题,一方面本发明提供了一种序列规则的挖掘方法,包括:在至少一个序列中的所有序列元素中获取频繁序列元素;包含所述频繁序列元素的序列占所述至少一个序列的比例大于第一阈值;
在所述频繁序列元素形成的关联规则中,获取所有的目标关联规则以组成第一集合;
其中,所述目标关联规则的前件和后件均由不分顺序的至少一个频繁序列元素组成;为所述目标关联规则的前件和后件各自规定一种排列顺序后形成一个有序目标规则;
所述目标关联规则的目标支持度大于第二阈值;所述目标关联规则的目标支持度为该目标关联规则所有有序目标规则在所述至少一个序列中的支持度的总和;
所述目标关联规则的目标置信度大于第三阈值;所述目标关联规则的目标置信度为所述至少一个序列中符合该目标关联规则的任一有序目标规则的序列的数量,与所述至少一个序列中包含该目标关联规则的前件的序列的数量之间的比值。
进一步地,所述在所述频繁序列元素形成的关联规则中,获取所有的目标关联规则以组成第一集合,包括:
获取以两个所述频繁序列元素分别作为前件和后件而形成的所有目标关联规则,并加入第一集合;
重复执行下述步骤,直到不能得到新的目标关联规则:在第一集合中的一个目标关联规则的前件或后件中加入不包含在该前件和该后件中的频繁序列元素,以将形成的目标关联规则加入至第一集合。
进一步地,所述在第一集合中的一个目标关联规则的前件或后件中加入不包含在该前件和该后件中的频繁序列元素,以将形成的目标关联规则加入至第一集合的步骤,包括:
在将一个频繁序列元素加入至一个目标关联规则的前件或后件中时,判断该频繁序列元素是否没有出现在任意一个该目标关联规则的相符序列中;所述目标关联规则的相符序列为所述至少一个序列中符合该目标关联规则的序列;
若是,则不再将该频繁序列元素加入至前件包含该目标关联规则的前件、后件包含该目标关联规则的后件的目标关联规则的前件或后件中。
进一步地,所述在第一集合中的一个目标关联规则的前件或后件中加入不包含在该前件和该后件中的频繁序列元素,以将形成的目标关联规则加入至第一集合的步骤,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古大学,未经内蒙古大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510777308.1/2.html,转载请声明来源钻瓜专利网。





