[发明专利]一种海量数据的频繁序列挖掘方法在审

专利信息
申请号: 201711457785.5 申请日: 2017-12-28
公开(公告)号: CN108170799A 公开(公告)日: 2018-06-15
发明(设计)人: 王宏志;秦谦 申请(专利权)人: 江苏名通信息科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京纵横知识产权代理有限公司 32224 代理人: 董建林;张赏
地址: 212004 江苏省镇江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 频繁序列 挖掘 海量数据 集合 时间序列数据 输入数据库 算法效率 挖掘算法 序列输出 等价 成型 过滤 重复
【说明书】:

发明公开了一种海量数据的频繁序列挖掘方法,首先用户输入时间序列数据,计算每一个项的频率,并构造频繁项集合,其次对于所有频繁项,在Map构造ω‑等价的划分,然后对于构造的划分在Reduce进行独立的挖掘得到频繁序列,最后将所有的频繁序列集合并在一起,并过滤掉将重复的序列输出。本发明提供了对输入数据库的一种划分方法,能够有效的提升算法效率;本发明在挖掘阶段,可以采用任意一种现在已经成型的挖掘算法来进行挖掘,容易实现。

技术领域

本发明涉及一种海量数据的频繁序列挖掘方法,属于数据处理技术领域。

背景技术

最早出现序列模式挖掘概念的时候就提出了基于Apriori的改进算法,比如:AprioriSome,AprioriAll,Dynamic-some。之后,随着算法的改进,基于Apriori思想,又有人提出了GSP算法,该算法规定了序列的时间限制、滑动时间窗口以及使用者规定的分类,这样挖掘出来的频繁序列更符合现实意义。后来又相继有人提出MFS算法以及PSP算法,都对GSP算法的执行效率进行了改进。这些改进的算法都来源于Apriori算法的思想。但Apriori有自身的缺点,那就是都需要多次扫描数据库,这对于海量数据来说需要巨大的时间效率,并且会产生大量的候选集,如果支持度阈值取得较小,或者频繁模式较长,这个问题就会变得非常棘手。

由M.zaki等人提出了一种基于垂直存储格式的序列模式挖掘方法SPADE算法,基本思想就是:首先将输入序列数据库通过某种手段转换成垂直数据库的格式,然后利用简单的连接方法,采用格理论的思想来挖掘频繁序列模式。其优点是:相比于Apriori系列算法,扫描数据库的次数大大减少,挖掘过程从头到尾只需3次扫描数据库。但是SPADE算法也存在一些弊端,那就是其在讲水平格式的数据库变成垂直格式的时候需要额外的存储空间和计算时间,并且这一算法当中用到的遍历方法还是广度优先遍历方法,这就需要巨大的候选码产生的代价。

最近几年J.Han,J.Pei等人又提出了一种基于投影的频繁模式增长的算法——FreesPan算法,这个算法后来经过改进演变成了PrefixsPan算法,性能进一步大幅度提高。FreeSpan算法的优势是它能够大大减少候选序列的产生,也减少了产生候选序列的开销,并且能够完全的发现全部的频繁序列模式。但是,该算法也存在一些弊端,就是会产生大量投影数据库,考虑到一种特殊情况,即如果有某一种模式出现在输入数据库当中的每一个序列当中,那么这个模式对应的投影数据库相比于原来的数据库就不会有所缩减;除此之外,如果长度为K的子序列可能在任意一个位置增长,那么搜索长度为(K+1)的候选序列就要考虑到每一个可能的组合,就会增加相当大的时间花销。

多维序列模式挖掘的特点就是挖掘出多维信息当中用户感兴趣,有意义的信息,其在普通的挖掘序列模式方式的基础上,同时考虑其他的维度信息。例如,对于消费者消费习惯这一数据中,消费者的性别,年龄,职业等信息就构成了多维的序列模式。这种模式含有更多有价值的信息,具有更高的应用价值。目前已出现多种多维序列模式挖掘算法,如:UniSeq,Seq-Dim和Dim-Seq其中UniSeq算法的主要思想就是通过把数据库当中的多维信息分别嵌入到每个序列中,从而形成新的扩展序列数据库,然后可以利用PrefixSpan算法对这个新的扩展的序列数据库进行频繁序列模式挖掘从而得到多维频繁序列模式。

频繁序列挖掘是一系列重要数据挖掘任务的基础,例如在文本挖掘中,频繁序列被用于构造机器翻译的统计语言模型、资料恢复、信息提取以及垃圾邮件检测,词义联想还可以被用于关系提取。在网页使用挖掘和对话分析中,频繁序列可以表示用户某种共同的或通用的行为(如网页访问日志中的频繁序列)。以上几种情况以及一些简单的应用程序中,频繁序列挖掘的挖掘对象是巨大的,并且包含了以亿为数量级条序列。例如微软提供的一个基于数千亿网页的n维数据的使用权,谷歌出版的一个超过十亿维度的预料库。在这种情况下,一种可以处理海量数据的频繁序列挖掘算法就显得格外重要。对于现有的方法来说,一单数据集的大小是巨大的,那么运算开销和内存使用仍然是非常巨大的。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏名通信息科技有限公司,未经江苏名通信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711457785.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top