[发明专利]一种基于历史效用表剪枝的数据流高效用项集挖掘系统有效
申请号: | 202110922923.2 | 申请日: | 2021-08-12 |
公开(公告)号: | CN113792099B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 闫凤麒;陈欣如 | 申请(专利权)人: | 上海熙业信息科技有限公司 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06F16/22;G06F16/27 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200120 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 历史 效用 剪枝 数据流 高效 用项 挖掘 系统 | ||
一种基于历史效用表剪枝的数据流高效用项集挖掘系统。基于滑动窗口的数据流高效用项集挖掘是数据挖掘领域最具有挑战的课题之一,由于当前的算法会产生大量的候选项集和冗余项,使得在挖掘大规模数据流时性能下降,同时在数据流的挖掘过程中也较少参考引用历史挖掘结果。本发明的创新点在于建立历史效用值表,利用历史数据有效修建数据流的搜索空间,减少候选项和冗余项,并使用了分布式的架构构建数据挖掘系统,使得在不影响数据流挖掘的前提下,完成对历史效用值表的创建与更新工作,以此有效提高了数据流高效用项集挖掘的效率。
技术领域
本发明涉及频繁模式挖掘算法以及数据流挖掘系统。
高效用项集挖掘是频繁模式挖掘的一个重要分支。
背景技术
频繁项集挖掘是数据挖掘领域的一个重要分支,它能够从数据集的所有事务中挖掘出出现频率超出用户设置阈值的项集。而随着频繁项集的广泛应用,人们发现,与频繁项集相比,一些非频繁项集能够创造更高的价值,针对该问题,学者提出了高效用项集挖掘的概念,高效用项集克服了频繁挖掘项集中没有考虑的出现频次,价格,利润,地区分布等等数据项权重信息的缺陷,其通过综合效用指标来评估项集的重要性。
目前模式增长的方法在数据流的高效用项集挖掘算法中较为有效,HUM-UT算法提出为滑动窗口中的数据建立全局头表,估算数据流效用值,利用全局头表和全局效用树挖掘高效用项集,但全局头表和效用树中仍包含了大量冗余数据项和低效用项集。针对该问题,IHUM-UT算法通过压缩全局头表大小来提高时间效率,SHUGrowth算法通过构建SHU-Tree结构来优化挖掘过程,HUISW算法则是通过构建HUIL-Tree来优化全局头表。
然而过多的候选项与冗余项常常导致所构造的数据结构(尤其是树形结构)的空间复杂性高,这使得挖掘过程中频繁递归,从而导致内存溢出并降低了算法效率。因此,修剪和过滤冗余项集是当前算法的主要优化目标之一。
在基于滑动窗口技术的算法中更多地是去构建更好的全局结构。当前的算法忽略了长期的历史数据对实际数据分析中未来数据流的挖掘具有一定的指导意义,这可以帮助算法有效地过滤冗余项和候选项。同时当前基于分布式框架下的高效用项集挖掘算法也较为稀缺,随着当前数据流越来越庞大的前提下,提高数据流挖掘算法的实时性与效率是十分具有挑战性的。
发明内容
当前的模式增长算法不可避免地存在候选项集、冗余项过多,低效用数据无用化处理等问题,往往导致构建的高效用树型结构的空间复杂度较高,使得在挖掘过程中频繁递归创建子树,最终发生内存溢出、算法效率低下等问题。因此如何有效地筛选候选项集成为高效用项集挖掘算法的主要优化目标之一。
随着当前分布式系统与数据流引擎的发展,在处理大规模数据流的问题上已经有了较多的解决方案,其中不乏一些优秀的数据流引擎(spark streaming,storm,flink)。在实际的数据挖掘与分析过程中,长时间历史数据分析对于未来数据流的挖掘具备一定的参考价值,借助分布式的数据处理框架,因此本发明考虑通过分布式的挖掘任务设计,在有效的挖掘历史数据的同时,辅助优化当前数据流挖掘算法,实现单机向分布式的改造,降低挖掘的时间成本与存储成本,对大数据集表现出较好的可扩展性与稳定性,在此基础上本发明提出了基于历史效用表剪枝的数据流高效用项集挖掘算法。
本发明设计了一种分布式的高效用项集挖掘系统,在稳定进行历史挖掘数据的分析的同时,保证了当前数据流的高效用项集挖掘的实时性。同时本发明有效利用了历史挖掘数据的结果,构建了历史效用值表,并通过该表有效减少了数据流挖掘算法的冗余项,提高了数据流挖掘算法的效率。
为了实现上述的目的,本发明给出的方案是:
步骤1、历史效用值表的创建与更新;
步骤2、全局头表与全局树的构建,更新,优化;
步骤3、在优化后的全局数据结构上进行高效用项集挖掘;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海熙业信息科技有限公司,未经上海熙业信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110922923.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:船用低速柴油机调频轮的起吊工具及方法
- 下一篇:一种生产用化工原料筛粉装置