[发明专利]一种基于Top-K频繁项集的挖掘算法在审
申请号: | 201910564994.2 | 申请日: | 2019-06-27 |
公开(公告)号: | CN110287240A | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 朱波;邹建军;杨培强 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明特别涉及一种基于Top‑K频繁项集的挖掘算法。该基于Top‑K频繁项集的挖掘算法,建立测试数据集T,项集I和最频繁项集数量变量N;循环遍历求解测试数据集T中每个数据项Ti的支持度TID集和支持度;初始化itemsList数组和border_sup;通过对数组itemsList的后续遍历将支持度TID集进行遍历赋值;如果支持度TID的绝对值大于系统支持的边界值,则利用AddItems函数得到项集L,利用函数InsertList将下标为t的元素插入到数组itemsList中,以静态双链表形式存储当前N个最频繁项集,实现频繁项集的分析。该基于Top‑K频繁项集的挖掘算法,基于贪心策略生成的频繁链表,抛弃了人工对于最小支持度的干预,只需一次遍历数据库操作,具有较强的可行性和时间及空间的优越性。 | ||
搜索关键词: | 频繁项集 挖掘算法 支持度 遍历 测试数据集 数组 数据库操作 最小支持度 策略生成 数量变量 系统支持 循环遍历 表形式 初始化 数据项 求解 链表 双链 存储 抛弃 干预 分析 | ||
【主权项】:
1.一种基于Top‑K频繁项集的挖掘算法,其特征在于:包括以下步骤:(1)建立测试数据集T,项集I和最频繁项集数量变量N;(2)扫描数据集T,求解测试数据集T中每个数据项Ti的支持度TID集和支持度,求解时采用循环遍历;(3)初始化itemsList数组和当前的边界支持度border_sup;(4)利用链表的后向指针next循环遍历构造数组itemsList;(5)通过对数组itemsList的后续遍历,将支持度TID集进行遍历赋值,并对边界度值进行判定;(6)如果初始化边界值与支持度TID集不存在包含关系,则输出提示信息,并跳出遍历循环,进程结束;否则,则将支持度TID的绝对值与系统支持的边界值进行对比;(7)如果支持度TID的绝对值不大于系统支持的边界值,则跳出遍历循环,进程结束;否则,则利用AddItems函数实现在数组itemsList中执行连接操作后得到的项集L,利用函数InsertList实现将下标为t的元素插入到数组itemsList中合适的位置,数组itemsList[N]以静态双链表形式存储当前N个最频繁项集,实现频繁项集的分析,进程结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910564994.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种跟踪对账方法
- 下一篇:一种生成告警数据报表的方法及装置