[发明专利]一种基于Top-K频繁项集的挖掘算法在审

专利信息
申请号: 201910564994.2 申请日: 2019-06-27
公开(公告)号: CN110287240A 公开(公告)日: 2019-09-27
发明(设计)人: 朱波;邹建军;杨培强 申请(专利权)人: 浪潮软件集团有限公司
主分类号: G06F16/2458 分类号: G06F16/2458;G06F16/28
代理公司: 济南信达专利事务所有限公司 37100 代理人: 姜明
地址: 250100 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明特别涉及一种基于Top‑K频繁项集的挖掘算法。该基于Top‑K频繁项集的挖掘算法,建立测试数据集T,项集I和最频繁项集数量变量N;循环遍历求解测试数据集T中每个数据项Ti的支持度TID集和支持度;初始化itemsList数组和border_sup;通过对数组itemsList的后续遍历将支持度TID集进行遍历赋值;如果支持度TID的绝对值大于系统支持的边界值,则利用AddItems函数得到项集L,利用函数InsertList将下标为t的元素插入到数组itemsList中,以静态双链表形式存储当前N个最频繁项集,实现频繁项集的分析。该基于Top‑K频繁项集的挖掘算法,基于贪心策略生成的频繁链表,抛弃了人工对于最小支持度的干预,只需一次遍历数据库操作,具有较强的可行性和时间及空间的优越性。
搜索关键词: 频繁项集 挖掘算法 支持度 遍历 测试数据集 数组 数据库操作 最小支持度 策略生成 数量变量 系统支持 循环遍历 表形式 初始化 数据项 求解 链表 双链 存储 抛弃 干预 分析
【主权项】:
1.一种基于Top‑K频繁项集的挖掘算法,其特征在于:包括以下步骤:(1)建立测试数据集T,项集I和最频繁项集数量变量N;(2)扫描数据集T,求解测试数据集T中每个数据项Ti的支持度TID集和支持度,求解时采用循环遍历;(3)初始化itemsList数组和当前的边界支持度border_sup;(4)利用链表的后向指针next循环遍历构造数组itemsList;(5)通过对数组itemsList的后续遍历,将支持度TID集进行遍历赋值,并对边界度值进行判定;(6)如果初始化边界值与支持度TID集不存在包含关系,则输出提示信息,并跳出遍历循环,进程结束;否则,则将支持度TID的绝对值与系统支持的边界值进行对比;(7)如果支持度TID的绝对值不大于系统支持的边界值,则跳出遍历循环,进程结束;否则,则利用AddItems函数实现在数组itemsList中执行连接操作后得到的项集L,利用函数InsertList实现将下标为t的元素插入到数组itemsList中合适的位置,数组itemsList[N]以静态双链表形式存储当前N个最频繁项集,实现频繁项集的分析,进程结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910564994.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top