[发明专利]一种基于频繁模式的目标群体多层级挖掘方法及装置在审
申请号: | 201811286427.7 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109492025A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 陈同庆;叶飞跃;葛思聪;刘琪 | 申请(专利权)人: | 江苏理工学院 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 王清 |
地址: | 213001 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标群体 挖掘 最大频繁项集 原始数据集 频繁模式 多层级 读取 访问数据库 层级 返回 | ||
本发明提供了一种基于频繁模式的目标群体多层级挖掘方法及装置,其中方法包括:S1,确定给定目标,设置待挖掘的层级数N以及挖掘阈值M;S2,访问数据库,获取包含给定目标的原始数据集;S3,设定n=1;S4,读取原始数据集生成包含给定目标的最大频繁项集,得到第n层目标群体;S5,根据第n层目标群体与第n‑1层目标群体生成第n+1层目标群体,其中当n=1时,第n‑1层目标群体为给定目标;S6,设定n=n+1,并判断n是否等于N‑1,如果不等于N‑1,则返回执行步骤S5,如果等于N‑1,则结束流程;S7,判断所有最大频繁项集的个数是否满足挖掘阈值M,如果都不满足挖掘阈值M,则结束流程。
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于频繁模式的目标群体多层级挖掘方法及装置。
背景技术
群体挖掘是数据挖掘领域中一个重要研究方向,通过对给定目标的群体挖掘研究可以有针对性的发现目标及其群体。传统的基于频繁模式的群体挖掘研究通常只是对目标进行一次群体挖掘,往往挖掘的目标不够全面,尤其是对可疑目标的深层次、多层级挖掘显得尤为重要。
发明内容
本发明旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的一种基于频繁模式的目标群体多层级挖掘方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种基于频繁模式的目标群体多层级挖掘方法,包括:S1,确定给定目标,设置待挖掘的层级数N以及挖掘阈值M;S2,访问数据库,获取包含给定目标的原始数据集;S3,设定n=1;S4,读取原始数据集生成包含给定目标的最大频繁项集,得到第n层目标群体;S5,根据第n层目标群体与第n-1层目标群体生成第n+1层目标群体,其中当n=1时,第n-1层目标群体为给定目标;S6,设定n=n+1,并判断n是否等于N-1,如果不等于N-1,则返回执行步骤S5,如果等于N-1,则执行步骤S8;S7,判断所有最大频繁项集的个数是否满足挖掘阈值M,如果都不满足挖掘阈值M,则执行步骤S8;S8,结束流程。
其中,挖掘阈值M是根据给定目标进行设定的。
其中,读取原始数据集生成包含给定目标的最大频繁项集包括:读取原始数据集通过Apriori算法生成包含给定目标的最大频繁项集。
其中,读取原始数据集通过Apriori算法生成包含给定目标的最大频繁项集包括:扫描包含给定目标的原始数据集,得到备选一项集;遍历备选一项集,扫描数据库,计算备选一项集中元素的支持度,筛选支持度大于挖掘阈值M的元素,形成频繁一项集;将不包含给定目标的频繁一项集依次与给定目标合并得到备选频繁二项集;扫描原始数据集,计算备选频繁二项集的支持度,筛选出支持度大于挖掘阈值M的备选频繁二项集,形成频繁二项集;迭代生成k项频繁集,直到产生的k项频繁集的个数为1为止,确定所有最大频繁项集作为包含给定目标的最大频繁项集。
其中,根据第n层目标群体与第n-1层目标群体生成第n+1层目标群体包括:确定第n-1层目标群体,当n=1时,将给定目标设为第零层目标群体,将第n层中所得的目标群体与第n-1层目标群体求差集得到备选目标集;遍历备选目标集,以备选目标集中元素为目标,收集包含目标的数据集,生成多个目标集;对多个目标集与第n层中所得到的目标群体求差集,得到第n+1层的目标群体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏理工学院,未经江苏理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811286427.7/2.html,转载请声明来源钻瓜专利网。