[发明专利]一种基于频繁模式的目标群体多层级挖掘方法及装置在审
申请号: | 201811286427.7 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109492025A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 陈同庆;叶飞跃;葛思聪;刘琪 | 申请(专利权)人: | 江苏理工学院 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 王清 |
地址: | 213001 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标群体 挖掘 最大频繁项集 原始数据集 频繁模式 多层级 读取 访问数据库 层级 返回 | ||
1.一种基于频繁模式的目标群体多层级挖掘方法,其特征在于,包括:
S1,确定给定目标,设置待挖掘的层级数N以及挖掘阈值M;
S2,访问数据库,获取包含所述给定目标的原始数据集;
S3,设定n=1;
S4,读取所述原始数据集生成包含给定目标的最大频繁项集,得到第n层目标群体;
S5,根据所述第n层目标群体与第n-1层目标群体生成第n+1层目标群体,其中当n=1时,所述第n-1层目标群体为所述给定目标;
S6,设定n=n+1,并判断n是否等于N-1,如果不等于N-1,则返回执行步骤S5,如果等于N-1,则执行步骤S8;
S7,判断所有最大频繁项集的个数是否满足所述挖掘阈值M,如果都不满足所述挖掘阈值M,则执行步骤S8;
S8,结束流程。
2.根据权利要求1所述的方法,其特征在于,所述挖掘阈值M是根据所述给定目标进行设定的。
3.根据权利要求1或2所述的方法,其特征在于,所述读取所述原始数据集生成包含给定目标的最大频繁项集包括:
读取所述原始数据集通过Apriori算法生成包含给定目标的最大频繁项集。
4.根据权利要求3所述的方法,其特征在于,所述读取所述原始数据集通过Apriori算法生成包含给定目标的最大频繁项集包括:
扫描包含所述给定目标的原始数据集,得到备选一项集;
遍历所述备选一项集,扫描所述数据库,计算所述备选一项集中元素的支持度,筛选支持度大于挖掘阈值M的元素,形成频繁一项集;
将不包含所述给定目标的频繁一项集依次与给定目标合并得到备选频繁二项集;
扫描所述原始数据集,计算所述备选频繁二项集的支持度,筛选出支持度大于挖掘阈值M的备选频繁二项集,形成频繁二项集;
迭代生成k项频繁集,直到产生的k项频繁集的个数为1为止,确定所有最大频繁项集作为所述包含所述给定目标的最大频繁项集。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第n层目标群体与第n-1层目标群体生成第n+1层目标群体包括:
确定第n-1层目标群体,当n=1时,将所述给定目标设为第零层目标群体,将第n层中所得的目标群体与第n-1层目标群体求差集得到备选目标集;
遍历所述备选目标集,以所述备选目标集中元素为目标,收集包含所述目标的数据集,生成多个目标集;
对所述多个目标集与第n层中所得到的目标群体求差集,得到所述第n+1层的目标群体。
6.一种基于频繁模式的目标群体多层级挖掘装置,其特征在于,包括:
设置模块,用于确定给定目标,设置待挖掘的层级数N以及挖掘阈值M;
获取模块,用于访问数据库,获取包含所述给定目标的原始数据集;
设定模块,用于设定n=1;
生成模块,用于读取所述原始数据集生成包含给定目标的最大频繁项集,得到第n层目标群体;根据所述第n层目标群体与第n-1层目标群体生成第n+1层目标群体,其中当n=1时,所述第n-1层目标群体为所述给定目标;
所述设定模块,还用于设定n=n+1,并判断n是否等于N-1,如果不等于N-1,则通知所述生成模块执行操作,如果等于N-1,则结束流程;
判断模块,用于判断所有最大频繁项集的个数是否满足所述挖掘阈值M,如果都不满足所述挖掘阈值M,则结束流程。
7.根据权利要求6所述的装置,其特征在于,所述挖掘阈值M是根据所述给定目标进行设定的。
8.根据权利要求6或7所述的装置,其特征在于,所述生成模块通过如下方式读取所述原始数据集生成包含给定目标的最大频繁项集:
所述生成模块,还用于读取所述原始数据集通过Apriori算法生成包含给定目标的最大频繁项集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏理工学院,未经江苏理工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811286427.7/1.html,转载请声明来源钻瓜专利网。