本发明公开了基于Spark与加权Apriori算法相结合的数据挖掘方法及系统,包括:首先针对Apriori算法忽略不同项目间的重要程度的问题,通过引入加权规则,从频数与权值两方面来体现不同项目间的重要性差异;其次,在扫描输入数据集时,候选集的生成和支持值的计数同时进行,并且它不是在每次迭代中使用原始输入数据集,而是通过删除无用的项目和交易来计算更新后的输入数据集;将优化的Apriori与并行计算处理框架ApacheSpark相结合,提出了一种基于Spark的加权Apriori算法WABS(weighted Apriori algorithm based on Spark)。
本发明根据最短板原则提供一种基于最短板原则的频繁项集数据挖掘方法‑TLS‑Apriori算法(The Lowest support Apriori)。将总体数据样本按照支持度从高到低依次排列,最低支持度项集所在的样本为最短板样本,最短板数据样本只进行频繁一项集的数据挖掘,不进行二项集及以后的数据挖掘;此算法应用Apriori算法的基本思想,根据最小支持度所在的样本不能成为频繁样本的性质进行数据挖掘,解决了经典Apriori算法全局寻优的同时不能很好的兼顾局部的不足。