[发明专利]基于KD树和混沌蜉蝣优化算法的并行谱聚类方法在审
申请号: | 202110503711.0 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113128618A | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 毛伊敏;刘祥敏 | 申请(专利权)人: | 江西理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00;G06N7/08 |
代理公司: | 重庆天成卓越专利代理事务所(普通合伙) 50240 | 代理人: | 王宏松 |
地址: | 341000 江*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 kd 混沌 蜉蝣 优化 算法 并行 谱聚类 方法 | ||
本发明提出了一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法,其特征在于,包括以下步骤:S1,采用基于采样的KD‑tree数据分区策略DPS划分数据,得到Map上的数据分区;S2,在构建稀疏相似矩阵过程中,采用优化的分区分配策略OPA和两个基于三角不等式的KD树剪枝策略以进行跨分区的t近邻搜索;S3,采用正规化定理,通过元素对应相乘的方式代替矩阵相乘以优化Laplacian矩阵正规化过程;S4,采用混沌蜉蝣优化算法CMO得到最佳位置作为初始簇中心,然后,对特征空间进行k‑means并行聚类;S5,得到最终的聚类结果,并输出。本发明在聚类效果和并行效率上都有显著的提高,且在大规模数据集下具有良好的数据和系统可扩展性。
技术领域
本发明涉及大数据挖掘领域,尤其涉及一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法。
背景技术
聚类分析作为一种无监督学习,在数据挖掘和机器学习领域中扮演着至关重要的角色,它根据数据对象的特征对数据集进行聚类,使类内相似度最大化、类间相似性最小化,从而发现对象间的内在联系,获取蕴藏在数据背后的价值。其中,谱聚类算法作为一类新颖的聚类算法,将聚类问题转化为图的最优切分问题,能够对任意形状的样本空间进行聚类,克服了传统的聚类算法(如k-means)在非凸样本空间下容易陷入局部最优解的问题,并在图像分割、语音识别、文本分析、社团发现等领域得到了广泛的应用。
尽管谱聚类算法具有良好的聚类性能,但是由于涉及到样本两两之间的相似度计算、矩阵特征向量的求解以及k-means聚类,谱聚类算法面临着计算开销大的问题。特别是随着大数据时代的来临,爆炸式增长的数据使得谱聚类算法的计算性能瓶颈愈加突出,这严重制约了谱聚类算法在大数据集下的应用。因此,如何降低大数据环境下谱聚类算法的计算开销成为了一个具有挑战性的问题。
近年来,随着MapReduce并行计算模型以及Hadoop、Spark等大数据分布式并行计算框架的快速发展,谱聚类算法的并行化研究逐渐得到了广泛的关注。现有的并行谱聚类算法流程主要是首先基于MapReduce构造稀疏相似度矩阵,将数据实例分发到分布式节点上,在每个节点上使用最小磁盘I/O的方式计算本地数据和整个集合之间的相似性;然后将特征向量矩阵存储在分布式节点上,并行求解特征向量矩阵;最后利用并行k-means聚类处理特征向量的转置矩阵,得到聚类结果。尽管对谱聚类的并行化能在大数据环境下实现良好的加速,但是算法仍存在四个问题:(1)分配数据时,采用MapReduce的默认分区策略,对数据的分配具有随机性,未能根据数据的分布特性采用合理的数据划分方法,节点执行任务时容易产生负载不均衡的问题。(2)在构建稀疏矩阵过程中,尽管有学者提出采用KD树索引技术减少计算,但KD树只适用于低维数据,在高维数据上可能需要大量的时间来回溯树和最优解,依然会产生大量的冗余计算从而导致搜索性能下降。(3)在正规化Laplacian矩阵时,在各节点上分布式计算矩阵相乘操作,时间开销大。(4)用k-means算法进行最终聚类时,仅是简单地并行化,没有解决随机选取初始聚类中心引起的初始中心敏感问题,从而可能导致聚类效果不够稳定。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法。
为了实现本发明的上述目的,本发明提供了一种基于KD树和混沌蜉蝣优化算法的并行谱聚类方法,包括以下步骤:
S1,采用基于采样的KD-tree数据分区策略DPS划分数据,得到Map上的数据分区,保证了节点间负载均衡;
S2,在构建稀疏相似矩阵过程中,采用优化的分区分配策略OPA和两个基于三角不等式的KD树剪枝策略以进行跨分区的t近邻搜索,避免了过多的冗余计算;
S3,采用正规化定理,通过元素对应相乘的方式代替矩阵相乘以优化Laplacian矩阵正规化过程,有效地减少了时间开销;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西理工大学,未经江西理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110503711.0/2.html,转载请声明来源钻瓜专利网。