[发明专利]一种基于KNN的改进k-means++算法在审

申请号：	202210147830.1	申请日：	2022-02-17
公开（公告）号：	CN114511036A	公开（公告）日：	2022-05-17
发明（设计）人：	朱静;陈宇瀚;薛穗华;潘梓沛;韦国强;陈泳轩;叶志强;林静旖;尹邦政	申请（专利权）人：	广州大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京高航知识产权代理有限公司 11530	代理人：	刘艳玲
地址：	510006 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 knn 改进 means 算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于KNN的改进k‑means++算法，包括K‑means++算法，所述方法包括以下步骤：S1：输入包含n个数据对象的目标数据集D，数据集待聚类类簇数k，通过在初始类簇中心点选择时，第一个类簇中心点随机选取，后续的类簇中心点的选取将同时基于数据对象与最近邻的初始类簇中心点的距离，以及数据对象附近空间的稠密程度，其中，通过优化过后的中心点选取机制，那些远离已存在类簇中心点的高密度对象将有更大的可能性被选取为新的类簇中心点，由此中心点的选取不会过于随机而影响到聚类结果，在一定程度上提升了k‑means算法的聚类稳定性以及聚类质量，达到了使得中心点的选取更加合理且稳定，并提高聚类质量和聚类稳定性的效果。

技术领域

本发明涉及数据挖掘技术领域，具体为一种基于KNN的改进k-means++算法。

背景技术

近些年来，随着通信技术的飞速发展，全球的数据产量正呈现出爆炸性的增长态势。由国家数据公司(IDC)的报告可以知道，在2010年时，全球的数据产量首次突破1ZB，此后，全球数据的产量以每年40％的速度增长，在短短十年后，2021的今天已经突破了40ZB。从如此大量的数据中获取有价值的信息的过程称为数据挖掘，数据挖掘已经是当今互联网最重要的技术之一。

在数据挖掘过程中，聚类分析最广泛且常用的技术，截止目前，研究人员们已经提出了许多种不同的聚类算法并将这些聚类算法与实际应用相结合，发挥了重要作用。这些聚类算法可以划分成六种不同的类别：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法和基于图的聚类算法。而在众多的算法中，基于划分的K-means算法，凭借其实现简单，时间复杂度低，算法伸缩性强等优点，有着最广泛的应用，kmeans算法又名k均值算法，是一个重复移动类中心点的过程，把类的中心点，也称重心(centroids)，移动到其包含成员的平均位置，然后重新划分其内部成员。k是算法计算出的超参数，表示类的数量；Kmeans可以自动分配样本到不同的类，但是不能决定究竟要分几个类。k必须是一个比训练集样本数小的正整数。有时，类的数量是由问题内容指定的。其算法思想总结为：先从样本集中随机选取k个样本作为簇中心，并计算所有样本与这k个“簇中心”的距离，对于每一个样本，将其划分到与其距离最近的“簇中心”所在的簇中，对于新的簇计算各个簇的新的“簇中心”，但是由于初始聚类中心点的随机选取，对聚类的结果有很大程度的影响，导致结果不稳定且容易收敛于局部最优解。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于KNN的改进k-means++算法，解决了上述背景所提出的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种基于KNN的改进k-means++算法，包括K-means++算法，所述方法包括以下步骤：

S1：输入包含n个数据对象的目标数据集D，数据集待聚类类簇数k；

S2：根据公式计算目标数据集D内所有数据对象之间的欧氏距离，将欧氏距离信息存入距离分布矩阵D_n*n中；

S3：基于数据集中所包含数据对象的个数n，根据公式计算Eps邻域参数η；

S4：基于数据集距离分布矩阵D_n*n，每一行取出第η小的距离参数

得到距离数组D_η；

S5：基于距离数组D_η，根据公式对数组中的距离数据求平均，得到邻域参数Eps；

S6：根据公式A和公式B，统计数据对象的密度信息，即数据集中与该数据对象欧式距离小于或者等于邻域参数Eps的数据对象个数；