[发明专利]一种基于KNN的改进k-means++算法在审
| 申请号: | 202210147830.1 | 申请日: | 2022-02-17 |
| 公开(公告)号: | CN114511036A | 公开(公告)日: | 2022-05-17 |
| 发明(设计)人: | 朱静;陈宇瀚;薛穗华;潘梓沛;韦国强;陈泳轩;叶志强;林静旖;尹邦政 | 申请(专利权)人: | 广州大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 北京高航知识产权代理有限公司 11530 | 代理人: | 刘艳玲 |
| 地址: | 510006 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 knn 改进 means 算法 | ||
1.一种基于KNN的改进k-means++算法,包括K-means++算法,其特征在于,所述方法包括以下步骤:
S1:输入包含n个数据对象的目标数据集D,数据集待聚类类簇数k;
S2:根据公式计算目标数据集D内所有数据对象之间的欧氏距离,将欧氏距离信息存入距离分布矩阵Dn*n中;
S3:基于数据集中所包含数据对象的个数n,根据公式计算Eps邻域参数η;
S4:基于数据集距离分布矩阵Dn*n,每一行取出第η小的距离参数得到距离数组Dη;
S5:基于距离数组Dη,根据公式对数组中的距离数据求平均,得到邻域参数Eps;
S6:根据公式A和公式B,统计数据对象的密度信息,即数据集中与该数据对象欧式距离小于或者等于邻域参数Eps的数据对象个数;
S7:定义一个空的集合T,将数据集D中的数据对象信息与对应数据对象的密度信息放入集合T;
S8:定义一个空的集合V,用于存放类簇中心点;
S9:从集合T中随机选取一个数据对象放入V,作为初始聚类中心点,然后从集合T中移除该点;
S10:根据公式统计集合T中数据对象与集合V中类簇中心点欧氏距离的最小值;
S11:从集合T中选取一个数据对象V加入类簇中心点集中,作为新的簇中心点,对于集合T中的数据对象,根据公式(确定被选定为类簇中心点的权重),数据对象被加入的概率为从集合T中移除被加入类簇中心点集V的数据对象;
S12:重复迭代S10、S11,直到集合V中的数据对象个数为k为止;
S13:将S12中得到的集合V中的数据对象作为K-means++聚类算法的初始类簇中心点参与K-means++聚类;
S14:计算数据集D中每个数据对象与k个类簇中心点之间的距离,然后将数据对象分配到对象与中心点的欧式距离最近的类簇中心点所代表的类簇中;
S15:统计每个类簇中的所有数据对象,取它们的均值作为新的类簇中心点,更新类簇中心点;
S16:迭代执行S14、S15两步骤,直至类簇中心点收敛不变;
S17:输出聚类结果。
2.根据权利要求1所述的一种基于KNN的改进k-means++算法,其特征在于,所述S2中的公式为:
3.根据权利要求1所述的一种基于KNN的改进k-means++算法,其特征在于,所述S3中的公式为:
4.根据权利要求1所述的一种基于KNN的改进k-means++算法,其特征在于,所述S5中的公式为:
5.根据权利要求1所述的一种基于KNN的改进k-means++算法,其特征在于,所述S6中的公式A和公式B分别为:和
6.一种基于KNN的改进k-means++算法,其特征在于,所述S10中的公式为:d(xi,V)=min(d(xi,vj)),j∈(1,k)。
7.一种基于KNN的改进k-means++算法,其特征在于,所述S11中的公式为:w(tj)=d(tj,V)*ρ(tj),j∈(1,n-1)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210147830.1/1.html,转载请声明来源钻瓜专利网。





