[发明专利]一种面向K均值聚类算法的质心以及质心个数初始化方法在审

专利信息
申请号: 201811245231.3 申请日: 2018-10-24
公开(公告)号: CN109472300A 公开(公告)日: 2019-03-15
发明(设计)人: 徐小龙;徐浩严 申请(专利权)人: 南京邮电大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 南京纵横知识产权代理有限公司 32224 代理人: 董建林
地址: 210023 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 质心 初始化 信息熵 维度 结果影响 均值算法 快速收敛 两维数据 密度曲线 数据代替 重新建立 数据集 原数据 迭代 降维 排序 运算 绘制 混乱
【说明书】:

发明提供了一种面向K均值聚类算法的质心以及质心个数初始化方法,包括:将数据离散后,计算每一维度数据的信息熵;根据信息熵排序选出两个混乱程度最低的数据,通过降维找出特征最小的方向作为X轴重新建立坐标系,生成新的两维数据;通过Y轴数据绘制密度曲线,将已有数据分为若干簇;Y轴数据代替原来两个信息熵较低的数据继续进行计算,直到所有维度数据都参与运算;最终得到若干簇,通过原数据计算质心。本发明无需提供K值,对于未知簇个数的数据可以得到准确的K值,并且初始化质心后可以减少迭代次数,快速收敛,同时提高K均值算法的稳定性,满足了对于簇的个数不明确以及随机质心对结果影响较大的数据集的需求。

技术领域

本发明涉及一种数据聚类方法,属于机器学习领域,主要用于实现初始化K均值聚类的K值以及质心,具体为一种面向K均值聚类算法的质心以及质心个数初始化方法。

背景技术

K均值算法(Lloyod,1982)是简单而又有效的统计聚类算法,使机器能够将具有相同属性的样本归置到一块儿。与分类不同,对于一个分类器,通常需要告诉它“这个样本被分成哪些类”这样一些标签,在最理想情况下,一个分类器会从所得到的训练集中进行“学习”,我们将这种提供训练的过程称为“监督学习”。但是在聚类下,我们并不关心某一类是什么,我们的目的是想将相似的样本归置在一起,这样,一个聚类算法通常只要知道该如何计算样本间的相似度并将相似样本归并到一起就可以操作了,因此聚类通常并不需要使用训练数据进行学习,这在机器学习中被称作“无监督学习”。K均值算法就是这种用于统计的无监督聚类技术。

K均值算法操作简单、运算速度较快,能够有效处理中小型数据集。但同时K均值算法也有不足之处,包含以下几点:

(1)聚类结果不确定

K均值算法初始聚类中心是随机选择的,初始中心点选取的好坏会导致最终聚类效果。选取不同初始聚类中心,会使得最终聚类得到的类簇发生变化。除此之外,K均值算法一般采用准则函数为目标函数,准则函数中只存在一个全局最小值和N个极小值,这使得算法运算过程中,会陷入局部极小值,导致最终得到的不是全局最优解。

(2)聚类个数不确定

K均值算法中K表示聚簇个数,K的取值决定聚类结果。K值的选取需要根据实际的需求来确定,但通常情况下我们并不知道需将数据集聚为多少个类簇最合适,所以针对K值的选取依然有待解决。

(3)数据量大、算法时间复杂度较高

K均值算法的计算过程是一个不断迭代的过程,为寻找合适的聚类中心,需要不断的计算和调整才能对数据对象进行有效的聚类。这个过程中反复进行大量的对象间距离的计算,所以K均值聚类过程会消耗大量时间,降低聚类运算效率。

为了解决K值初始化问题,目前采用的方式是手肘法与轮廓系数法。这两种方法都需要对数据进行多次聚类得到每次的聚类结果,再通过不同的评估标准来选取最优的K值。这两种方法需要进行多次不同K值的K均值聚类,这使得算法开销较大。

为了解决K值初始化问题,目前采用的方式是进行基于密度的聚类,根据密度的到簇,在求得质心作为K均值的初始质心。从层次聚类中提取K个簇,并用这些簇的质心作为初始质心。该方法通常很有效,但仅对下列情况有效,样本相对较小,例如数百到数千(层次聚类开销较大),K相对于样本大小较小。

本发明针对目前初始化K值与质心存在的问题,给出了一种开销较小的初始化方法。

发明内容

针对现有技术的不足,本发明提供一种面向K均值聚类算法的质心以及质心个数初始化方法。相比传统K均值聚类算法,本发明的算法无需提供K值,对于未知簇个数的数据可以得到准确的K值,满足了对于簇的个数不明确以及随机质心对结果影响较大的数据集的需求。

本发明采用的技术方案如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811245231.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top