[发明专利]一种面向K均值聚类算法的质心以及质心个数初始化方法在审
申请号: | 201811245231.3 | 申请日: | 2018-10-24 |
公开(公告)号: | CN109472300A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 徐小龙;徐浩严 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种面向K均值聚类算法的质心以及质心个数初始化方法,包括:将数据离散后,计算每一维度数据的信息熵;根据信息熵排序选出两个混乱程度最低的数据,通过降维找出特征最小的方向作为X轴重新建立坐标系,生成新的两维数据;通过Y轴数据绘制密度曲线,将已有数据分为若干簇;Y轴数据代替原来两个信息熵较低的数据继续进行计算,直到所有维度数据都参与运算;最终得到若干簇,通过原数据计算质心。本发明无需提供K值,对于未知簇个数的数据可以得到准确的K值,并且初始化质心后可以减少迭代次数,快速收敛,同时提高K均值算法的稳定性,满足了对于簇的个数不明确以及随机质心对结果影响较大的数据集的需求。 | ||
搜索关键词: | 质心 初始化 信息熵 维度 结果影响 均值算法 快速收敛 两维数据 密度曲线 数据代替 重新建立 数据集 原数据 迭代 降维 排序 运算 绘制 混乱 | ||
【主权项】:
1.一种面向K均值聚类算法的质心以及质心个数初始化方法,其特征在于,包括以下步骤:步骤1:对数据集中的数据进行聚类特征提取,将数据提取出新的特征,其中,聚类特征提取是指将一个二维数据映射到数据最密集的方向上;步骤2:利用提取出的新的特征绘制密度曲线,将密度曲线极大值处的数据密度初始化为这一维数据的质心,根据获得的质心将当前这一维数据划分为若干簇,再根据所得的簇将数据集划分为若干簇,其中,密度曲线描述数据在所处位置处的密集程度;步骤3:利用叠加式簇的划分将高维数据划分为若干簇,其中,叠加式簇的划分是指通过每一维数据的叠加将数据划分为若干簇;最终得到的簇的个数初始化为K均值聚类的初值,再求取每个簇元素的平均值初始化为K均值聚类的质心。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811245231.3/,转载请声明来源钻瓜专利网。