[发明专利]一种面向K均值聚类算法的质心以及质心个数初始化方法在审

申请号：	201811245231.3	申请日：	2018-10-24
公开（公告）号：	CN109472300A	公开（公告）日：	2019-03-15
发明（设计）人：	徐小龙;徐浩严	申请（专利权）人：	南京邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林
地址：	210023 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种面向K均值聚类算法的质心以及质心个数初始化方法，包括：将数据离散后，计算每一维度数据的信息熵；根据信息熵排序选出两个混乱程度最低的数据，通过降维找出特征最小的方向作为X轴重新建立坐标系，生成新的两维数据；通过Y轴数据绘制密度曲线，将已有数据分为若干簇；Y轴数据代替原来两个信息熵较低的数据继续进行计算，直到所有维度数据都参与运算；最终得到若干簇，通过原数据计算质心。本发明无需提供K值，对于未知簇个数的数据可以得到准确的K值，并且初始化质心后可以减少迭代次数，快速收敛，同时提高K均值算法的稳定性，满足了对于簇的个数不明确以及随机质心对结果影响较大的数据集的需求。
搜索关键词：	质心初始化信息熵维度结果影响均值算法快速收敛两维数据密度曲线数据代替重新建立数据集原数据迭代降维排序运算绘制混乱
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向K均值聚类算法的质心以及质心个数初始化方法，其特征在于，包括以下步骤：步骤1：对数据集中的数据进行聚类特征提取，将数据提取出新的特征，其中，聚类特征提取是指将一个二维数据映射到数据最密集的方向上；步骤2：利用提取出的新的特征绘制密度曲线，将密度曲线极大值处的数据密度初始化为这一维数据的质心，根据获得的质心将当前这一维数据划分为若干簇，再根据所得的簇将数据集划分为若干簇，其中，密度曲线描述数据在所处位置处的密集程度；步骤3：利用叠加式簇的划分将高维数据划分为若干簇，其中，叠加式簇的划分是指通过每一维数据的叠加将数据划分为若干簇；最终得到的簇的个数初始化为K均值聚类的初值，再求取每个簇元素的平均值初始化为K均值聚类的质心。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811245231.3/，转载请声明来源钻瓜专利网。

上一篇：一种基于智能卡大数据的贫困大学生识别方法
下一篇：一种车辆长度计算方法、装置、系统及计算机设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向K均值聚类算法的质心以及质心个数初始化方法在审

专利文献下载