[发明专利]一种基于样本密度的全局优化K均值聚类方法及系统在审
申请号: | 201810525709.1 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108985318A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 许鸿文;薛印玺;陈雯;李羚;殷蔚明;谢靖 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 郝明琴 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类中心 全局优化 样本 初始聚类中心 初始中心点 迭代过程 高斯模型 聚类结果 偏移操作 传统的 数据集 准确率 聚类 全局 优化 改进 探索 发现 | ||
本发明针对传统K均值聚类方法中存在的聚类结果依赖于初始聚类中心极易陷入局部最优的问题,提出一种基于样本密度的全局优化K均值聚类KMS‑GOSD方法及系统。在迭代过程中,KMS‑GOSD方法首先通过高斯模型得到所有聚类中心的预估计密度值,然后将实际密度值低于预估计密度值最大的聚类中心进行偏移操作。通过优化聚类中心位置,KMS‑GOSD方法不仅能提升全局探索能力,而且可以克服对聚类初始中心点的依赖性。采用标准的UCI数据集进行本发明对比,发现改进后的方法相比传统的方法有较高的准确率和稳定性。
技术领域
本发明涉及机器学习中的快速密度峰值聚类领域,尤其涉及到一种基于样本密度的全局优化K均值聚类方法及系统。
背景技术
传统K-均值聚类方法具有简单有效、收敛速度快、便于处理大型数据集等优点,目前已经被广泛适用于科学研究和工业运用等许多领域。但复杂数据集中存在的全局探索能力弱、易陷入局部最优等问题,仍然是改进K均值研究中的重难点问题。
利用密度峰值聚类方法的核心思想,国内外学者对K均值方法进行以不同角度的分析及改进。国内如邢长征提出一种基于平均密度优化初始聚类中心的方法。采用在聚类之前分析数据对象的属性及结构,选取合适的初始聚类中心,代替传统K均值随机初始中心点,而保持传统K均值的迭代过程不变。国外学者提出在迭代过程通过核函数、自适应神经网络方法、差分进化方法等方法辅助K均值在全局范围内寻找密度高的样本点的方法。如文献《Approximate Normalized Cuts without Eigen-decomposition InformationSciences》中提出的通过使用近似加权核函数优化目标函数。
由于传统K均值对聚类中心敏感,从而聚类中心的选取将直接影响聚类准确率的高低。文献《K-means算法的初始聚类中心的优化》《一种基于局部密度的分布式聚类挖掘算法》指出聚类中心应处于团簇中样本密度相对较高的点。文献《一种改进的k-means初始聚类中心选取算法》《一种新的k-means聚类中心选取算法》《最小方差优化聚类中心的K-means算法》通过对理论分析及本发明效果表明:当聚类中心位于样本密度较高的点时,聚类准确率可以明显提升。
发明内容
针对传统K均值聚类方法中存在的聚类结果依赖于初始聚类中心极易陷入局部最优的问题,为避免对无用数据对象的过多分析及加快方法全局探索的速度,本发明提出基于样本密度的全局优化K均值聚类方法(Global Optimized K-means ClusteringAlgorithm based on Sample Density,简称KMS-GOSD)。在传统K均值聚类方法迭代的过程中,KMS-GOSD方法通过将实际密度值低于预估计密度值最大的一个聚类中心偏移到该类中大于预估计密度值的点,实现避免陷入局部最优,进而克服聚类结果对初始聚类中心的依赖性。同时在偏移前,加入与迭代次数成反比的衰减因子使预估计密度值逐渐降低,进而降低聚类中心的偏移概率。这样可以保证KMS-GOSD方法前期具有较强的全局探索能力,后期也具有较强的稳定性。
所述一种基于样本密度的全局优化K均值聚类方法包含以下步骤:
S1、获取包含N个样本点的原始数据集X、子簇个数K及比例参数Ra,其中N大于1;
S2、在所述原始数据集X中随机选取K个样本点作为初始聚类中心,记为wi,其中i=1,2,3,…,K;
S3、分别计算原始数据集中初始聚类中心以外的所有样本点距离每一个初始聚类中心wi的距离,并将所述原始数据集中初始聚类中心以外的所有样本点分配到距离其最近的初始聚类中心形成K个子簇;
S4、分别将所有子簇的质心记为Wi,根据公式计算Wi的预估计密度值Fi,t,并计算Wi实际密度值Fi,c;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810525709.1/2.html,转载请声明来源钻瓜专利网。