[发明专利]一种基于样本密度的全局优化K均值聚类方法及系统在审
申请号: | 201810525709.1 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108985318A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 许鸿文;薛印玺;陈雯;李羚;殷蔚明;谢靖 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 郝明琴 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明针对传统K均值聚类方法中存在的聚类结果依赖于初始聚类中心极易陷入局部最优的问题,提出一种基于样本密度的全局优化K均值聚类KMS‑GOSD方法及系统。在迭代过程中,KMS‑GOSD方法首先通过高斯模型得到所有聚类中心的预估计密度值,然后将实际密度值低于预估计密度值最大的聚类中心进行偏移操作。通过优化聚类中心位置,KMS‑GOSD方法不仅能提升全局探索能力,而且可以克服对聚类初始中心点的依赖性。采用标准的UCI数据集进行本发明对比,发现改进后的方法相比传统的方法有较高的准确率和稳定性。 | ||
搜索关键词: | 聚类中心 全局优化 样本 初始聚类中心 初始中心点 迭代过程 高斯模型 聚类结果 偏移操作 传统的 数据集 准确率 聚类 全局 优化 改进 探索 发现 | ||
【主权项】:
1.一种基于样本密度的全局优化K均值聚类方法,其特征在于,包含以下步骤:S1、获取包含N个样本点的原始数据集X、子簇个数K及比例参数Ra,其中N大于1;S2、在所述原始数据集X中随机选取K个样本点作为初始聚类中心,记为wi,其中i=1,2,3,…,K;S3、分别计算原始数据集中初始聚类中心以外的所有样本点距离每一个初始聚类中心wi的距离,并将所述原始数据集中初始聚类中心以外的所有样本点分配到距离其最近的初始聚类中心形成K个子簇;S4、分别将所有子簇的质心记为Wi,根据公式
计算Wi的预估计密度值Fi,t,并计算Wi实际密度值Fi,c;其中m为所述迭代次数的最大迭代次数且为预设值,t表示当前的迭代次数,2(3φσ×Ra)的值根据标准正态分布函数查表得出;S5、将每个子簇的质心Wi作为新的聚类中心,分别判断每个新的聚类中心所在的子簇中是否存在实际密度值Fi,c小于预估计密度值Fi,t的样本点,如果不存在,跳转到S10;如果存在,跳转到S6;S6、获取实际密度值Fi,c与预估计密度值Fi,t的差值绝对值最大的样本点所在的子簇;S7、在S6得到的子簇中,随机获取若干个样本点,并分别计算所述若干个样本点的实际密度值Fi,c;S8、判断所述若干个个样本点中是否存在实际密度值Fi,c大于预估计密度值Fi,t的样本点;如果存在,则跳转到S10;否则跳转到S9;S9、将实际密度值Fi,c与预估计密度值Fi,t差值绝对值最大的样本点作为新的聚类中心,然后执行步骤S10;S10、判断聚类中心Wi是否不再改变,若满足则跳转到S11;否则迭代次数t更新为t+1,将新的聚类中心作为新的初始聚类中心,跳转到S3;S11、输出聚类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810525709.1/,转载请声明来源钻瓜专利网。