[发明专利]一种基于样本密度的全局优化K均值聚类方法及系统在审

申请号：	201810525709.1	申请日：	2018-05-28
公开（公告）号：	CN108985318A	公开（公告）日：	2018-12-11
发明（设计）人：	许鸿文;薛印玺;陈雯;李羚;殷蔚明;谢靖	申请（专利权）人：	中国地质大学（武汉）
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	武汉知产时代知识产权代理有限公司 42238	代理人：	郝明琴
地址：	430000 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明针对传统K均值聚类方法中存在的聚类结果依赖于初始聚类中心极易陷入局部最优的问题，提出一种基于样本密度的全局优化K均值聚类KMS‑GOSD方法及系统。在迭代过程中，KMS‑GOSD方法首先通过高斯模型得到所有聚类中心的预估计密度值，然后将实际密度值低于预估计密度值最大的聚类中心进行偏移操作。通过优化聚类中心位置，KMS‑GOSD方法不仅能提升全局探索能力，而且可以克服对聚类初始中心点的依赖性。采用标准的UCI数据集进行本发明对比，发现改进后的方法相比传统的方法有较高的准确率和稳定性。
搜索关键词：	聚类中心全局优化样本初始聚类中心初始中心点迭代过程高斯模型聚类结果偏移操作传统的数据集准确率聚类全局优化改进探索发现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于样本密度的全局优化K均值聚类方法，其特征在于，包含以下步骤：S1、获取包含N个样本点的原始数据集X、子簇个数K及比例参数Ra，其中N大于1；S2、在所述原始数据集X中随机选取K个样本点作为初始聚类中心，记为wi,其中i＝1,2,3,…,K；S3、分别计算原始数据集中初始聚类中心以外的所有样本点距离每一个初始聚类中心wi的距离，并将所述原始数据集中初始聚类中心以外的所有样本点分配到距离其最近的初始聚类中心形成K个子簇；S4、分别将所有子簇的质心记为W_i，根据公式计算W_i的预估计密度值F_i,t，并计算W_i实际密度值F_i,c；其中m为所述迭代次数的最大迭代次数且为预设值，t表示当前的迭代次数，2(3φσ×Ra)的值根据标准正态分布函数查表得出；S5、将每个子簇的质心Wi作为新的聚类中心，分别判断每个新的聚类中心所在的子簇中是否存在实际密度值Fi,c小于预估计密度值Fi,t的样本点，如果不存在，跳转到S10；如果存在，跳转到S6；S6、获取实际密度值Fi,c与预估计密度值Fi,t的差值绝对值最大的样本点所在的子簇；S7、在S6得到的子簇中，随机获取若干个样本点，并分别计算所述若干个样本点的实际密度值Fi,c；S8、判断所述若干个个样本点中是否存在实际密度值Fi,c大于预估计密度值Fi,t的样本点；如果存在，则跳转到S10；否则跳转到S9；S9、将实际密度值Fi,c与预估计密度值Fi,t差值绝对值最大的样本点作为新的聚类中心，然后执行步骤S10；S10、判断聚类中心Wi是否不再改变，若满足则跳转到S11；否则迭代次数t更新为t+1，将新的聚类中心作为新的初始聚类中心，跳转到S3；S11、输出聚类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国地质大学（武汉），未经中国地质大学（武汉）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810525709.1/，转载请声明来源钻瓜专利网。

上一篇：一种基于可分离卷积和注意力机制的图像分类方法
下一篇：影像对应判断方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于样本密度的全局优化K均值聚类方法及系统在审

专利文献下载