[发明专利]一种基于样本密度的全局优化K均值聚类方法及系统在审
申请号: | 201810525709.1 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108985318A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 许鸿文;薛印玺;陈雯;李羚;殷蔚明;谢靖 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 郝明琴 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类中心 全局优化 样本 初始聚类中心 初始中心点 迭代过程 高斯模型 聚类结果 偏移操作 传统的 数据集 准确率 聚类 全局 优化 改进 探索 发现 | ||
1.一种基于样本密度的全局优化K均值聚类方法,其特征在于,包含以下步骤:
S1、获取包含N个样本点的原始数据集X、子簇个数K及比例参数Ra,其中N大于1;
S2、在所述原始数据集X中随机选取K个样本点作为初始聚类中心,记为wi,其中i=1,2,3,…,K;
S3、分别计算原始数据集中初始聚类中心以外的所有样本点距离每一个初始聚类中心wi的距离,并将所述原始数据集中初始聚类中心以外的所有样本点分配到距离其最近的初始聚类中心形成K个子簇;
S4、分别将所有子簇的质心记为Wi,根据公式计算Wi的预估计密度值Fi,t,并计算Wi实际密度值Fi,c;
其中m为所述迭代次数的最大迭代次数且为预设值,t表示当前的迭代次数,2(3φσ×Ra)的值根据标准正态分布函数查表得出;
S5、将每个子簇的质心Wi作为新的聚类中心,分别判断每个新的聚类中心所在的子簇中是否存在实际密度值Fi,c小于预估计密度值Fi,t的样本点,如果不存在,跳转到S10;如果存在,跳转到S6;
S6、获取实际密度值Fi,c与预估计密度值Fi,t的差值绝对值最大的样本点所在的子簇;
S7、在S6得到的子簇中,随机获取若干个样本点,并分别计算所述若干个样本点的实际密度值Fi,c;
S8、判断所述若干个个样本点中是否存在实际密度值Fi,c大于预估计密度值Fi,t的样本点;如果存在,则跳转到S10;否则跳转到S9;
S9、将实际密度值Fi,c与预估计密度值Fi,t差值绝对值最大的样本点作为新的聚类中心,然后执行步骤S10;
S10、判断聚类中心Wi是否不再改变,若满足则跳转到S11;否则迭代次数t更新为t+1,将新的聚类中心作为新的初始聚类中心,跳转到S3;
S11、输出聚类结果。
2.根据权利要求1所述一种基于样本密度的全局优化K均值聚类方法,其特征在于,所述实际密度值Fi,c根据公式来计算,其中dij为Wi到第i个子簇中第j个样本点nij的欧氏距离,Si表示第i个子簇中样本点的个数,j为第j个样本点,c∈[1,cmax],cmax为预设的最大偏移次数,r=R×Ra;R为任一子簇中聚类中心离所在子簇中样本点的最远距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810525709.1/1.html,转载请声明来源钻瓜专利网。