[发明专利]均值聚类方法及装置在审
申请号: | 202210240799.6 | 申请日: | 2022-03-10 |
公开(公告)号: | CN114662578A | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 程永龙 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 陈启天;黄健 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 均值 方法 装置 | ||
本申请提供一种均值聚类方法及装置,该均值聚类方法及装置可用于大数据领域,该均值聚类方法包括:获取第一数据集合,所述第一数据集合中包括N个样本数据;从N个样本数据中获取N1个样本数据,获得第二数据集合;从第二数据集合中,确定与第一样本数据的相似度大于或等于预设阈值的样本数据,所述第一样本数据包括从第二数据集合中随机选取的任意一个样本数据;将第一样本数据以及与第一样本数据的相似度大于或等于预设阈值的样本数据形成第一样本簇;将第一样本簇的中心值确定为第一初始质心;基于第一初始质心,将N个样本数据聚类成K类,所述K指示预设的聚类数量。本申请的均值聚类方法能够提升使用K均值聚类算法时的收敛速度。
技术领域
本申请涉及机器学习技术领域,尤其涉及一种均值聚类方法及装置。
背景技术
K均值聚类算法是一种常用的样本分类方法。具体地,K均值聚类算法的过程如下:首先,随机选取K个样本作为质心,其中,K表示聚类数量;然后,计算每个样本数据与各个质心的距离,并把每个样本数据分配给距离最近的质心,最终形成以K个样本簇;之后,对于每个样本簇,基于该样本簇中包括的所有样本数据,重新确定质心,直至满足K均值聚类的终止条件。
然而,目前的K均值聚类算法是通过随机选取的方式来选取初始化阶段的质心。这样的话,就会导致初始值对K均值聚类算法的计算结果影响较大。在这种情况下,就可能会出现因随机选取的质心不好而导致使用K均值聚类算法时的收敛速度缓慢的问题。
因此,如何选取初始化阶段的质心,以提升使用K均值聚类算法时的收敛速度,成为亟待解决的技术问题。
发明内容
本申请提供一种均值聚类方法及装置,能够提升使用K均值聚类算法时的收敛速度。
第一方面,本申请实施例提供一种均值聚类方法,包括:获取第一数据集合,所述第一数据集合中包括N个样本数据,N为正整数;从所述N个样本数据中获取N1个样本数据,获得第二数据集合,N1小于或等于N;从所述第二数据集合中,确定与第一样本数据的相似度大于或等于预设阈值的样本数据,所述第一样本数据包括从所述第二数据集合中随机选取的任意一个样本数据;将所述第一样本数据以及与所述第一样本数据的相似度大于或等于预设阈值的样本数据形成第一样本簇;将所述第一样本簇的中心值确定为第一初始质心;基于所述第一初始质心,将所述N个样本数据聚类成K类,所述K指示预设的聚类数量。
本实施例中,由于在确定K个初始质心的时候,其中的一个初始质心不是通过随机的方式选择的,而是通过将与第一样本数据以及与第一样本数据的相似度大于或等于预设阈值的样本数据形成的第一样本簇后的中心作为选取的初始质心,可以理解的是,通过将第一样本簇后的中心作为选取的初始质心,能够降低了选择出的初始质心是孤立点或噪声数据的概率,因此可以提升使用K均值聚类算法时的收敛速度,进一步地,由于在确定第一初始质心时,是基于第二数据集合来确定的,而第二数据集合的数据量小于第一数据集合,因此降低了计算相似度的时间,从而有助于减少初始化的时间。
结合第一方面,在一种可能的实现方式中,所述基于所述第一初始质心,将所述N个样本数据聚类成K类,包括:确定与第二样本数据的相似度大于或等于预设阈值的样本数据,所述第二样本数据为所述第二数据集中除所述第一样本簇包括的样本数据之外的且与所述第一初始质心的距离最大的样本数据;将所述第二样本数据以及所述第二数据集中除所述第一样本簇包括的样本数据之外的且与所述第二样本数据的相似度大于或等于预设阈值的样本数据形成第二样本簇;将所述第二样本簇的中心值确定为第二初始质心;相应地,基于所述第一初始质心,将所述N个样本数据聚类成K类,包括:基于所述第一初始质心和所述第二初始质心,将所述N个样本数据聚类成K类。
该实现方式中,还通过将与第二样本数据以及与第二本数据的相似度大于或等于预设阈值的样本数据形成的第二样本簇后的中心作为选取的初始质心,可以理解的是,通过将第二样本簇后的中心作为选取的初始质心,能够降低选择出的第二初始质心是孤立点或噪声数据的概率,因此可以在确定了第一初始质心的基础上,进一步提升使用K均值聚类算法时的收敛速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210240799.6/2.html,转载请声明来源钻瓜专利网。