[发明专利]初始样本选择方法及装置在审
申请号: | 201611147797.3 | 申请日: | 2016-12-13 |
公开(公告)号: | CN106778864A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 董超;崔朝辉 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 薛娇,王宝筠 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 初始 样本 选择 方法 装置 | ||
技术领域
本发明涉及聚类技术领域,更具体地说,涉及一种初始样本选择方法及装置。
背景技术
在数据挖掘过程中,通常会应用到聚类。聚类是将物理或抽象对象的集合(即样本集合)分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。目前,在较常用的聚类算法中,有一类聚类算法,例如,K-Means算法,K-Medoids算法等,在算法开始之前,需要从样本集合中选择k个样本作为初始样本(也叫初始聚类中心),这个过程一般是在样本集合中随机选择k个样本作为初始样本。然而,不同的初始样本所导致的算法的收敛速度也不同,还会影响最终的聚类效果。因此,随机选择k个初始样本容易出现聚类算法的收敛速度慢、聚类效果差的问题。
因此,如何选择初始样本以克服聚类算法的收敛速度慢、聚类效果差的问题成为亟待解决的问题。
发明内容
本发明的目的是提供一种初始样本选择方法及装置,以克服聚类算法的收敛速度慢、聚类效果差的问题。
为实现上述目的,本发明提供了如下技术方案:
一种初始样本选择方法,包括:
构建样本集合中样本的原始连通图;所述原始连通图中的每一个节点表征所述样本集合中的一个样本,所述原始连通图中的节点两两相连,所述原始连通图中任意两个节点之间边的权重为该两个节点所表征的两个样本的相似度;
生成所述原始连通图的最小生成树;
删除所述最小生成树中相似度最小的K-1条边,得到K个子连通图,K为聚类算法需要选择的初始样本的个数;
从每一个所述子连通图中的节点对应的样本中选择一个样本作为初始样本。
本发明实施例用通过上述方法获取的K个子连通图模拟样本的分布情况,因而从K个子连通图中选择的初始样本更接近真实的聚类中心,基于本发明提供的初始样本选择方法选择的初始样本,克服了通过随机选择初始样本点导致聚类算法的收敛速度慢、聚类效果差的问题。
上述方法,优选的,所述从每一个所述子连通图中的节点对应的样本中选择一个样本作为初始样本,包括:
从每一个所述子连通图中的节点对应的样本中,随机选择一个样本作为初始样本。
上述方法,优选的,所述从每一个所述子连通图中的节点对应的样本中选择一个样本作为初始样本,包括:
对于所述子连通图中的节点对应的样本中的每一个样本,将该样本到所述子连通图中的节点对应的样本中的其它样本之间的相似度求和,得到与该样本对应的求和结果;
选择与最大求和结果对应的样本作为初始样本。
与前一实施例相比,本实施例所选择的初始样本更加接近真实的聚类中心。
上述方法,优选的,所述生成所述原始连通图的最小生成树,包括:
从所述样本集合中选择一个样本作为所述最小生成树的初始节点;
将所述样本集合中未加入所述最小生成树的样本依次加入所述最小生成树,包括:每次将一个样本加入所述最小生成树之后,获取每一个未加入所述最小生成树的样本,与已加入所述最小生成树中的各个样本之间的相似度;确定最大相似度;将该最大相似度对应的一个未加入所述最小生成树的样本与该最大相似度对应的已加入所述最小生成树的样本相连,直至所有样本均加入到所述最小生成树。
上述方法,优选的,所述生成所述原始连通图的最小生成树,包括:
按照两两样本之间的相似度从大到小的顺序,依次将满足预设条件的两个样本相连,直至所述样本集合中的每一个样本均与所述样本集合中的至少一个其它样本相连;
其中,两个样本满足预设条件包括:所述两个样本相连后,所有已连接的样本未构成任何回路。
一种初始样本选择装置,包括:
构建模块,用于构建样本集合中样本的原始连通图;所述原始连通图中的每一个节点表征所述样本集合中的一个样本,所述原始连通图中的节点两两相连,所述原始连通图中任意两个节点之间边的权重为该两个节点所表征的两个样本的相似度;
生成模块,用于生成所述原始连通图的最小生成树;
删除模块,用于删除所述最小生成树中相似度最小的K-1条边,得到K个子连通图,K为聚类算法需要选择的初始样本的个数;
选择模块,用于从每一个所述子连通图中的节点对应的样本中选择一个样本作为初始样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611147797.3/2.html,转载请声明来源钻瓜专利网。