[发明专利]一种基于小子集分组的聚类方法在审

申请号：	201611133746.5	申请日：	2016-12-10
公开（公告）号：	CN106778858A	公开（公告）日：	2017-05-31
发明（设计）人：	梅建萍	申请（专利权）人：	浙江工业大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	杭州赛科专利代理事务所(普通合伙)33230	代理人：	郭薇
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于子集分组方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算；推算；计数的技术领域，特别涉及一种基于小子集分组的聚类方法。

背景技术

在很多领域的数据处理和分析问题中，需要用聚类算法把一个数据集中的样本进行分组，从而基于分组结果对整个数据集的内部结构进行快速浏览、分析和处理。

现有的聚类方法绝大多数是基于数据集中对象之间某些特征的相似度来对其进行分组，使得在同一个组内的对象之间比属于不同组的对象之间的相似度更高。这种完全基于数据的、或是借用少部分监督信息，如两两之间约束的聚类依赖于有效的特征表示以及有效的相似度衡量。在现实应用中，通常需要具有一定专业知识和经验的专家来定义和选取特征及相似度度量来保证达到比较理想的聚类效果。

近几年，众包技术被提出并在机器学习领域得到成功应用。众包聚类的思想是借助众包平台发布一系列子数据集的分组任务，然后从收集到的子集分组进行整合得到对整个数据集的聚类。显然，在上述众包聚类中，如何从很多个子集分组结果得到对整个数据集的全局聚类是一个关键问题。

发明内容

本发明解决的技术问题是，现有技术中，众包技术被提出并在机器学习领域得到成功应用，众包聚类中得到很多个子数据集的分组，但这些子数据集包含的样本数目很小，导致子集之间的重叠度很小，因此产生从子集分组得到对整个数据集的全局聚类的问题，本发明提供了一种优化的基于小子集分组的聚类方法。

本发明所采用的技术方案是，一种基于小子集分组的聚类方法，所述方法包括以下步骤：

步骤1：从包含N个样本的数据集中随机抽样，产生样本容量为s_i的h个子集C_i；将每个子集C_i分为k_i个组，即其中，1≤k_i≤s_i；

步骤2：逐个考虑每个子集C_i的分组结果，累计得到所有样本两两关系矩阵W；

步骤3：计算样本关系矩阵W的规范化拉普拉斯矩阵L；

步骤4：对L进行特征分解，得到k个对应最小特征值的特征向量组成的矩阵V＝[v₁,v₂...v_k]，其中，v_c对应第c小的特征值的特征向量，c＝1,2...k，1<k<N；

步骤5：归一化V中的横向量，使得V中的横向量中各个元素之和为1，其中，v_pf为V中第p行第f列的元素，为横向量归一化后对应位置元素的值；

步骤6：基于构成用k-means得到所有对象聚类；

步骤7：输出聚类结果。

优选地，所述步骤1中，s_i≤10。