[发明专利]一种加权投票聚类集成方法在审
| 申请号: | 201810915645.6 | 申请日: | 2018-08-13 |
| 公开(公告)号: | CN109214427A | 公开(公告)日: | 2019-01-15 |
| 发明(设计)人: | 杜航原 | 申请(专利权)人: | 山西大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
| 地址: | 030006*** | 国省代码: | 山西;14 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 聚类 聚类集合 加权 数据描述 标签 对齐 投票 相似性矩阵 一致性计算 符号空间 集成过程 集成学习 特征空间 最小分割 构建 权重 输出 分配 统一 | ||
本发明针对聚类集成过程中的基聚类产生的簇在数量、质量以及标签等方面难以统一的问题,提出了一种加权投票聚类集成方法,属于集成学习技术领域;技术方案为:首先计算基聚类集合中不同基聚类中任意两个簇在符号空间中进行数据描述的一致性,依据这一一致性计算基聚类集合中不同基聚类中任意两个簇之间的簇划分相似性并构建簇划分相似性矩阵,接着利用谱聚类方法对基聚类集合中的簇进行图最小分割处理实现这些簇的标签对齐,然后计算每个基聚类在特征空间中数据描述的一致性并以此为每个基聚类分配聚类集成权重,最终对标签对齐后的基聚类集合进行加权投票集成,生成最终聚类集成结果,并进行结果输出。
技术领域
本发明涉及集成学习技术领域,特别涉及一种加权投票聚类集成方法。
背景技术
集成学习一般是综合多个学习器的学习结果解决同一个问题,最终得出一个更为优化的结果。聚类集成是集成学习中的一个分支,它是为了解决无监督的聚类分析中可能因为样本的特殊数据分布与聚类假设不匹配,导致聚类结果不理想的问题。聚类集成的宗旨是合并某个数据集的多重单一聚类结果,将其转化成一个统一的、综合的聚类结果,最终使得集成后的聚类结果在聚类质量、鲁棒性等方面优于单一聚类算法的结果。近几年,聚类集成得到了很多学者的关注,其中研究的重点主要是关于怎样生成更好的聚类集体及怎样更好地集成聚类集体中的成员得到最终的聚类划分结果两个方面。
公开号为CN107169511A的专利《基于混合聚类集成选择策略的聚类集成方法》公开了一种基于混合聚类集成选择策略的聚类集成方法,步骤包括:输入测试数据集样本矩阵X;对数据集样本矩阵X进行聚类操作,生成基础聚类结果集合;将基础聚类结果集合转换到新特征空间,且基础聚类结果集合中的每一个聚类结果作为新特征空间的每一个特征;使用特征选择技术对特征进行聚类集成选择,得到聚类结果子集;对聚类结果子集使用赋权函数获得最终聚类结果子集;集成最终聚类结果子集,得到最终聚类结果。该发明将聚类集成选择问题转化为特征选择问题,具有创新性;从多角度生成基础聚类结果,更具多样性;利用特征选择算法进行优化,避免人为因素及冗余度问题;考虑了局部和全局权重,有机结合各聚类结果子集,提升聚类准确性。公开号为CN103995821A的专利《一种基于谱聚类算法的选择性聚类集成方法》公开了一种基于谱聚类算法的选择性聚类集成方法,包括以下步骤:基聚类生成;基于谱聚类算法选择代表成员;对代表成员进行集成;结束。该发明的显著优点是:实现简单且可以有效提升聚类集成的效果。公开号为CN105139414A的专利《用于X光片图像数据的聚类集成方法》公开了一种用于X光片图像数据的聚类集成方法,包括以下步骤:S01:对X光片图像预处理后,从图像中获取数据;S02:获得图像中每一个点的灰度值Gi,j存储在灰度值矩阵G中,Gi,j表示图像中第i行,第j列点的灰度值;S03:用基于K均值改进算法的聚类集成算法或者基于层次聚类改进算法对灰度值矩阵G进行聚类分析处理;S04:使用HGPA算法进行集成运算。基于K均值改进算法的聚类集成算法改进了K个初始簇中心的选取,改进后的层次聚类算法在数据预处理过程中将数据进行了简化,将灰度值相同的点先划分在了同一个簇中,初始簇数量最多只有256个。可以降低X光片的观察难度甚至能够找出外源性异物,从而辅助医生的诊断。
聚类集成能够提高聚类结果的质量和鲁棒性,在处理具有多重视角的数据集聚类任务时更具优势,但聚类集成也面临三个难点:首先,不同的基聚类算法可能会产生不同数目、不同结果的簇,难以直接整合成一个统一结果。第二、聚类集成结果中包含的簇的数目事先无法获知,而且该数目还有可能取决于样本的规模。第三,簇的标签是一种符号化表示形式,因此需要校准不同基聚类结果之间的簇标签,使得不同基聚类结果之间的簇标签是一致的。
发明内容
本发明要解决的技术问题是:设计一种聚类集成方法,能够自动确定最终聚类集成结果中的簇数目,利用基聚类中不同数目、不同结果以及不同标签的簇生成一个具有较高鲁棒性和可靠性的聚类集成结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810915645.6/2.html,转载请声明来源钻瓜专利网。





