[发明专利]一种加权投票聚类集成方法在审
| 申请号: | 201810915645.6 | 申请日: | 2018-08-13 |
| 公开(公告)号: | CN109214427A | 公开(公告)日: | 2019-01-15 |
| 发明(设计)人: | 杜航原 | 申请(专利权)人: | 山西大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 太原晋科知识产权代理事务所(特殊普通合伙) 14110 | 代理人: | 任林芳 |
| 地址: | 030006*** | 国省代码: | 山西;14 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: |
本发明针对聚类集成过程中的基聚类产生的簇在数量、质量以及标签等方面难以统一的问题,提出了一种加权投票聚类集成方法,属于集成学习技术领域;技术方案为:首先计算基聚类集合 |
||
| 搜索关键词: | 聚类 聚类集合 加权 数据描述 标签 对齐 投票 相似性矩阵 一致性计算 符号空间 集成过程 集成学习 特征空间 最小分割 构建 权重 输出 分配 统一 | ||
【主权项】:
1.一种加权投票聚类集成方法,包括以下步骤:S10、计算基聚类集合
中不同基聚类中任意两个簇在符号空间中进行数据描述的一致性:首先,计算聚类符号向量集合Φ关于数据集X的条件信息熵,用于表示利用数据集X对符号空间数据描述的不确定性;接着,计算聚类符号向量集合Φ关于基聚类集合
中不同基聚类中两个簇的条件信息熵,用于表示利用这两个簇在符号空间中数据描述的不确定性;再计算聚类符号向量集合Φ的以上两个条件信息熵的差值作为这两个簇在符号空间中数据描述的一致性,以此类推计算基聚类集合
中不同基聚类中任意两个簇在符号空间中数据描述的一致性;S20、计算基聚类集合
中不同基聚类中任意两个簇之间的簇划分相似性,用于对不同基聚类内数据分布结构的相似性进行度量;S30、构建基聚类集合的簇划分相似性矩阵,将基聚类集合中簇的标签对齐任务转换为图最小分割问题;S40、利用谱聚类方法对基聚类中的所有簇构成的集合Ω进行图最小分割处理,实现对基聚类集合中簇的标签对齐;S50、利用高斯核函数
对特征空间中的数据集
进行数据标准化映射,即
使处理得到的标准化数据集
服从高斯分布,其中ψi表示标准化数据集中的第i个样本;S60、计算每个基聚类在特征空间中数据描述的一致性:首先,计算标准化数据集Ψ关于数据集X的条件信息熵,用于表示利用数据集X在特征空间中数据描述的不确定性;接着,计算标准化数据集Ψ关于某个基聚类的条件信息熵,用于表示该基聚类在特征空间中数据描述的不确定性;计算标准化数据集Ψ的以上两个条件信息熵的差值作为该基聚类在特征空间中数据描述的一致性,以此类推计算每个基聚类在特征空间中数据描述的一致性;S70、利用步骤S50获得的每个基聚类在特征空间中数据描述的一致性计算各基聚类的聚类集成权重;S80、对步骤S30获得的标签对齐后的基聚类集合进行加权投票集成,生成最终的聚类集成结果,并将结果输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810915645.6/,转载请声明来源钻瓜专利网。





