[发明专利]一种加权投票聚类集成方法在审

专利信息
申请号: 201810915645.6 申请日: 2018-08-13
公开(公告)号: CN109214427A 公开(公告)日: 2019-01-15
发明(设计)人: 杜航原 申请(专利权)人: 山西大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 太原晋科知识产权代理事务所(特殊普通合伙) 14110 代理人: 任林芳
地址: 030006*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明针对聚类集成过程中的基聚类产生的簇在数量、质量以及标签等方面难以统一的问题,提出了一种加权投票聚类集成方法,属于集成学习技术领域;技术方案为:首先计算基聚类集合中不同基聚类中任意两个簇在符号空间中进行数据描述的一致性,依据这一一致性计算基聚类集合中不同基聚类中任意两个簇之间的簇划分相似性并构建簇划分相似性矩阵,接着利用谱聚类方法对基聚类集合中的簇进行图最小分割处理实现这些簇的标签对齐,然后计算每个基聚类在特征空间中数据描述的一致性并以此为每个基聚类分配聚类集成权重,最终对标签对齐后的基聚类集合进行加权投票集成,生成最终聚类集成结果,并进行结果输出。
搜索关键词: 聚类 聚类集合 加权 数据描述 标签 对齐 投票 相似性矩阵 一致性计算 符号空间 集成过程 集成学习 特征空间 最小分割 构建 权重 输出 分配 统一
【主权项】:
1.一种加权投票聚类集成方法,包括以下步骤:S10、计算基聚类集合中不同基聚类中任意两个簇在符号空间中进行数据描述的一致性:首先,计算聚类符号向量集合Φ关于数据集X的条件信息熵,用于表示利用数据集X对符号空间数据描述的不确定性;接着,计算聚类符号向量集合Φ关于基聚类集合中不同基聚类中两个簇的条件信息熵,用于表示利用这两个簇在符号空间中数据描述的不确定性;再计算聚类符号向量集合Φ的以上两个条件信息熵的差值作为这两个簇在符号空间中数据描述的一致性,以此类推计算基聚类集合中不同基聚类中任意两个簇在符号空间中数据描述的一致性;S20、计算基聚类集合中不同基聚类中任意两个簇之间的簇划分相似性,用于对不同基聚类内数据分布结构的相似性进行度量;S30、构建基聚类集合的簇划分相似性矩阵,将基聚类集合中簇的标签对齐任务转换为图最小分割问题;S40、利用谱聚类方法对基聚类中的所有簇构成的集合Ω进行图最小分割处理,实现对基聚类集合中簇的标签对齐;S50、利用高斯核函数对特征空间中的数据集进行数据标准化映射,即使处理得到的标准化数据集服从高斯分布,其中ψi表示标准化数据集中的第i个样本;S60、计算每个基聚类在特征空间中数据描述的一致性:首先,计算标准化数据集Ψ关于数据集X的条件信息熵,用于表示利用数据集X在特征空间中数据描述的不确定性;接着,计算标准化数据集Ψ关于某个基聚类的条件信息熵,用于表示该基聚类在特征空间中数据描述的不确定性;计算标准化数据集Ψ的以上两个条件信息熵的差值作为该基聚类在特征空间中数据描述的一致性,以此类推计算每个基聚类在特征空间中数据描述的一致性;S70、利用步骤S50获得的每个基聚类在特征空间中数据描述的一致性计算各基聚类的聚类集成权重;S80、对步骤S30获得的标签对齐后的基聚类集合进行加权投票集成,生成最终的聚类集成结果,并将结果输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810915645.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top