[发明专利]一种基于信息熵权重三支决策策略的数据集成聚类方法在审
| 申请号: | 201810810659.1 | 申请日: | 2018-07-23 |
| 公开(公告)号: | CN109190659A | 公开(公告)日: | 2019-01-11 |
| 发明(设计)人: | 徐健锋;梁伟;刘斓;严方圆;杜振国 | 申请(专利权)人: | 南昌大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 南昌新天下专利商标代理有限公司 36115 | 代理人: | 施秀瑾 |
| 地址: | 330031 江西省*** | 国省代码: | 江西;36 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 聚类 决策策略 数据集成 信息熵 权重 聚类集合 算法选择 局部权 鲁棒性 决策 | ||
一种基于信息熵权重三支决策策略的数据集成聚类方法,包括如下步骤:((1)候选集成聚类成员初步生成;(2)基于三支决策的局部权重算法选择基础聚类成员;(3)基于最终的基础聚类集合的聚类集成;(4)结束。本发明与现有的技术相比较,提升了集成聚类的抗干扰性、鲁棒性和集成聚类的最终效果。
技术领域
本发明属于数据挖掘、机器学习领域中对研究对象或数据的聚类方法研究。
背景技术
聚类集成方法是一种有效的聚类技术,基于聚类权重信息熵的集成策略是其中的一种有效的新型集成聚类方法。但是该方法存在聚类效果对基础聚类敏感的问题。
基于聚类权重信息熵的集成策略主要方法为:基于某个特定数据集合对象,采用普通聚类方法实施M次聚类生成M种基础聚类,并且利用信息熵方法确定各个基础聚类及各个类簇的权重。基于上述基础聚类及其权重构建上述数据集合元素间的带权距离矩阵。然后以带权距离矩阵为基础,采用传统层次聚类或其它经典聚类方法,不断聚合高权重元素群体,直至获得最终聚类。对于聚类结果优劣程度的评判多采用NMI指标,NMI取值在0到1之间,数值越大,聚类效果越好。选取一个聚类结果πG作为评判标准,那么对于测试集聚类元素π'有如下计算公式:
其中n'是π'中的类簇个数,nG是πG中的类簇个数,n′i是π'中第i个类簇的元素个数,是πG中第j个类簇的元素个数,nij是π'中第i个类簇和πG中第j个类簇共同元素的个数。
发明内容
基础聚类是集成聚类技术的聚类基础,其质量与最终聚类结果质量紧密相关。本发明基于信息熵权重三支决策的策略,提出了一种改进基于聚类权重信息熵的集成聚类技术中基础聚类质量的新方法,从而能够有效实现聚类集成结果质量的提升。
本发明是通过以下技术方案实现的。
本发明所述的一种基于信息熵权重三支决策策略的数据集成聚类方法,包括如下步骤:
(1)候选集成聚类成员初步生成;
(2)基于三支决策的局部权重算法选择基础聚类成员;
(3)基于最终的基础聚类集合的聚类集成;
(4)结束。
本发明步骤(1)所述的候选集成聚类成员初步生成,其步骤如下:
1)利用经典数据聚类算法对数据集D={d1,d2,...,dx}做聚类操作;
2)将聚类次数控制参数m置初值为1;
3)判断控制参数m是否小于或等于备选聚类成员个数M,是则执行步骤4),否则转到步骤6);
4)得到第m次聚类己为其中集合πm的基数个数为|πm|=Nm;
5)将控制参数m执行m=m+1,然后转到步骤3);
6)生成备选的备选聚类集合将所有备选聚类成员Π={π1,π2,...,πM}标上不确定标记;
7)结束。
本发明步骤(2)所述的基于三支决策的局部权重算法选择基础聚类成员,其步骤为:
1)设置控制参数r初值为1,设置循环次数限制k。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南昌大学,未经南昌大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810810659.1/2.html,转载请声明来源钻瓜专利网。





