[发明专利]一种基于信息熵权重三支决策策略的数据集成聚类方法在审

申请号：	201810810659.1	申请日：	2018-07-23
公开（公告）号：	CN109190659A	公开（公告）日：	2019-01-11
发明（设计）人：	徐健锋;梁伟;刘斓;严方圆;杜振国	申请（专利权）人：	南昌大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南昌新天下专利商标代理有限公司 36115	代理人：	施秀瑾
地址：	330031 江西省***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	聚类决策策略数据集成信息熵权重聚类集合算法选择局部权鲁棒性决策
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于信息熵权重三支决策策略的数据集成聚类方法，其特征是包括如下步骤：

(1)候选集成聚类成员初步生成；

(2)基于三支决策的局部权重算法选择基础聚类成员；

(3)基于最终的基础聚类集合的聚类集成；

(4)结束。

2.根据权利要求1所述的一种基于信息熵权重三支决策策略的数据集成聚类方法，其特征是步骤(1)所述的候选集成聚类成员初步生成，其步骤如下：

1)利用经典数据聚类算法对数据集D＝{d₁,d₂,...,d_x}做聚类操作；

2)将聚类次数控制参数m置初值为1；

3)判断控制参数m是否小于或等于备选聚类成员个数M，是则执行步骤4)，否则转到步骤6)；

4)得到第m次聚类己为其中集合π^m的基数个数为|π^m|＝N^m；

5)将控制参数m执行m＝m+1，然后转到步骤3)；

6)生成备选的备选聚类集合将所有备选聚类成员Π＝{π¹,π²,....,π^M}标上不确定标记；

7)结束。

3.根据权利要求1所述的一种基于信息熵权重三支决策策略的数据集成聚类方法，其特征是步骤(2)所述的基于三支决策的局部权重算法选择基础聚类成员，其步骤为：

1)设置控制参数r初值为1，设置循环次数限制k；

2)判断控制参数r是否小于或等于k，若是则执行下一步骤，否则将Π中所有元素都标上确定标记并且转到步骤10；

3)计算Π＝{π¹,π²,...,π^M}中标有不确定标记聚类的任何一个类簇π^m∈Π，相对于Π中所有聚类的不确定信息熵，其计算公式为：其中1≤m≤M，1≤n≤N^M；1≤μ≤M，1≤j≤N^M，|*|为集合*的元素个数；

4)计算步骤3)中得到的π^m中每个类簇的平均值；

其计算公式为：其中N^m＝|π^m|；

5)计算步骤3)中得到的备选聚类π^m中的标准差；

其计算公式为：

6)使用公式W(*)＝e-*归一化获得每个聚类中类簇的不确定信息熵平均值Ψ(π^m)和标准差σ(π^m)，作为每个聚类的二种权重W(Ψ(π^m))和W(σ(π^m))，使得二个权重的取值区间为[0,1]；

7)设定权重W(Ψ(π^m))的阈值为α和权重W(σ(π^m))的阈值为β；

8)将步骤6)中计算得出的所有备选聚类的W(Ψ(π^m))与α进行比较，W(σ(π^m))与β进行比较；

若某聚类π^m∈Π(W(Ψ(π^m))＜α)∧(W(σ(π^m))＞β)，则从Π＝{π¹,π²,...,π^M}中删除这个聚类；

若某聚类π^m∈Π存在(W(Ψ(π^m))＞α)∧(W(σ(π^m))＜β)，则保留该聚类，并将不确定标记修改为确定标记；

若某聚类π^m∈Π存在((W(Ψ(π^m))＜α)∧(W(σ(π^m))＜β))或((W(Ψ(π^m))＞α)∧(W(σ(π^m))＞β))，则保留不确定标记；

9)将步骤8)中所有保留的备选聚类数量重新记为M，则保留的备选聚类记为Π＝{π¹,π²,...,π^M}，若此时Π中所有聚类π^m∈Π都没有((W(Ψ(π^m))＜α)∧(W(σ(π^m))＜β))或((W(Ψ(π^m))＞α)∧(W(σ(π^m))＞β))的现象，则转到步骤10)；否则将控制参数r加1，返回步骤2)；

10)得到最终的基础聚类集合Π＝{π¹,π²,...,π^M}。

4.根据权利要求1所述的一种基于信息熵权重三支决策策略的数据集成聚类方法，其特征是步骤(3)所述的基于最终的基础聚类集合的聚类集成，其步骤为：

1)基于上述获得基础聚类中类簇的权重信息，计算数据集D中任意二个元素在确定聚类集合中出现在各个聚类同一类簇中的次数及其与该类簇权重的乘积作为任意二个元素间的带权集成距离；

其中d_i∈D,d_j∈D并且d_i≠d_j,

C_n^m为聚类π^m中d_i所在的类簇，记为d_i∈C_n^m，C_n^m∈π^m,n∈[1,N^m]；

w_i^m等于

如果d_i∈C_n^m时，d_j也属于聚类π^m中的类簇C_n^m时Φ_ij^m＝1；

如果d_i∈C_n^m时，d_j不属于聚类π^m中的类簇C_n^m时Φ_ij^m＝0；

2)基于步骤1)获得的数据集D＝{d₁,d₂,…d_x}中任意二个元素间的带权集成距离Dis(d_i,d_j)作为层次聚类方法中元素间的聚类距离；对数据集D实施层次聚类，并获得最后的集成聚类输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南昌大学，未经南昌大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】