[发明专利]一种基于AP聚类和ISA双向聚类的双向聚类方法在审
申请号: | 201710408121.3 | 申请日: | 2017-06-02 |
公开(公告)号: | CN107368844A | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 杨利英;申云燕 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安长和专利代理有限公司61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ap isa 双向 方法 | ||
1.一种基于AP聚类和ISA双向聚类的双向聚类方法,其特征在于,所述基于AP聚类和ISA双向聚类的双向聚类方法包括:
(1)应用AP聚类对需要聚类的样本进行初步归类,接着随机产生10000个0/1稀疏向量,其中向量的长度等于样本数量;
(2)利用AP聚类的结果对稀疏向量进行分类,将向量中非零元素所对应的样本在AP聚类结果的同一类中的向量聚为一类,并将不属于任何一类的向量去掉,将向量进行归类;
(3)将分类后的向量作为ISA双向聚类的输入,并为每一个向量设置相对应的阈值,应用ISA双向聚类进行处理,最后得到多个双向类,每一双向类包括一个样本子集和一个特征子集。
2.如权利要求1所述的基于AP聚类和ISA双向聚类的双向聚类方法,其特征在于,所述基于AP聚类和ISA双向聚类的双向聚类方法包括如下步骤:
步骤一,对矩阵数据进行预处理:矩阵为E(m×n),其中m和n分别为样本和特征数量;对矩阵E中的缺省值采用k邻近法进行填充;
步骤二,使用AP聚类对数据的样本方向进行聚类,聚类前通过设定聚类个数K来调节聚类结果的个数,将样本分为K个类别,标记为Si(i=1,2…,K);
步骤三,随机产生10000个0/1稀疏向量,每一个向量大小为m,将向量中非零元素所对应的样本在AP聚类结果同一类中的向量聚为一类,并将不在任意一类中的向量去掉,即将所有向量分为K类,记为Ci(i=1,2…,K),作为ISA输入,执行步骤四;
步骤四,将筛选过后的种子矩阵C=C1∪C2∪…∪CK和矩阵E作为ISA双向聚类算法的输入,种子的个数为d,按照阈值设置规则为每个种子设置行阈值tC和列阈值tG;对于每一个种子c0(c0∈C),使用ISA双向聚类算法,得到种子c0所对应的一个双向类;
步骤五,根据得到的所有种子C所对应的d个双向类,将这d个双向类中样本和特征的差异性在阈值r以上的双向类保留下来,得到最终的双向类。
3.如权利要求2所述的基于AP聚类和ISA双向聚类的双向聚类方法,其特征在于,所述步骤二中AP聚类的具体实现方法为:
计算矩阵E的相似性矩阵,相似性度量采用皮尔逊相关系数,两个样本点i和k,这两个样本点通过传递信息响应性和适用性来判断哪个样本点作为聚类中心,具体更新公式如下:
其中,s(i,k)代表i和k两个样本点的相似性,r(i,k)是由样本点i发给候选聚类中心k的,用来表明与其他候选聚类中心k’相比,样本点k适合作为样本点i的聚类中心所积累的证据;a(i,k)是由候选聚类中心k传递给样本点i的,用来表明考虑到其他样本点i’对样本点k成为聚类中心的支持度上,样本点i挑选样本点k作为聚类中心的累积合适程度,a(i,k)初始值为0;根据最大化每个样本点两个变量之和来判断当前样本点是一个聚类中心,还是隶属于其他的聚类中心。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710408121.3/1.html,转载请声明来源钻瓜专利网。