[发明专利]一种基于AP聚类和ISA双向聚类的双向聚类方法在审
申请号: | 201710408121.3 | 申请日: | 2017-06-02 |
公开(公告)号: | CN107368844A | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 杨利英;申云燕 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安长和专利代理有限公司61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ap isa 双向 方法 | ||
技术领域
本发明属于数据处理技术领域,尤其涉及一种基于AP聚类和ISA双向聚类的双向聚类方法。
背景技术
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能的小。不同于分类,聚类所要划分的类是未知的。在聚类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。目前,聚类的方法有很多种,根据聚类方向的不同,大致可以将聚类方法分为单路聚类方法和双向聚类方法。单路聚类方法,即传统聚类方法,将矩阵的行或列作为处理对象,并且一次只能从一个方向对矩阵进行聚类,通常以对象间的距离来指定划分的标准,距离的计算方法常用的有:欧氏距离、马氏距离、皮尔逊相关系数等。常用的单路聚类方法有:AP(Affinity Propagation)聚类、k-means、层次聚类、自组织神经网络(SOM)等。一般情况下的聚类分析单路聚类方法都可以解决,但是存在以下缺陷:(1)传统的聚类方法结果中一个特征或样本不可能同时出现在两个类当中,即聚类得到的多个类间不允许有重复信息。(2)由于一次只能从一个方向上聚类的特性,关注的只是全局信息,而忽略了局部信息的重要性,即一次只能得到样本或者特征的聚类结果。为了克服传统单路聚类的不足,双向聚类算法应运而生,双向聚类允许同时从行、列两个方向进行聚类,来发现子矩阵或稳定的类,这些子矩阵允许有重复的行或列,这种方法从很大程度上克服了传统聚类的弊端。迭代签名算法(ISA,Iterative Signature Algorithm)就是其中应用较为广泛的一种,尤其在基因表达数据处理上显示出较强的优势,它能够发现基因表达矩阵一个共调解的基因子集和其相匹配的样本子集,并将这一子类称作转录模块(TM,transcription modules)。但ISA方法同时也存在一些缺陷:(1)种子的选择对聚类结果影响很大,在没有先验知识的情况下,每次随机选择的种子的不同有可能导致最终结果组成和大小的不同。(2)ISA算法阈值的设定可以设定为单一值或者阈值向量,而在没有先验知识的情况下,一般ISA算法的阈值设置为单一值,导致最终的双向类的大小相似,便失去了聚类的实际意义。
综上所述,现有技术存在的问题是:目前的聚类方法存在结果中一个特征或样本不可能同时出现在两个类当中,忽略了局部信息的重要性;在没有先验知识的情况下,每次随机选择的种子的不同有可能导致最终结果的不同;ISA算法的阈值设置为单一值,导致最终的双向类的大小相似。
发明内容
针对现有技术存在的问题,本发明提供了一种基于AP聚类和ISA双向聚类的双向聚类方法。
本发明是这样实现的,一种基于AP聚类和ISA双向聚类的双向聚类方法,所述基于AP聚类和ISA双向聚类的双向聚类方法包括:
(1)应用AP聚类对需要聚类的样本进行初步归类,接着随机产生10000个0/1稀疏向量,其中向量的长度等于样本数量;
(2)利用AP聚类的结果对稀疏向量进行分类,将向量中非零元素所对应的样本在AP聚类结果的同一类中的向量聚为一类,并将不属于任何一类的向量去掉,将向量进行归类;
(3)将分类后的向量作为ISA双向聚类的输入,并为每一个向量设置相对应的阈值,应用ISA双向聚类进行处理,最后得到多个双向类,每一双向类包括一个样本子集和一个特征子集。
进一步,所述基于AP聚类和ISA双向聚类的双向聚类方法包括如下步骤:
步骤一,对矩阵数据进行预处理:矩阵为E(m×n),其中m和n分别为样本和特征数量;对矩阵E中的缺省值采用k邻近法进行填充;
步骤二,使用AP聚类对数据的样本方向进行聚类,聚类前通过设定聚类个数K来调节聚类结果的个数,将样本分为K个类别,标记为Si(i=1,2…,K);
步骤三,随机产生10000个0/1稀疏向量,每一个向量大小为m,将向量中非零元素所对应的样本在AP聚类结果同一类中的向量聚为一类,并将不在任意一类中的向量去掉,即将所有向量分为K类,记为Ci(i=1,2…,K),作为ISA输入,执行步骤四;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710408121.3/2.html,转载请声明来源钻瓜专利网。