[发明专利]一种自适应吸引传播聚类方法及装置有效
| 申请号: | 201110335296.9 | 申请日: | 2011-10-28 |
| 公开(公告)号: | CN102682048A | 公开(公告)日: | 2012-09-19 |
| 发明(设计)人: | 刘晓勇 | 申请(专利权)人: | 刘晓勇 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李盛洪 |
| 地址: | 510600 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 自适应 吸引 传播 方法 装置 | ||
技术领域
本发明涉及数据挖掘领域中聚类分析方法,尤其涉及一种自适应吸引传播聚类方法及装置。
背景技术
Affinity propagation clustering(AP,吸引-传播聚类算法)是由B.J.Frey和D.Dueck于2007年提出的一种新的聚类算法,该算法无需事先定义类数,也不需要数据集具有某种特殊的结构,算法在运行中主要根据数据集中N个样本点之间的相似度进行聚类,这些相似度值可以组成一个N×N的相似度矩阵S(如:S(i,j)表示样本点i和样本点j之间的相似度)。相似度矩阵S的主对角线上的数值又称为Preference,该值是对应的样本点能否成为聚类中心的评判标准,一般来说,其值越大这个点成为聚类中心的可能性就越大。AP算法主要依靠一种“消息传递”机制实现数据集的聚类。这种消息传递机制中主要包含两类信息Responsibility(简称R)和Availability(简称A):Responsibility表示样本点对不同的候选类中心发出的信息,表明候选类中心相应于该样本点作为潜在类中心的适合程度,该值越大表明候选类中心越可能成为实际的类中心;Availability表示候选类中心对样本点发出的信息,表明该样本点相应于候选类中心的聚合程度,该值越大表明样本点越可能属于某一类。AP算法通过迭代过程不断更新每一个点的Responsibility和Availability值,直到自动产生若干个类中心,同时将其余的数据点分配到相应的类团中。在具体实现时,AP算法首先把所有的数据点均视作类中心,然后在迭代过程中不断搜索合适的聚类中心,自动地从数据点间识别最佳类中心的位置及个数,通过数据点间的“信息传递”来实现整个聚类过程。与传统的K均值算法对初始类中心选择的敏感性相比,AP算法是一种确定性的聚类算法,多次独立运行的聚类结果一般都十分稳定。该算法以其简单、高效的优势已广泛应用于多种领域,如:设施选址、图像识别,图像分割、文本挖掘,生物医学,视频关键帧提取和图像检索等方面。国内的王开军,谢信喜、肖宇、谷瑞军、董俊及李雅芹等人针对AP算法的不足提出了多种改进方法,但是现有的吸引传播聚类算法,收敛速度较慢。其中最主要的原因是AP算法的收敛性能对收敛系数初始值的选择比较敏感,本发明提出的新的吸引传播聚类方法是在传统AP聚类算法基础上引入关于R和A的自适应更新策略,使R和A的值能够随算法进程自适应动态调整,以加速AP算法的收敛过程。
发明内容
本发明的一个目的在于克服现有技术中上述缺陷:提供一种能加快聚类的收敛速度的一种自适应吸引传播聚类方法。
本发明的另一个目的在于克服现有技术中上述缺陷:提供一种能加快聚类的收敛速度的一种自适应吸引传播聚类装置。
为实现上述目的,本发明提供的技术方案如下:提供一种自适应吸引传播聚类方法,包括以下步骤:
一、通过数据采集单元采集数据,并将其转化为特征数据向量集合;
二、通过初始化单元,根据特征向量集合,对有关参数进行初始化操作;
三、通过计算单元分别计算R和A的值;
四、通过自适应更新单元对R和A的值进行更新;
五、通过条件判断单元判断是否结束循环,如果未达到循环停止条件,释放N信号继续执行步骤三至步骤四;如果达到循环停止条件,释放Y信号执行下一步,循环结束,通过输出单元输出聚类结果。
提供一种能加快聚类的收敛速度的一种自适应吸引传播聚类装置,包括:
数据采集单元,用于从终端采集数据,并转化为特征数据向量集合;
初始化单元,用于对吸引传播聚类方法的有关参数进行初始化操作;
R和A的值计算单元,用于计算R和A的值;
自适应更新单元,用于对R和A的值进行更新;
条件判断单元,用于判断是否结束循环;
结果输出单元,用于达到循环终止条件后,输出结果。
本发明所述一种自适应吸引传播聚类方法及装置的有益效果是:通过数据采集单元采集数据,并转化为特征数据向量集合;初始化单元对吸引传播聚类方法的有关参数进行初始化操作;R和A的值计算单元计算R和A的值;自适应更新单元对R和A的值进行更新;条件判断单元判断是否结束循环;结果输出单元在达到循环终止条件时,输出结果。本发明由于在自适应更新单元中采用了自适应更新的策略,使得吸引传播聚类算法收敛速度更快,精度更高,可以适用于大型高维数据集的自动聚类任务。
下面结合附图和实施例对本发明所述的一种自适应吸引传播聚类方法及装置作进一步说明:
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘晓勇,未经刘晓勇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110335296.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电路板盲槽的制作方法
- 下一篇:一种富含肉蛋白的营养奶粉的加工方法





