[发明专利]一种两阶段混合粒子群优化聚类方法有效

专利信息
申请号: 201210109141.8 申请日: 2012-04-13
公开(公告)号: CN102663100A 公开(公告)日: 2012-09-12
发明(设计)人: 刘志镜;王纵虎;王韦桦;陈东辉;屈鉴铭;贺文骅;王静;姚勇;熊静;唐国良;袁通;刘慧 申请(专利权)人: 西安电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 陕西电子工业专利中心 61205 代理人: 田文英;王品华
地址: 710071*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 阶段 混合 粒子 优化 方法
【说明书】:

技术领域

本发明属于计算机技术领域,更进一步涉及数据挖掘技术领域一种两阶段混合粒子群优化聚类方法,本发明可以广泛应用于数据压缩、信息检索、字符识别、图像分割与文本聚类等,同时可在生物学、市场营销和异常数据检测等方面有广泛的应用。

背景技术

聚类分析是数据挖掘中一种数据划分或分组处理的重要手段和方法。它无需任何先验知识,通过一定的相似性度量准则,把相似的样本归为一个类簇,聚类的目的是使同一类簇内样本相似度较大,不同类簇之间样本相似度较小。在生物学方面,聚类分析可以用来对生物的基因进行聚类,从而获得对生物种群中一些固有结构的认识,还能用于植物和动物的分类;在商业数据分析方面,聚类技术被用来从客户信息库中发现不同的客户群的特征,能帮助市场销售人员准确掌握市场变化情况,及时调整销售策略;在图像处理方面,聚类可以直接用于进行初步图像分割;另外,聚类也能用于对网络上的大量文档进行分类;聚类分析也可以作为分类算法或者其他算法的预处理步骤,经聚类得到未标记样本的类别信息,然后利用这些标记样本作为训练样本创建分类器。

聚类算法大体上可以分为划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法,其中划分方法和层次方法最为常用。层次方法是对给定的数据集合进行层次的分解。根据层次分解如何形成,层次方法又可以分为凝聚的和分裂的两种。层次方法具有两个基本优点:簇的数目不需要事先确定,它与初始条件是相互独立的。层次方法的缺陷在于:它是一种静态的聚类方法,已做的合并或分裂操作不能被撤销,簇之间也不能交换数据对象,在某步没有选择好合并或分裂点的情况下,可能会导致低质量的聚类结果。如凝聚层次聚类算法在后期的后并中由于前期错误累积等原因容易将非同类子簇错误合并到一起。由于进行合并或分裂操作需要搜索和估算大量的对象或簇,使得层次方法的可伸缩性较差,同时由于缺乏关于全局状态或簇的规模等信息,该方法可能对有重叠的簇的划分失效。划分方法则通过迭代重定位策略优化特定的目标函数,尝试确定数据集的一个划分。划分方法主要有K均值和K中心点两种类型。K均值算法对处理大数据集是相对可伸缩的和高效的,K中心点算法能在一定程度上消除K均值算法对孤立点的敏感性。划分方法一般要求事先给定簇的个数,并且对初始值和噪声数据敏感。由于划分方法基于对象间的距离和对某种标准的优化进行聚类,这种方法只能发现球状簇而不能发现任意形状的簇,同时算法极易陷入局部最优。通过以上分析可以看出,层次方法和划分方法的优缺点交错对应,还没有一种方法能同时具有它们的优点。

粒子群优化(particle swarm optimization,PSO)算法是一种基于群体智能的全局寻优算法,由于该算法收敛速度快,需要设定的参数少,且编程实现简单,多数情况下比遗传算法更快地收敛于最优解,而且可以避免完全随机寻优的退化现象。最近,研究人员结合PSO的优点,提出了多种行之有效的粒子群优化聚类算法,大大降低了聚类结果对初始聚类中心的敏感性。

陶新民、徐晶等人在“一种改进的粒子群和K均值混合聚类算法”中提出了一种改进的粒子群优化和K均值混合聚类算法(《电子与信息学报》,2010年1期,32(1))。该算法在运行过程中通过引入小概率随机变异操作增强种群的多样性,提高了混合聚类算法全局搜索能力,并根据群体适应度方差来确定K均值算法操作时机,增强算法局部精确搜索能力的同时缩短了收敛时间。

中科院半导体研究所申请的专利“一种基于特征分析的粒子群聚类方法”(申请公布号:CN 101894294A,申请号:200910084161.2)公开了一种基于特征分析的粒子群聚类方法。该方法主要将原空间的数据点集的聚类转换为对特征空间的新点集通过粒子群方法进行聚类,克服了需手动挑选合适特征的麻烦,对变换到特征空间的点作出进一步处理,比如尺度变换、归一化处理等操作,有利于后续优化方法的应用。但其仍然存在的缺点是,核函数类型及其参数值需要人为选择,矩阵特征变换需要额外消耗时间。

上述已有的粒子群优化聚类算法在粒子编码时都直接对m个聚类中心的d维样本向量进行编码,当样本维数较大时,计算量较大,且在进化过程中d维样本的值在一定范围内变化时可能会取到不符合样本实际情况的数值而出现空簇。由于各维的取值范围可能变化较大,造成粒子群搜索空间过大,在有限次迭代搜索时会影响算法的收敛速度和聚类效果。

发明内容

本发明针对上述现有技术的缺点与不足,提出了一种两阶段混合粒子群优化聚类方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210109141.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top