[发明专利]一种生物启发式自适应聚类方法在审

申请号：	201611197734.9	申请日：	2016-12-22
公开（公告）号：	CN106599928A	公开（公告）日：	2017-04-26
发明（设计）人：	屈洪春;吕强;邱泽良;王平	申请（专利权）人：	重庆邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/00
代理公司：	北京同恒源知识产权代理有限公司11275	代理人：	廖曦
地址：	400065 ***	国省代码：	重庆;85
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种生物启发式自适应方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及聚类分析技术领域，特别涉及一种生物启发式自适应聚类方法。

背景技术

聚类是根据数据对象相似度，把未知分类的数据集分割成不同的类或簇，使同一簇内的数据对象具有最大相似性，不同簇间的数据对象具有最小相似性。聚类作为一种重要的无监督的数据分析方法，既可以作为一个独立工具用于发现数据隐含信息，也可以作为其他数据分析算法的一个预处理步骤，在机器学习、模式识别、数据挖掘、图像处理等领域已经得到了广泛研究和应用。

目前，许多基于生物启发式聚类算法已被提出，如模拟蚁群的蚁穴清理行为的蚁群聚类算法，模拟蜜蜂寻找最佳食物源行为的人工蜂群聚类算法，模拟鸟群觅食行为的粒子群聚类算法，模拟自然界植物授粉的花朵授粉聚类算法等。

这些基于生物启发式聚类方法大致可以分为基于划分方法和基于密度方法两类。然而这两种方法各自都存在以下缺陷：

基于划分方法通常将聚类簇的个数视为给定条件并且作为输入而不是在运行中自动确定，在现实情况下，一个数据集中聚类簇的合适通常数目是未知的或不能近似确定的。另一方面，由于划分方法基于对象间的距离和对某种标准的优化进行聚类,这种方法只能发现球状簇而不能发现任意形状的簇,对于“噪声”和孤立数据点是敏感的，同时算法极易陷入局部最优。

基于密度方法对输入参数敏感，若参数选取不当，将造成聚类质量下降，并且该方法对数据维数的伸缩性较差，对处理大规模数据时，时间复杂度大，同时当空间聚类的密度不均匀，聚类间距离差距较大时，也会影响最终的聚类质量。

因此要综合解决这些问题，对聚类方法提出了更高的要求。

发明内容

有鉴于此，本发明的目的在于提供一种生物启发式自适应聚类方法，该方法基于昆虫授粉原理，不需要预先给定聚类簇的数目，同时避免在运行过程中陷入局部最优的问题，伸缩性较强，适用不同规模、多种类型的数据集。

为达到上述目的，本发明提供如下技术方案：

一种生物启发式自适应聚类方法，包括以下步骤：

步骤一：选取数据集和一定数量的昆虫，所述数据集中的每个数据点表示一棵植物，所述数据点的特征向量表示植物的特征，将所有昆虫和植物的位置随机分布在空间中；

步骤二：昆虫飞往植物进行觅食活动，所述活动包括授粉和采粉两个过程；

步骤三：统计植物获得的花粉数量，比较获得的花粉与植物花粉种类之间的相似度；

步骤四：用线性队列记录昆虫过去的觅食历史；

步骤五：当所有昆虫觅食次数达到上限后，计算每棵植物的存活概率，并与随机数比较，判断植物的位置是否需要改变；

步骤六：经过时间演化，使得同种植物聚集在一起，不同种植物彼此分离，从而实现聚类。