[发明专利]基于相似度传递的图聚类方法在审

申请号：	201811468939.5	申请日：	2018-12-04
公开（公告）号：	CN109766910A	公开（公告）日：	2019-05-17
发明（设计）人：	李学龙;陈穆林;王琦	申请（专利权）人：	西北工业大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	西北工业大学专利中心 61204	代理人：	刘新琼
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	相似度聚类数据点传递后处理类别结构拓扑关系秩约束准确率流形算法连通邻近挖掘清晰学习
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于相似度传递的图聚类方法。该算法通过在邻近数据点间进行相似度传递，挖掘流形结构，学习出能够反映数据点间拓扑关系的最优图，并通过拉普拉斯秩约束，使所学最优图中具有清晰的类别结构(每个连通分量对应一个类别)，避免后处理操作，提高聚类准确率。

技术领域

本发明属于机器学习领域，特别针对图聚类问题，进行数据间相似度的学习，将相似度高的数据合并为同类。本发明可应用到统计数据分析、模式识别等方面。

背景技术

随着大数据时代的深度发展，数据挖掘逐渐成为机器学习领域的一个热点。在数据挖掘技术中，聚类分析是广为研究的课题之一。所谓聚类，就是根据数据对象之间的相似性，对其进行区分，将数据合并为不同类别。被划分为同一类别的数据具有较高的相似度，而不同类别中数据的相似度较低。聚类方法不依赖先验信息，因此是一种无监督的学习方法。因其无监督的特性，聚类分析已被广泛应用在许多领域中，如数据分析、图像处理、模式识别等。

针对不同领域的问题，各国学者提出了大量聚类算法。根据类别划分依据的不同，现有的聚类方法大致分为：图聚类算法、划分聚类算法、层次聚类算法及网络聚类算法等。其中，图聚类是目前应用最为广泛的方法。图聚类方法根据数据点的局部关系，将其划分为不同类别。相比于其他聚类方法，图聚类能够保留数据间的关联信息，在处理具有复杂结构的数据时，具有天然的优势。因此，图聚类已被推广到许多实际应用中，如文本分类、生物信息、人脸识别等。

目前的大部分图聚类算法首先构建一个相似图以描述数据点的相似关系，然后优化某个目标函数将相似图分割为多个子图。这类方法存在三个问题：(1)过于依赖相似图。传统图聚类方法在优化过程中不会对相似图进行更新，因此很难得到最优的相似图。相似图的构建质量直接影响聚类结果。(2)无法掌握数据内部流形结构。相似图的构建是根据数据点间的相互关系，数据点在原始空间中的距离越近，相似度越高。然而，在具有流形结构的数据中，距离远的数据点也可能保持密切的关系。仅仅根据一对数据点间的关系，无法判断两者是否属于同类。(3)需要进行后处理。传统图聚类方法在优化完成后并不能直接得到聚类结果，往往需要使用K-means作为后处理步骤。而K-means的结果易受初始化影响，很难得到最优结果。

发明内容

要解决的技术问题

为了克服现有的图聚类方法存在的问题，本发明提出一种基于相似度传递的图聚类方法。

技术方案

一种基于相似度传递的图聚类方法，其特征在于步骤如下：

步骤1：构建一个维度为n的方阵W作为初始化相似图：

(1a)假设数据集中包含n个数据点，其中每个数据点都是d维的列向量，第j个数据点由符号x_j表示；定义数据点x_i和x_j的距离为：

式中e_ij为数据点x_i和x_j的距离，||·||₂为向量二范数；

(1b)对于数据x_i，将其与其他所有点的距离从小到大重新排序，使e_i1≤e_i2≤…≤e_in；

(1c)将数据点x_i和x_j的初始相似度定义为

式中e_i6为数据点x_i与其距离最近的第6个点之间的距离，W_ij为x_i和x_j的相似度；W是由W_ij组成的维度为n的方阵，即为构建的初始相似图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。