[发明专利]一种基于链接距离的聚类方法在审

专利信息
申请号: 201910829278.2 申请日: 2019-09-03
公开(公告)号: CN110674851A 公开(公告)日: 2020-01-10
发明(设计)人: 李奇;岳士弘;高晓峰;丁明亮 申请(专利权)人: 天津大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 12201 天津市北洋有限责任专利代理事务所 代理人: 程毓英
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 链接 聚类 有效性指标 计算数据 距离计算 数据集 点数 评估
【说明书】:

发明涉及一种基于链接距离的聚类方法,首先在给定的核心点数目下将数据集按照一定的规则进行链接,再计算数据点之间的链接距离,最后根据链接距离计算链接坐标,通过对链接坐标的评估计算聚类有效性指标。

技术领域

本发明属于数据挖掘领域,具体是一种基于链接距离的聚类方法。

背景技术

聚类分析是挖掘数据集中结构信息的一种无监督方法,即在没有任何先验信息的前提下将数据集划分成若干个聚类,使得类内的相似性尽可能地大,类间的差异性尽可能地大。目前已经有多种经典的聚类算法,比如C-means、FCM、DPC等聚类算法,但这些聚类算法均有自己的适用范围,且需要提供参数--聚类数目c。一般情况下,使用者通过经验和领域知识确定最佳聚类数,但这种方法准确度不高且容易受数据集结构的影响,因此确定最佳聚类数十分具有挑战性。

现有的聚类有效性指标大多数依赖于C-means和FCM这两种基于划分的聚类算法,对于球型数据集具有较好的评价结果,但是容易受数据集形状的影响,不能对含有任意形状的数据集进行正确的评价。

发明内容

本发明的目的在于克服现有技术的上述不足,提出一种基于链接距离的聚类方法。首先在给定的核心点数目下将数据集按照一定的规则进行链接,再计算数据点之间的链接距离,最后根据链接距离计算链接坐标,通过对链接坐标的评估计算聚类有效性指标。具体执行步骤如下:

一种基于链接距离的聚类方法,首先在给定的核心点数目下将数据集按照一定的规则进行链接,再计算数据点之间的链接距离,最后根据链接距离计算链接坐标,通过对链接坐标的评估计算聚类有效性指标。

包括下列步骤:

1)定义核心点。

按照公式(1)计算数据集中每点的密度ρi,其中KNNp(xi)表示点xi的p近邻构成的集合,dist(xi,xj)表示点xi与点xj之间的欧式距离。

点xi的分离度表示为密度比该点大的离该点最近的点与xi之间的距离,如公式(2)所示。

具有较高的密度和较大的分离度的点称为核心点,如公式(3)所示,γ值比较大的点是核心点,记为KP。

γi=ρi·σi (3)

2)对数据集进行链接

链接规则为:从密度较低的点出发,链接的下一个点为密度比该点大的离该点最近的点。不断按照上述链接规则进行链接,直到访问到核心点,形成一条链。再从数据集剩下的点中密度较低的点开始链接,直到数据集中所有的点都被访问。注意:每条链有且只有一个核心点。

3)计算链接距离dchain

记Chai表示点xi所在的链,KPi表示链Chai的核心点,则任意两点xi与xj之间的链接距离可以表示为:

公式(4)表示同一条链上的任意两点之间的链接距离为0,不同链上的两点之间的链接距离为两条链的核心点之间的欧式距离。

4)求链接坐标。

多维尺度变换算法(MDS)根据链接距离矩阵求每点的链接坐标,如公式(5-7)所示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910829278.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top