[发明专利]基于局部密度和single‑pass的核k均值方法在审

专利信息
申请号: 201611243904.2 申请日: 2016-12-29
公开(公告)号: CN106778895A 公开(公告)日: 2017-05-31
发明(设计)人: 薛涛;王新星 申请(专利权)人: 西安工程大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 西安弘理专利事务所61214 代理人: 杨璐
地址: 710048 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 局部 密度 single pass 均值 方法
【说明书】:

技术领域

发明属于数据挖掘方法技术领域,具体涉及一种基于局部密度和single-pass的核k均值方法。

背景技术

聚类是在一个给定的数据集中识别出分组的过程,将具有相似特征或有关联的数据划分到同一组。传统的k-means算法只能处理有向行和线性可分割的数据,而针对无向行和非线性可分割的数据时,不能得到理想的聚类结果。

kernel k-means算法是一种基于核(kernel)函数的k-means算法,是传统k-means算法的一种扩展,通过非线性核函数的映射,将原始空间的数据映射到高维特征空间中,在高维特征空间中最大程度的减少聚类误差。然而传统kernel k-means算法的时间复杂度为O(n2),随着数据集的增大,计算效率将会呈指数级降低,在对大规模数据的挖掘和处理中存在很大的局限性。

Single-pass方法是数据挖掘中处理实时流数据的常用方法,如:进行话题发现和检测,聚类结果需要不断的更新,其思想是将需要进行聚类的数据按输入顺序依次以流的方式进行处理,每处理一个数据,增量的更新聚类;在更新的过程中,将新来的数据与已有类的中心进行比较,并划分到与其距离最近的类中。

发明内容

本发明的目的是提供一种基于局部密度和single-pass的核k均值方法,解决了传统kernel k-means算法初始中心点不确定及时间复杂度过高的问题。

本发明所采用的技术方案是,基于局部密度和single-pass的核k均值方法,包括如下步骤:

步骤1、确定数据集D,通过局部密度法选取初始类中心点;

步骤2、待步骤1完成后,随机选择一个包含初始中心点M的样本数据集S;

步骤3、待步骤2完成后,应用kernel k-means算法对样本数据集S进行聚类,其输入参数为:样本点S、聚类数目K、核函数H,输出结果为样本S最终聚类的结果,记为

步骤4、待步骤3完成后,使用梯度下降法对∏s中每个类的中心点{M1,M2,M3,……,Mj}进行优化;

步骤5、待步骤4完成后,将数据集D中其余所有的数据点依次按顺序计算与已有所有类中心Mj的距离,并将其划分到最近的类Cj中;

步骤6、待步骤5完成后,输出数据集D最终的聚类结果。

本发明的特征还在于:

步骤1具体按照以下方法实施:

在聚类前,采用局部密度法选取初始类中点,其思想具体如下:

空间中任意一点p和距离AverageDist,以p点为中心,半径为AverageDist的区域为p点的区域,区域内点的个数称为点p基于AverageDist的密度参数,记为density(p,AverageDist),具体表达方式如下;

具体按照以下步骤实施:

步骤1.1、计算数据集D中两两数据点之间的距离;

步骤1.2、经步骤1.1后,计算两两数据点之间的平均距离AverageDist;

步骤1.3、经步骤1.2后,数据集中所有数据点的密度参数density(p,AverageDist),构成一个集合SET;

步骤1.4、经步骤1.3后,将集合SET中密度最大的数据点作为第一个聚类中心点,同时将与该中心点距离小于AverageDist的点及其密度参数从集合SET中删除;

步骤1.5、重复步骤1.3和步骤1.4,直至找到k个类中心为止;

步骤1.6、待步骤1.5完成后,输出k个中心点M={m1,m2,m3,……,mk}。

步骤2具体按照以下方法实施:

从原始数据集D中,通过采样的方式随机选取一个包含初始中心点的样本数据集S,将对大规模数据集的聚类转换为先对小规模数据集的聚类。

步骤4具体按照以下步骤实施:

步骤4.1、求解目标函数J(X)的导数J`(X);

步骤4.2、经步骤4.1后,针对每一个类簇,确定一个初始的出发点

步骤4.3、经步骤4.2后,按梯度的方向不断迭代,寻找下一个近似点:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工程大学,未经西安工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611243904.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top