[发明专利]基于局部密度和single‑pass的核k均值方法在审
申请号: | 201611243904.2 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106778895A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 薛涛;王新星 | 申请(专利权)人: | 西安工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安弘理专利事务所61214 | 代理人: | 杨璐 |
地址: | 710048 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 局部 密度 single pass 均值 方法 | ||
1.基于局部密度和single-pass的核k均值方法,其特征在于,具体按照以下步骤实施:
步骤1、确定数据集D,通过局部密度法选取初始类中心点;
步骤2、待步骤1完成后,随机选择一个包含初始中心点M的样本数据集S;
步骤3、待步骤2完成后,应用kernel k-means算法对样本数据集S进行聚类,其输入参数为:样本点S、聚类数目K、核函数H,输出结果为样本S最终聚类的结果,记为
步骤4、待步骤3完成后,使用梯度下降法对Πs中每个类的中心点{M1,M2,M3,……,Mj}进行优化;
步骤5、待步骤4完成后,将数据集D中其余所有的数据点依次按顺序计算与已有所有类中心Mj的距离,并将其划分到最近的类Cj中;
步骤6、待步骤5完成后,输出数据集D最终的聚类结果。
2.根据权利要求1所述的基于局部密度和single-pass的核k均值方法,其特征在于,所述步骤1具体按照以下方法实施:
在聚类前,采用局部密度法选取初始类中点,其思想具体如下:
空间中任意一点p和距离AverageDist,以p点为中心,半径为AverageDist的区域为p点的区域,区域内点的个数称为点p基于AverageDist的密度参数,记为density(p,AverageDist),具体表达方式如下;
具体按照以下步骤实施:
步骤1.1、计算数据集D中两两数据点之间的距离;
步骤1.2、经步骤1.1后,计算两两数据点之间的平均距离AverageDist;
步骤1.3、经步骤1.2后,数据集中所有数据点的密度参数density(p,AverageDist),构成一个集合SET;
步骤1.4、经步骤1.3后,将集合SET中密度最大的数据点作为第一个聚类中心点,同时将与该中心点距离小于AverageDist的点及其密度参数从集合SET中删除;
步骤1.5、重复步骤1.3和步骤1.4,直至找到k个类中心为止;
步骤1.6、待步骤1.5完成后,输出k个中心点M={m1,m2,m3,……,mk}。
3.根据权利要求1所述的基于局部密度和single-pass的核k均值方法,其特征在于,所述步骤2具体按照以下方法实施:
从原始数据集D中,通过采样的方式随机选取一个包含初始中心点的样本数据集S,将对大规模数据集的聚类转换为先对小规模数据集的聚类。
4.根据权利要求1所述的基于局部密度和single-pass的核k均值方法,其特征在于,所述步骤4具体按照以下步骤实施:
步骤4.1、求解目标函数J(X)的导数J`(X);
步骤4.2、经步骤4.1后,针对每一个类簇,确定一个初始的出发点
步骤4.3、经步骤4.2后,按梯度的方向不断迭代,寻找下一个近似点:
式(2)中:r=r+1,α表示步长,范围为(0,1);
步骤4.4、重复步骤4.3,直至的值收敛为止;
此时∏s类的中心点为
步骤4.5、待步骤4.4完成后,输出∏s中所有类的中心点{M1,M2,M3,……,Mj}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工程大学,未经西安工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611243904.2/1.html,转载请声明来源钻瓜专利网。