[发明专利]一种聚类中心快速确定的数据聚类方法在审
申请号: | 201610343213.3 | 申请日: | 2016-05-20 |
公开(公告)号: | CN106056136A | 公开(公告)日: | 2016-10-26 |
发明(设计)人: | 陈晋音;林翔;郑海斌;保星彤 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种聚类中心快速确定的聚类方法,包括以下步骤:1)读取原始数据集,通过占优分析选取相应的距离计算方法,求出整个数据集的距离矩阵;2)快速确定聚类中心;3)最优dc的选取,过程如下:3.1找出相似度距离矩阵中的最大值dmax和最小值dmin,通过设定percent的值来计算出当前的dc值;3.2当dc被选定并得到聚类结果后,设计Fitness函数作为评价指标;3.3采用爬山算法选取最优dc;3.4输出最优dc以及最优dc时的聚类结果。本发明具有较高准确率、不同数据集聚类效果差异性较小和参数依赖性较小。 | ||
搜索关键词: | 一种 中心 快速 确定 数据 方法 | ||
【主权项】:
一种聚类中心快速确定的聚类方法,其特征在于:所述聚类方法包括以下步骤:1)读取原始数据集,对数据集进行占优分析,通过占优分析选取相应的距离计算方法,使用该种距离计算方法求出整个数据集的距离矩阵,过程如下:1.1若输入的数据集有p维数值属性的数据和q维分类属性的数据,则通过比较p和q的大小,将数据集分成数值占优型数据集和分类占优型数据集;1.2根据占优分析得到的结果,采用相应的距离计算公式对该数据集进行计算,得到数据集的相似度距离矩阵;2)快速确定聚类中心,过程如下:2.1对于任意数据点i,通过公式ρi=∑f(dij‑dc)和式δi=min(dij)(ρj≥ρi)计算出该数据点对象的ρi和δi,再根据公式γi=ρi*δi计算出数据点的γi;2.2根据每个数据点的γ值做出关于γ的密度分布图,计算出γ的样本均值和样本方差,采用矩估计的方法得到数据集有关γ值整体分布的均值μ和方差σ2;2.3做出服从均值为μ,方差为σ2的正态分布曲线,用该曲线拟合γ的概率密度曲线,并根据正态分布的5σ原则划定置信区间;2.4根据划定的置信区间筛选出落于置信区间外的奇异点,对这些点的ρ和δ进行归一化处理,得到ρ*和δ*,设置参数k,若对于奇异点i,存在
则将该奇异点选为聚类中心点;2.5根据求得的聚类中心点,采用将数据点i与密度高于它且离它最近的数据点归于一类的方法,将所有的数据点进行聚类划分,最终得到聚类结果;3)最优dc的选取,过程如下:3.1找出相似度距离矩阵中的最大值dmax和最小值dmin,采用公式dc=dmin+(dmax‑dmin)*percent/100,通过设定percent的值来计算出当前的dc值;3.2当dc被选定并得到聚类结果后,为比较对于不同dc时聚类效果的好坏,设计Fitness函数作为评价指标;Fitness由两部分组成:![]()
![]()
其中,m表示簇的个数,Ci和Cj表示第i个和第j个簇的聚类中心,|Cj|表示该簇的数据对象个数;Fitness1代表了全局的平均簇内距离,Fitness2则代表全局的平均簇间距离,根据聚类效果好坏的最本质定义:簇内距离越小越好,簇间距离越大越好,令![]()
对于一个给定的dc,Fitness函数值越大,则说明聚类效果越好;3.3采用爬山算法选取最优dc,设定percent的初始值和迭代次数,对当前的percent值进行3.1~3.2的操作,通过比较不同percent下的Fitness函数值来对当前的percent值进行更新,若满足迭代次数,则跳至3.43.4输出最优dc以及最优dc时的聚类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610343213.3/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置