[发明专利]一种聚类中心快速确定的数据聚类方法在审

专利信息
申请号: 201610343213.3 申请日: 2016-05-20
公开(公告)号: CN106056136A 公开(公告)日: 2016-10-26
发明(设计)人: 陈晋音;林翔;郑海斌;保星彤 申请(专利权)人: 浙江工业大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种聚类中心快速确定的聚类方法,包括以下步骤:1)读取原始数据集,通过占优分析选取相应的距离计算方法,求出整个数据集的距离矩阵;2)快速确定聚类中心;3)最优dc的选取,过程如下:3.1找出相似度距离矩阵中的最大值dmax和最小值dmin,通过设定percent的值来计算出当前的dc值;3.2当dc被选定并得到聚类结果后,设计Fitness函数作为评价指标;3.3采用爬山算法选取最优dc;3.4输出最优dc以及最优dc时的聚类结果。本发明具有较高准确率、不同数据集聚类效果差异性较小和参数依赖性较小。
搜索关键词: 一种 中心 快速 确定 数据 方法
【主权项】:
一种聚类中心快速确定的聚类方法,其特征在于:所述聚类方法包括以下步骤:1)读取原始数据集,对数据集进行占优分析,通过占优分析选取相应的距离计算方法,使用该种距离计算方法求出整个数据集的距离矩阵,过程如下:1.1若输入的数据集有p维数值属性的数据和q维分类属性的数据,则通过比较p和q的大小,将数据集分成数值占优型数据集和分类占优型数据集;1.2根据占优分析得到的结果,采用相应的距离计算公式对该数据集进行计算,得到数据集的相似度距离矩阵;2)快速确定聚类中心,过程如下:2.1对于任意数据点i,通过公式ρi=∑f(dij‑dc)和式δi=min(dij)(ρj≥ρi)计算出该数据点对象的ρi和δi,再根据公式γi=ρii计算出数据点的γi;2.2根据每个数据点的γ值做出关于γ的密度分布图,计算出γ的样本均值和样本方差,采用矩估计的方法得到数据集有关γ值整体分布的均值μ和方差σ2;2.3做出服从均值为μ,方差为σ2的正态分布曲线,用该曲线拟合γ的概率密度曲线,并根据正态分布的5σ原则划定置信区间;2.4根据划定的置信区间筛选出落于置信区间外的奇异点,对这些点的ρ和δ进行归一化处理,得到ρ*和δ*,设置参数k,若对于奇异点i,存在则将该奇异点选为聚类中心点;2.5根据求得的聚类中心点,采用将数据点i与密度高于它且离它最近的数据点归于一类的方法,将所有的数据点进行聚类划分,最终得到聚类结果;3)最优dc的选取,过程如下:3.1找出相似度距离矩阵中的最大值dmax和最小值dmin,采用公式dc=dmin+(dmax‑dmin)*percent/100,通过设定percent的值来计算出当前的dc值;3.2当dc被选定并得到聚类结果后,为比较对于不同dc时聚类效果的好坏,设计Fitness函数作为评价指标;Fitness由两部分组成:<mrow><mi>F</mi><mi>i</mi><mi>t</mi><mi>n</mi><mi>e</mi><mi>s</mi><mi>s</mi><mn>1</mn><mo>=</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup><mo>&lsqb;</mo><msub><mi>&Sigma;</mi><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>&Element;</mo><msub><mi>C</mi><mi>j</mi></msub></mrow></msub><mi>d</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>C</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>/</mo><mo>|</mo><msub><mi>C</mi><mi>j</mi></msub><mo>|</mo><mo>&rsqb;</mo></mrow><mi>m</mi></mfrac></mrow><mrow><mi>F</mi><mi>i</mi><mi>t</mi><mi>n</mi><mi>e</mi><mi>s</mi><mi>s</mi><mn>2</mn><mo>=</mo><mfrac><mrow><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup><mo>&lsqb;</mo><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mi>i</mi><mo>&NotEqual;</mo><mi>j</mi></mrow><mi>m</mi></msubsup><mi>d</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>,</mo><msub><mi>C</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>/</mo><mrow><mo>(</mo><mi>m</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>&rsqb;</mo></mrow><mi>m</mi></mfrac></mrow>其中,m表示簇的个数,Ci和Cj表示第i个和第j个簇的聚类中心,|Cj|表示该簇的数据对象个数;Fitness1代表了全局的平均簇内距离,Fitness2则代表全局的平均簇间距离,根据聚类效果好坏的最本质定义:簇内距离越小越好,簇间距离越大越好,令<mrow><mi>F</mi><mi>i</mi><mi>t</mi><mi>n</mi><mi>e</mi><mi>s</mi><mi>s</mi><mo>=</mo><mfrac><mrow><mi>F</mi><mi>i</mi><mi>t</mi><mi>n</mi><mi>e</mi><mi>s</mi><mi>s</mi><mn>2</mn></mrow><mrow><mi>F</mi><mi>i</mi><mi>t</mi><mi>n</mi><mi>e</mi><mi>s</mi><mi>s</mi><mn>1</mn></mrow></mfrac></mrow>对于一个给定的dc,Fitness函数值越大,则说明聚类效果越好;3.3采用爬山算法选取最优dc,设定percent的初始值和迭代次数,对当前的percent值进行3.1~3.2的操作,通过比较不同percent下的Fitness函数值来对当前的percent值进行更新,若满足迭代次数,则跳至3.43.4输出最优dc以及最优dc时的聚类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610343213.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top