[发明专利]一种聚类中心快速确定的数据聚类方法在审

申请号：	201610343213.3	申请日：	2016-05-20
公开（公告）号：	CN106056136A	公开（公告）日：	2016-10-26
发明（设计）人：	陈晋音;林翔;郑海斌;保星彤	申请（专利权）人：	浙江工业大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种聚类中心快速确定的聚类方法，包括以下步骤：1)读取原始数据集，通过占优分析选取相应的距离计算方法，求出整个数据集的距离矩阵；2)快速确定聚类中心；3)最优dc的选取，过程如下：3.1找出相似度距离矩阵中的最大值d_max和最小值d_min，通过设定percent的值来计算出当前的dc值；3.2当dc被选定并得到聚类结果后，设计Fitness函数作为评价指标；3.3采用爬山算法选取最优dc；3.4输出最优dc以及最优dc时的聚类结果。本发明具有较高准确率、不同数据集聚类效果差异性较小和参数依赖性较小。
搜索关键词：	一种中心快速确定数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种聚类中心快速确定的聚类方法，其特征在于：所述聚类方法包括以下步骤：1)读取原始数据集，对数据集进行占优分析，通过占优分析选取相应的距离计算方法，使用该种距离计算方法求出整个数据集的距离矩阵，过程如下：1.1若输入的数据集有p维数值属性的数据和q维分类属性的数据，则通过比较p和q的大小，将数据集分成数值占优型数据集和分类占优型数据集；1.2根据占优分析得到的结果，采用相应的距离计算公式对该数据集进行计算，得到数据集的相似度距离矩阵；2)快速确定聚类中心，过程如下：2.1对于任意数据点i，通过公式ρ_i＝∑f(d_ij‑d_c)和式δ_i＝min(d_ij)(ρ_j≥ρ_i)计算出该数据点对象的ρ_i和δ_i，再根据公式γ_i＝ρ_i*δ_i计算出数据点的γ_i；2.2根据每个数据点的γ值做出关于γ的密度分布图，计算出γ的样本均值和样本方差，采用矩估计的方法得到数据集有关γ值整体分布的均值μ和方差σ²；2.3做出服从均值为μ，方差为σ²的正态分布曲线，用该曲线拟合γ的概率密度曲线，并根据正态分布的5σ原则划定置信区间；2.4根据划定的置信区间筛选出落于置信区间外的奇异点，对这些点的ρ和δ进行归一化处理，得到ρ^*和δ^*，设置参数k，若对于奇异点i，存在则将该奇异点选为聚类中心点；2.5根据求得的聚类中心点，采用将数据点i与密度高于它且离它最近的数据点归于一类的方法，将所有的数据点进行聚类划分，最终得到聚类结果；3)最优dc的选取，过程如下：3.1找出相似度距离矩阵中的最大值d_max和最小值d_min，采用公式d_c＝d_min+(d_max‑d_min)*percent/100，通过设定percent的值来计算出当前的dc值；3.2当dc被选定并得到聚类结果后，为比较对于不同dc时聚类效果的好坏，设计Fitness函数作为评价指标；Fitness由两部分组成：

<mrow><mi>F</mi><mi>i</mi><mi>t</mi><mi>n</mi><mi>e</mi><mi>s</mi><mi>s</mi><mn>1</mn><mo>=</mo><mfrac><mrow><msubsup><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup><mo>[</mo><msub><mi>Σ</mi><mrow><msub><mi>x</mi><mi>i</mi></msub><mo>&Element;</mo><msub><mi>C</mi><mi>j</mi></msub></mrow></msub><mi>d</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>C</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>/</mo><mo>|</mo><msub><mi>C</mi><mi>j</mi></msub><mo>|</mo><mo>]</mo></mrow><mi>m</mi></mfrac></mrow>

<mrow><mi>F</mi><mi>i</mi><mi>t</mi><mi>n</mi><mi>e</mi><mi>s</mi><mi>s</mi><mn>2</mn><mo>=</mo><mfrac><mrow><msubsup><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup><mo>[</mo><msubsup><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mi>i</mi><mo>&NotEqual;</mo><mi>j</mi></mrow><mi>m</mi></msubsup><mi>d</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>,</mo><msub><mi>C</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>/</mo><mrow><mo>(</mo><mi>m</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow><mo>]</mo></mrow><mi>m</mi></mfrac></mrow>

其中，m表示簇的个数，C_i和C_j表示第i个和第j个簇的聚类中心，|C_j|表示该簇的数据对象个数；Fitness1代表了全局的平均簇内距离，Fitness2则代表全局的平均簇间距离，根据聚类效果好坏的最本质定义：簇内距离越小越好，簇间距离越大越好，令

<mrow><mi>F</mi><mi>i</mi><mi>t</mi><mi>n</mi><mi>e</mi><mi>s</mi><mi>s</mi><mo>=</mo><mfrac><mrow><mi>F</mi><mi>i</mi><mi>t</mi><mi>n</mi><mi>e</mi><mi>s</mi><mi>s</mi><mn>2</mn></mrow><mrow><mi>F</mi><mi>i</mi><mi>t</mi><mi>n</mi><mi>e</mi><mi>s</mi><mi>s</mi><mn>1</mn></mrow></mfrac></mrow>

对于一个给定的dc，Fitness函数值越大，则说明聚类效果越好；3.3采用爬山算法选取最优dc，设定percent的初始值和迭代次数，对当前的percent值进行3.1～3.2的操作，通过比较不同percent下的Fitness函数值来对当前的percent值进行更新，若满足迭代次数，则跳至3.43.4输出最优dc以及最优dc时的聚类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610343213.3/，转载请声明来源钻瓜专利网。

上一篇：一种空调安装板、安装方法以及空调器
下一篇：一种基于不完全估计信息的分布式天线系统跨层设计方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种聚类中心快速确定的数据聚类方法在审

专利文献下载