[发明专利]基于距离权重的全局k-均值聚类算法无效
申请号: | 201010181080.7 | 申请日: | 2010-05-24 |
公开(公告)号: | CN101814063A | 公开(公告)日: | 2010-08-25 |
发明(设计)人: | 石红;刘春洁 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F17/17 | 分类号: | G06F17/17;G06F17/30 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 温国林 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于距离权重的全局k-均值聚类算法,有如下步骤:1)计算所有样本点的聚集权重信息;2)计算所有样本数据的均值作为第一个簇的聚类中心;3)判断是否满足终止条件,即判断q+1是否大于k,k=1、2…,若q>k,算法终止,否则,进入下一步骤;寻找下一个簇的最佳初始中心;通过k-均值聚类算法计算此时的聚类中心。本发明可以有效的对数据分类,通过对算法进行分析可知,相比快速全局k-均值聚类算法,本本发明所需要的时间进一步降低,因此本发明在不改变分类结果的情况下,降低了聚类所需要的时间。 | ||
搜索关键词: | 基于 距离 权重 全局 均值 算法 | ||
【主权项】:
一种基于距离权重的全局k-均值聚类算法,其特征在于:包括如下步骤:1)计算所有样本点的聚集权重信息聚集权重信息计算公式如下所示, w i = 1 Σ j = 1 n d 2 ( x i , x j ) 其中n表示样本点数目,xi表示第i个样本,xj表示第j个样本,d(xi,xj)表示i、j两个样本点的距离。2)计算所有样本数据的均值作为第一个簇的聚类中心 m 1 = 1 n Σ i = 1 n x i 并设置q=1;其中,q代表的是当前已有的聚类中心点的数目。3)判断是否满足终止条件,即判断q+1是否大于k,k=1、2…,若q>k,算法终止,否则,进入下一步骤。4)寻找下一个簇的最佳初始中心下一个簇初始中心的选取,首先通过以下公式计算每一个目标节点的权重信息, g i = w i × Σ j = 1 q - 1 d 2 ( x i , m j ) 其中wi表示的是第i个节点的聚集权重,xi表示第i个样本,mj表示第j个聚类中心,q代表的是当前已有的聚类中心点的数目,d(xi,mj)表示的是样本点i和第j个聚类中心点的距离,选择gi最大的节点xi,作为下一个最佳的簇初始中心,并令q=q+1;5)通过k-均值聚类算法计算此时的聚类中心其中前q-1个簇的聚类中心是前q-1个最佳初始中心,第q个初始中心是由上步计算得到的xi节点,则可得到q个最佳初始中心,执行k-均值聚类算法得到最终的q个聚类中心,并然后返回第3)步骤。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010181080.7/,转载请声明来源钻瓜专利网。