[发明专利]基于特征权重的全局K-均值聚类方法无效
申请号: | 201110208617.9 | 申请日: | 2011-07-22 |
公开(公告)号: | CN102254020A | 公开(公告)日: | 2011-11-23 |
发明(设计)人: | 于昕;焦李成;惠转妮;刘芳;曹宇;吴建设;王达;王爽;李阳阳 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 张问芬;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于特征权重的全局K-均值聚类方法,其实现过程为:首先将数据聚为一类,其最优聚类中心为所有数据的质心,接着通过计算求出目标函数最小的数据点并将该数据点作为下一类的初始聚类中心,再利用带有特征权重的K-均值方法迭代更新得到聚为两类时的最佳聚类中心,采用同样的方法依次增加聚类中心数进行更新迭代直到聚完设定的K类为止,这样就完成了将所有数据点聚到K类的整个过程。本发明将全局K-均值方法与带有特征属性的K-均值相结合,构造了一种新的基于特征权值的全局K-均值聚类方法,聚类结果十分稳定,通过与几种K-均值类聚类方法的实验结果比较,证明本发明的聚类方法的有效性和鲁棒性。 | ||
搜索关键词: | 基于 特征 权重 全局 均值 方法 | ||
【主权项】:
1.一种基于特征权重的全局K-均值聚类方法,其特征在于:首先将数据聚为一类,其最优聚类中心为所有数据的质心,接着通过计算求出目标函数最小的数据点并将该数据点作为下一类的初始聚类中心,再利用带有特征权重的“K-均值方法”迭代更新得到聚为两类的最佳聚类中心,采用同样的方法依次增加聚类中心数进行聚类,直到聚为设定的K类为止,从而完成将所有数据点聚为K类的整个过程,其具体实现步骤如下:(1)输入多维数据xij,1≤i≤N,1≤j≤D和聚类个数K,其中N表示数据的个数,D表示数据的特征属性个数,xij表示第j个属性的第i个数据点;(2)初始化聚类个数k=1初始化第k类的特征权重值为
D和d表示样本的特征属性个数,当k=1时,即只聚为一类时,其最优的聚类中心就是所有数据的质心,把所有数据点的质心作为第一类的初始聚类中心,即
(3)进行k+1类聚类1)找到第k+1类的初始最优聚类中心:①前k类的聚类中心(Z1,…,Zk)和特征权值[λ1,λ2,…,λk]已求出,将(Z1,…,Zk)作为前k类的最优初始中心;②将所有数据点依次作为第k+1个初始中心,且初始化第k+1类的特征权重值为
③以(Z1,…,Zk,Xi)作为聚类中心,Xi∈X,对所有数据进行N次聚类操作:第一步:每次计算出每个数据点和每个聚类中心之间的特征权重欧式距离,通过公式(1)将数据点的特征权重欧式距离进行比较,然后把数据点划分到距离最小的那一类:w hi = 1 if Σ j = 1 D λ k , j β ( z k , j - x i , j ) 2 ≤ Σ j = 1 D λ h , j β ( z h , j - x i , j ) 2 1 ≤ h ≤ k + 1 0 otherwise - - - ( 1 ) ]]> 式(1)中参数β=1.8,whi表示第i个数据是否属于h类,zh,j表示第h类聚类中心的第j个属性的值,λk,j第k个类别第j个属性的权重值,k表示类别,h表示小于类别k的变量;第二步:将聚类中心(Z1,…,Zk,Xi),whi和[λ1,λ2,…,λk+1]代入以下目标函数:J ( W , Z , Λ ) = Σ h = 1 k + 1 Σ i = 1 N w hi Σ j = 1 D λ hj β | | z hj - x ij | | 2 - - - ( 2 ) ]]> (2)式中,W=[wi,j]是一个K×N的整数矩阵,Z=[Z1,Z2,…,Zk]是代表聚类中心的矩阵,Λ=[λl,i]是一个K×D的特征权值的实数矩阵,将得到的值代入之后得出J(Z1,…,Zk,Xi);④选出第k+1初始最优中心,把每个J(Z1,…,Zk,Xi)进行比较,找出最小的J(Z1,…,Zk,Xi),则相应的Xi是k+1类的初始最优聚类中心,即Zk+1;2)对得到的聚类中心(Z1,…,Zk,Zk+1)进行优化更新:①将所有数据点进行聚类,计算出每个数据点和每个聚类中心之间的特征权重欧式距离;通过(1)式将数据点的特征权重欧式距离进行比较,然后把数据点划分到距离最小的那一类:②将更新得到的whi带入下面的式子,更新聚类中心zhj:z hj = Σ i = 1 N ω hi x ij Σ i = 1 N ω hi , ]]> 1≤h≤k+1 (3)③再将更新得到的whi和zhj代入下式更新每一个数据的特征权重值λhj:λ hj = 1 Σ t = 1 D [ Σ i = 1 N ω hi ( z hj - x ij ) 2 Σ i = 1 N ω hi ( z ht - x it ) 2 ] 1 / ( β - 1 ) ]]> 1≤h≤k+1 (4)④将更新得到的whi,zhj和λhj代入到以下目标函数进行计算:J T ( W , Z , Λ ) = Σ h = 1 k + 1 Σ i = 1 N w hi Σ j = 1 D λ hj β | | z hj - z ij | | 2 ]]> 其中,W=[wi,j]是一个K×N的整数矩阵,Z=[Z1,Z2,…,Zk]是代表聚类中心的矩阵,Λ=[λl,i]是一个K×D的特征权值的实数矩阵,将得到的值代入之后得出JT,其中T代表运行更新次数,JT则代表第T次运行得到的目标函数值;⑤目标函数值如果满足|JT-JT-1|≤10e-4,则执行步骤(3)进行k+1聚类,否则,返回步骤2)歩,对聚类中心进行更新优化直到满足上述条件;(4)判断是否满足终止条件即判断k+1>K是否成立,成立则方法结束,否则返回第(3)步进行k+1类聚类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110208617.9/,转载请声明来源钻瓜专利网。