[发明专利]基于Spark和ASPSO的并行化K-means的优化方法有效
| 申请号: | 202110501668.4 | 申请日: | 2021-05-08 |
| 公开(公告)号: | CN113128617B | 公开(公告)日: | 2022-04-15 |
| 发明(设计)人: | 廖列法;毛伊敏;甘德瑾 | 申请(专利权)人: | 江西理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00 |
| 代理公司: | 重庆天成卓越专利代理事务所(普通合伙) 50240 | 代理人: | 王宏松 |
| 地址: | 341000 江*** | 国省代码: | 江西;36 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 spark aspso 并行 means 优化 方法 | ||
1.一种基于Spark和ASPSO的并行化K-means的优化方法,其特征在于,包括以下步骤:
S1,通过分割函数粗略的划分图像数据集,并利用基于皮尔逊相关系数和方差的网格划分策略PCCV来计算数据网格的皮尔逊相关系数与相关系数阈值,再通过与阈值比较,对数据网格进行划分,获取网格单元;
S1-1,图像数据集的粗略划分:首先获取划分图像数据集,并将其标记为Gs;其次提出分割函数FD(xi)计算出划分阈值,分别与每个数据点比较,对于大于阈值的数据则放入网格Gmax中,小于阈值的数据则放入Gmin中;最后获得Gmax与Gmin两个数据网格;
所述分割函数FD(xi)为:
k={max(Si/di)|i=1,2,...u} (1)
其中,k表示分割维度,Si为空间图像数据集中第i维度的数据的方差,di为空间图像数据集中第i维度的数据之和,u表示u个数据维度,为第k分割维度下的数据值,num为网格中的数据点的个数;
S1-2,网格的划分:在获取Gmax与Gmin两个数据网格之后,对网格Gmax与Gmin进行进一步的数据划分;
S1-2-1,首先计算网格中数据点的皮尔逊相关系数阈值PCCk值,以PCCk值作为网格划分阈值来对数据网格进行划分,通过比较数据皮尔逊相关系数与PCCk的大小,将系数大于PCCk的数据进行标记为core,系数小于PCCk的数据则标记为uncore;
S1-2-2,将网格中数据标记为core与uncore的两种数据分别划分为两个更小的网格,并取消标记;
S1-2-3,对网格进行数据的判断,如果数据点的个数大于网格单元的阈值maxNum,则返回步骤S1-2-1,否则停止对网格进行划分;其中maxNum表示数据的总的个数n与并行化节点Partition个数的比值;
S1-2-4,将划分好的网格单元进行标记,得到网格单元G1,G2,G3...Gm;
令PCCk为任意两个数据点的皮尔逊相关系数值,则阈值PCCk为:
其中,PCCi,j代表数据点i、j之间的关联程度,sum(·)为求和函数,Gnum为网格单元的数据个数,ω为数据点的密度权重,xk,i、xk,j分别表示第k个网格中的任意两个数据点的值,m表示数据网格总数;
S2,采用SPFG策略,对数据点进行局部区域覆盖,并通过更新函数,更新图像数据集中的样本点,形成以不同样本点为核心的区域簇,获取局部聚类的簇数;
S2-1,对图像数据集中任意一对数据xi,xj,计算其作用势γ(xi,xj),并以xi为基准样本,将其他的样本点对xj的作用势进行累加,得到每个样本点的作用势集合为:ρ={ρ1,ρ2,...,ρn},其中ρ1表示第1个样本点的作用势,ρ2表示第2个样本点的作用势,ρn表示第n个样本点的作用势;
S2-2,从ρ中选择最大作用势ρi放入一个空的集合M{}中,并以ρi为当前的高斯核中心,以给定的核宽σ建立相应的高斯核来对原始数据的一个局部区域有效覆盖;
S2-3,消除当前高斯核所覆盖的局部区域的样本势值,提出基于高斯核函数的更新函数FU(xi,yj)对图像数据集中的其他样本点进行更新;
更新函数FU(xi,yj)如下所示:
其中,ρi为高斯核中心,ρj为集合中的样本点,σk表示核宽,表示高斯内核;
更新后每个样本点的作用势集合为ρ'={ρ'1,ρ'2,...,ρ'n},当更新后的势值满足max{ρ'1,ρ'2,...,ρ'n}δ时,即可从ρ'中选择势值最大的样本点,放入集合M2{}中,其中δ表示作用势的一个阈值,ρ'1表示更新后的第1个样本点的作用势,ρ'2表示更新后的第2个样本点的作用势,ρ'n表示更新后的第n个样本点的作用势;
S3,采用ASPSO策略,计算自适应参数,通过自适应参数更新粒子的位置和速度,获取局部簇质心;
S4,采用CRNN策略计算每个簇的簇半径,通过簇半径计算出簇与簇之间的邻居节点,并根据簇的相似性函数进行相似度判断,结合Spark并行计算框架将相似度大的簇进行合并;
S4-1,对于每一个簇C'1,C'2,...C'K,分别计算出离质心距离最大的点,以其到质心的距离作为簇半径Ri;在获取每一个簇的簇半径之后,便计算出各个簇之间的邻居节点;其中C'1为第1个簇,C'2为第2个簇,C'K为第K个簇;
S4-2,对于簇第i个簇Ci'、第j个簇Cj',通过邻居节点集疏密程度判断两个簇之间的亲密程度,并分别计算出两个簇的样本点数ni,nj,提出簇的相似性函数CSM(ni,nj),计算出簇与簇之间的相似度;
S5,输出聚类结果:最终的聚类中心以及每个样本所属的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西理工大学,未经江西理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110501668.4/1.html,转载请声明来源钻瓜专利网。





