[发明专利]基于Spark和ASPSO的并行化K-means的优化方法有效

专利信息
申请号: 202110501668.4 申请日: 2021-05-08
公开(公告)号: CN113128617B 公开(公告)日: 2022-04-15
发明(设计)人: 廖列法;毛伊敏;甘德瑾 申请(专利权)人: 江西理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/00
代理公司: 重庆天成卓越专利代理事务所(普通合伙) 50240 代理人: 王宏松
地址: 341000 江*** 国省代码: 江西;36
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 spark aspso 并行 means 优化 方法
【权利要求书】:

1.一种基于Spark和ASPSO的并行化K-means的优化方法,其特征在于,包括以下步骤:

S1,通过分割函数粗略的划分图像数据集,并利用基于皮尔逊相关系数和方差的网格划分策略PCCV来计算数据网格的皮尔逊相关系数与相关系数阈值,再通过与阈值比较,对数据网格进行划分,获取网格单元;

S1-1,图像数据集的粗略划分:首先获取划分图像数据集,并将其标记为Gs;其次提出分割函数FD(xi)计算出划分阈值,分别与每个数据点比较,对于大于阈值的数据则放入网格Gmax中,小于阈值的数据则放入Gmin中;最后获得Gmax与Gmin两个数据网格;

所述分割函数FD(xi)为:

k={max(Si/di)|i=1,2,...u} (1)

其中,k表示分割维度,Si为空间图像数据集中第i维度的数据的方差,di为空间图像数据集中第i维度的数据之和,u表示u个数据维度,为第k分割维度下的数据值,num为网格中的数据点的个数;

S1-2,网格的划分:在获取Gmax与Gmin两个数据网格之后,对网格Gmax与Gmin进行进一步的数据划分;

S1-2-1,首先计算网格中数据点的皮尔逊相关系数阈值PCCk值,以PCCk值作为网格划分阈值来对数据网格进行划分,通过比较数据皮尔逊相关系数与PCCk的大小,将系数大于PCCk的数据进行标记为core,系数小于PCCk的数据则标记为uncore;

S1-2-2,将网格中数据标记为core与uncore的两种数据分别划分为两个更小的网格,并取消标记;

S1-2-3,对网格进行数据的判断,如果数据点的个数大于网格单元的阈值maxNum,则返回步骤S1-2-1,否则停止对网格进行划分;其中maxNum表示数据的总的个数n与并行化节点Partition个数的比值;

S1-2-4,将划分好的网格单元进行标记,得到网格单元G1,G2,G3...Gm

令PCCk为任意两个数据点的皮尔逊相关系数值,则阈值PCCk为:

其中,PCCi,j代表数据点i、j之间的关联程度,sum(·)为求和函数,Gnum为网格单元的数据个数,ω为数据点的密度权重,xk,i、xk,j分别表示第k个网格中的任意两个数据点的值,m表示数据网格总数;

S2,采用SPFG策略,对数据点进行局部区域覆盖,并通过更新函数,更新图像数据集中的样本点,形成以不同样本点为核心的区域簇,获取局部聚类的簇数;

S2-1,对图像数据集中任意一对数据xi,xj,计算其作用势γ(xi,xj),并以xi为基准样本,将其他的样本点对xj的作用势进行累加,得到每个样本点的作用势集合为:ρ={ρ12,...,ρn},其中ρ1表示第1个样本点的作用势,ρ2表示第2个样本点的作用势,ρn表示第n个样本点的作用势;

S2-2,从ρ中选择最大作用势ρi放入一个空的集合M{}中,并以ρi为当前的高斯核中心,以给定的核宽σ建立相应的高斯核来对原始数据的一个局部区域有效覆盖;

S2-3,消除当前高斯核所覆盖的局部区域的样本势值,提出基于高斯核函数的更新函数FU(xi,yj)对图像数据集中的其他样本点进行更新;

更新函数FU(xi,yj)如下所示:

其中,ρi为高斯核中心,ρj为集合中的样本点,σk表示核宽,表示高斯内核;

更新后每个样本点的作用势集合为ρ'={ρ'1,ρ'2,...,ρ'n},当更新后的势值满足max{ρ'1,ρ'2,...,ρ'n}δ时,即可从ρ'中选择势值最大的样本点,放入集合M2{}中,其中δ表示作用势的一个阈值,ρ'1表示更新后的第1个样本点的作用势,ρ'2表示更新后的第2个样本点的作用势,ρ'n表示更新后的第n个样本点的作用势;

S3,采用ASPSO策略,计算自适应参数,通过自适应参数更新粒子的位置和速度,获取局部簇质心;

S4,采用CRNN策略计算每个簇的簇半径,通过簇半径计算出簇与簇之间的邻居节点,并根据簇的相似性函数进行相似度判断,结合Spark并行计算框架将相似度大的簇进行合并;

S4-1,对于每一个簇C'1,C'2,...C'K,分别计算出离质心距离最大的点,以其到质心的距离作为簇半径Ri;在获取每一个簇的簇半径之后,便计算出各个簇之间的邻居节点;其中C'1为第1个簇,C'2为第2个簇,C'K为第K个簇;

S4-2,对于簇第i个簇Ci'、第j个簇Cj',通过邻居节点集疏密程度判断两个簇之间的亲密程度,并分别计算出两个簇的样本点数ni,nj,提出簇的相似性函数CSM(ni,nj),计算出簇与簇之间的相似度;

S5,输出聚类结果:最终的聚类中心以及每个样本所属的类别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西理工大学,未经江西理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110501668.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top