[发明专利]一种基于局部方向中心性的数据分布式聚类方法及装置在审
申请号: | 202211265216.1 | 申请日: | 2022-10-17 |
公开(公告)号: | CN115658809A | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 桂志鹏;黄子晨;彭德华 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/182;G06F18/23213;G06F16/13 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430072 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 方向 心性 数据 分布式 方法 装置 | ||
1.一种基于局部方向中心性的数据分布式聚类方法,其特征在于,包括:
S1:接收聚类任务所需的参数,包括环境参数、聚类算法参数、分区参数、近邻搜索参数,配置并注册序列化器,从分布式文件系统中读取待聚类的完整数据;
S2:基于读取的待聚类的完整数据构建优先搜索K-means树全局索引,通过分布式集群的主节点将全局索引共享给各工作节点;
S3:结合数据采样和Hilbert曲线分区方法对待聚类的完整数据进行分区,并得到对应的分区ID,通过分布式集群的主节点将分区ID对应的分区数据发送至对应的工作节点;
S4:分布式集群的各个工作节点并行执行CDC局部聚类算法,具体包括:工作节点通过共享的全局索引分别对分区数据进行k最近邻搜索并计算DCM值,并根据DCM值与DCM阈值之间的关系划分内部点和边界点,再基于内部点到边界点的可达距离进行内部点的合并,合并后的内部点归为同一个内部点类簇,标记内部点类簇ID,搜索与边界点最邻近的内部点并标记边界点类簇ID,得到局部类簇,其中,DCM值为数据点与其k个邻近点在二维空间形成的角度方差;
S5:分布式集群的主节点根据局部类簇的最大可达距离进行分区间局部类簇的合并,生成完整的类簇,作为聚类结果;
S6:将聚类结果输出到分布式文件系统中。
2.如权利要求1所述的基于局部方向中心性的数据分布式聚类方法,其特征在于,步骤S1包括:
S1.1:分布式集群接收聚类任务所需的参数,其中,环境参数包括文件路径,聚类算法参数包括邻居数和边界点比例,分区参数包括分区类型、分区采样率比例和分区数,近邻搜索参数包括索引类型参数、构建参数和搜索参数;
S1.2:注册几何类型对象与索引的序列化器;
S1.3:根据文件路径读取分布式文件系统中的待聚类的完整数据,并进行投影转换。
3.如权利要求2所述的基于局部方向中心性的数据分布式聚类方法,其特征在于,步骤S2包括:
S2.1:根据索引类型参数和构建参数初始化索引结构,其中,构建参数包括分支因子branch、K-means最大迭代次数Imax以及初始质心选择方法Calg;
S2.2:计算待聚类的完整数据的质心,构建索引树的根节点;
S2.3:根据Calg选择branch个初始分区质心,并将数据划分到最近的分区中;
S2.4:更新分区质心并重新划分数据,直到分区质心不变或者更新达到Imax;
S2.5:根据分区质心构建节点,并添加到父节点的子节点集合中;
S2.6:重复步骤S2.3至S2.5直到分区中数据个数小于branch,得到构建好的优先搜索K-means树全局索引,并用变量进行表示;
S2.7:通过分布式集群的主节点将优先搜索K-means树全局索引变量分发至各工作节点。
4.如权利要求2所述的基于局部方向中心性的数据分布式聚类方法,其特征在于,步骤S3包括:
S3.1:按照分区采样率比例对待聚类的完整数据进行数据采样;
S3.2:计算采样数据的Hilbert编码值并且按照值大小对采样点进行排序;
S3.3:将采样点均匀划分成与分区数对应数量个区间,记录划分位置,作为分区;
S3.4:由采样点扩展形成矩形分区范围,生成全部数据的分区ID;
S3.5:根据分区ID将对应的分区数据分发到集群各工作节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211265216.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:自清洗泵前过滤器
- 下一篇:一种灯管灯光测试仪及其使用方法