[发明专利]一种基于Spark的高维稀疏文本数据聚类方法有效

申请号：	201610988558.4	申请日：	2016-11-09
公开（公告）号：	CN106570173B	公开（公告）日：	2020-09-29
发明（设计）人：	王进;黄超;莫倩雯;陈乔松;邓欣;欧阳卫华;胡峰;李智星;雷大江	申请（专利权）人：	重庆邮电大学
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	刘小红
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明请求保护一种基于Spark的高维稀疏文本数据聚类方法，包括步骤：用RDD读入数据集；并用RDD接口设计出分布式稀疏向量集；分布式稀疏向量集与其所在结点的完整数据集计算相似度，按编号抽象为相似矩阵。将存放的相似矩阵对称化，并求其归一化形式和Laplace矩阵形式。4、利用SVD分解步骤3中归一化Laplace矩阵，5、步骤4构建的新矩阵作为样本输入到K‑means模型进行训练。6、利用建立的模型对测试集进行聚类。本发明提高了传统谱聚类算法在大数据集下的运算性能。
搜索关键词：	一种基于 spark 稀疏文本数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于Spark的高维稀疏文本数据聚类方法，其特征在于，包括以下步骤：步骤1：通过Spark大数据平台提供的弹性分布式数据集RDD读入待处理数据集样本，并用RDD接口设计出存储高维稀疏数据集的分布式稀疏向量集；步骤2：计算待处理数据集样本之间的相似矩阵M并采用并行稀疏向量集方式存储。相似度用欧式距离方式度量；步骤3：将步骤2采用并行稀疏向量集方式存储的相似矩阵M对称化，并求出经过归一化laplace矩阵；步骤4：用SVD特征分解归一化laplace矩阵并求出K个最近邻特征向量，将这K个最近邻特征向量组成为一个最近邻矩阵；步骤5：步骤4构建的最近邻矩阵作为样本输入到K‑means模型进行训练，完成聚类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610988558.4/，转载请声明来源钻瓜专利网。

上一篇：一种基于CPU+GPU异构并行计算的透平机械叶片静强度特性分析方法
下一篇：一种在三维模型中添加紧固件的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Spark的高维稀疏文本数据聚类方法有效

专利文献下载