[发明专利]一种基于采样的流数据聚类方法在审
申请号: | 201910363175.1 | 申请日: | 2019-04-30 |
公开(公告)号: | CN110334207A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 邱云飞;刘兴 | 申请(专利权)人: | 辽宁工程技术大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 刘立春 |
地址: | 123000*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 采样 流数据 数据存储块 采集信息 回归模型 时序问题 替换数据 最新数据 健壮性 数据块 权重 子簇 | ||
本发明公开了一种基于采样的流数据聚类方法。本发明首先将流数据收集为等大小的数据存储块,对每个数据块进行不同比重的采样后进行谱聚类,再训练回归模型对其余数据进行标记。主要工作是针对时序问题,在采样的过程中加入了时间权重,使最新数据拥有较大的比例被采样到,并替换数据点聚类问题为“子簇”聚类问题,增强了采集信息的健壮性。实验结果表明,与最近的流数据聚类方法相比,在精度和速度方面,本发明方法优于其他流聚类方法。
技术领域
本发明涉及一种基于采样的流数据聚类方法,属于数据处理领域。
背景技术
近年来,微博、新闻、头条等信息由于交互性强、推送信息及时等特点,备受用户青睐。以新闻为例,如何准确的抓住信息的重点、挖掘重点信息并建立模型,已成为当今互联网的热点话题。
面对以上数据处理,主要面临以下两个问题:
(1)数据维度高
由于用户活动复杂,收集的数据也非常复杂,造成数据维度较高,很难处理。针对高维数据的处理,研究人员提出了各种降维方式。如传统的PCA,使用很少的主成分来表示原始数据集;矩阵奇异值分解SVD,也能在一定程度上解决降维问题;LDA,一种线性降维算法等。
(2)数据量大并且重复性高
以头条为例,时事热点有大量重复的信息,来自于不同的作者对同一事件描述,造成大量重复信息集中在某一时间段;而由于有大量的用户以及大量的时事热点,流数据的收集量也非常巨大。传统的数据处理方式难以应对大规模的数据集。
名词解释:
XGBoost(eXtreme Gradient Boosting)全名叫极端梯度提升,是boosting算法的其中一种。
D-Stream:一种基于密度的数据流聚类算法。
Clustream算法:一种数据流聚类算法。
发明内容
为解决上述问题,本发明提供了一种基于采样的流数据聚类方法。本发明首先将流数据收集为等大小的数据存储块,对每个数据块进行不同比重的采样后进行谱聚类,再训练回归模型对其余数据进行标记。主要工作是针对时序问题,在采样的过程中加入了时间权重,使最新数据拥有较大的比例被采样到,并替换数据点聚类问题为“子簇”聚类问题,增强了采集信息的健壮性。实验结果表明,与最近的流数据聚类方法相比,在精度和速度方面,本发明方法优于其他流聚类方法。
为达到上述技术效果,本发明的技术方案是:
一种基于采样的流数据聚类方法,包括如下步骤:
步骤一、在线收集步骤:
收集、存储流数据:采用多个block_size大小的数据块存储流数据,其中block_size大小与当前流速度和时间粒度有关:
block_size>流速度*时间粒度;
步骤二、离线处理这步骤:
1)用户输入要处理的时间范围;
2)根据要处理的时间范围内数据块发生的时间确定每个数据块的权重,其中距离用户输入要处理的时间范围内时刻的输入时间越近的数据块所占据的权重越大,得到采样子集Y′;
3)使用局部敏感哈希法在数据块中查找1个或几个点的最近邻,并形成子簇,计算所有子簇的中心点形成新的采样子集Y″。
4)以Y″生成相似度矩阵S,然后对相似度矩阵S稀疏化,得到新的相似度矩阵S′;5)采用谱聚类方法对新的相似度矩阵S′并标签化,得到标签L;
6)用XGBoost方法拟合Y′和L,得到回归分类模型Model;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910363175.1/2.html,转载请声明来源钻瓜专利网。