[发明专利]一种基于采样的流数据聚类方法在审
申请号: | 201910363175.1 | 申请日: | 2019-04-30 |
公开(公告)号: | CN110334207A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 邱云飞;刘兴 | 申请(专利权)人: | 辽宁工程技术大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 重庆百润洪知识产权代理有限公司 50219 | 代理人: | 刘立春 |
地址: | 123000*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于采样的流数据聚类方法。本发明首先将流数据收集为等大小的数据存储块,对每个数据块进行不同比重的采样后进行谱聚类,再训练回归模型对其余数据进行标记。主要工作是针对时序问题,在采样的过程中加入了时间权重,使最新数据拥有较大的比例被采样到,并替换数据点聚类问题为“子簇”聚类问题,增强了采集信息的健壮性。实验结果表明,与最近的流数据聚类方法相比,在精度和速度方面,本发明方法优于其他流聚类方法。 | ||
搜索关键词: | 聚类 采样 流数据 数据存储块 采集信息 回归模型 时序问题 替换数据 最新数据 健壮性 数据块 权重 子簇 | ||
【主权项】:
1.一种基于采样的流数据聚类方法,其特征在于,包括如下步骤:步骤一、在线收集步骤:收集、存储流数据:采用多个block_size大小的数据块存储流数据,其中block_size大小与当前流速度和时间粒度有关:block_size>流速度*时间粒度;步骤二、离线处理这步骤:1)用户输入要处理的时间范围;2)根据要处理的时间范围内数据块发生的时间确定每个数据块的权重,其中距离用户输入要处理的时间范围内时刻的输入时间越近的数据块所占据的权重越大,得到采样子集Y′;3)使用局部敏感哈希法在数据块中查找1个或几个点的最近邻,并形成子簇,计算所有子簇的中心点形成新的采样子集Y″。4)以Y″生成相似度矩阵S,然后对相似度矩阵S稀疏化,得到新的相似度矩阵S′;5)采用谱聚类方法对新的相似度矩阵S′并标签化,得到标签L;6)用XGBoost方法拟合Y′和L,得到回归分类模型Model;7)使用Model去聚类Y′以外且在输入要处理的时间范围的数据,得到最终的聚类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910363175.1/,转载请声明来源钻瓜专利网。