[发明专利]一种二次聚类方法及系统无效

申请号：	201310581217.1	申请日：	2013-11-18
公开（公告）号：	CN103577602A	公开（公告）日：	2014-02-12
发明（设计）人：	侯德龙	申请（专利权）人：	浪潮（北京）电子信息产业有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京安信方达知识产权代理有限公司 11262	代理人：	王丹;栗若木
地址：	100085 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种二次方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据流挖掘技术领域，尤其涉及一种二次聚类方法及系统。

背景技术

近年来，随着硬件技术的发展，有越来越多的应用产生数据流，数据流不同于传统的存储在磁盘上的静态数据，而是一类新的数据对象，它是无限的、连续的、有序的、快速变化的、海量的数据；典型的数据流包括网络与道路交通监测系统的监测信息数据、电信部门的通话记录数据、由传感器传回的各种监测数据、股票交易所的股票价格信息数据以及环境温度的监测数据等。数据流本身的这些特点决定了对数据流进行处理时只能对数据作一到两遍的扫描，并只能临时存储少量的数据。因此原来很多成熟的数据挖掘、数据分析和数据查询技术在数据流上变得不适用了，需要提出新的解决方法。

因此，数据流的问题一出现马上引起了研究者的重视，出现了很多研究成果，对数据流从管理、查询、分析与挖掘算法等多个方面进行了研究；数据流挖掘技术作为数据挖掘领域的新问题，很多挖掘算法需要针对数据流进行改造；数据流聚类分析作为数据流挖掘的一个重要研究方向，同样面临着巨大的挑战，也引起了研究者们的广泛关注，目前出现了不少相关的研究成果，并应用到了实践中。

传统的聚类是建立在数据库操作模式下的；传统的数据库可以对所有数据进行存储并支持复杂的查询操作。因此，在数据库模式下，传统方法可以采用多次读取数据，并对数据进行随机存取等操作实现对所存储数据的聚类。然而，在数据流环境下，这些操作方法都是不可行的，数据流本身所具有的特征使得传统的聚类算法不可能(甚至不能)直接应用于数据流聚类。

因而，与传统的聚类方法相比，数据流聚类算法应当具有以下特点：

首先，使用有限的内存及存储空间。数据流具有连续无限性，其中的数据总量远远超过了能够提供给聚类算法使用的空间(主存)容量，因此完整存储数据流中的数据是不可行的，也是不可能的。数据流聚类算法不可能对所有需要处理的数据对象进行存储，只能通过概化或有选择地舍弃数据来保证所使用的空间大小是有限的，合理的。

其次，线性扫描增量式处理或一遍扫描。对于数据流中超大规模的海量数据而言，线性扫描是唯一有效的读取数据方法，而随机读取数据需要相当昂贵的计算代价。而且，即使对数据流中的数据进行多次线性扫描，也是需要很多计算代价的，因为这些数据通常存储在读取速度很慢的外存设备中。况且，在很多数据流环境中，数据以非常快的速度变化，并不需要将其存储。这些数据必须在其产生时就被处理，然后即被丢弃。因此，数据流聚类算法应当只对数据进行一遍扫描，至少要实现线性扫描的增量式处理。

再次，对数据记录的处理具有实时性。数据流中数据的变化速度很快，对响应速度的要求很高。因此，数据流聚类算法中使用数据记录的处理过程必须具有很快的处理速度，避免遗漏需要处理的数据记录。

但是，已知的数据流聚类算法大多适用于具有特定分布的数据，且对噪音比较敏感。然而，实际应用领域中的数据流大多具有数据分布不规则、含有噪音等特点，使已有的数据流聚类算法的难以取得令人满意的聚类质量。

发明内容

本发明提供了一种二次聚类方法及系统，以解决上述问题。

本发明提供了一种二次聚类方法，包括以下步骤：

对数据流进行分块并读入数据块；

使用DBSCAN算法聚类，获得密度簇参考点；

对获取的所述密度簇参考点进行k-means算法聚类并采用分层的结构保存k-means算法聚类所获得的k均值参考点。

本发明提供了一种二次聚类系统，包括：分块读入模块、密度簇参考点获取模块、k均值参考点获取模块；分块读入模块通过密度簇参考点获取模块与k均值参考点获取模块相连；

所述分块读入模块，用于对数据流进行分块并读入数据块；

所述密度簇参考点获取模块，用于使用DBSCAN算法聚类，获得密度簇参考点；

所述k均值参考点获取模块，用于对获取的所述密度簇参考点进行k-means算法聚类并采用分层的结构保存k-means算法聚类所获得的k均值参考点。