[发明专利]一种基于密度的增量聚类数据挖掘方法及系统在审

申请号：	201610055222.2	申请日：	2016-01-27
公开（公告）号：	CN105740371A	公开（公告）日：	2016-07-06
发明（设计）人：	毛睿;张贺;陆敏华;廖好;李荣华;王毅;刘刚;许红龙	申请（专利权）人：	深圳大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	深圳市恒申知识产权事务所(普通合伙) 44312	代理人：	王利彬
地址：	518060 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于密度增量数据挖掘方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据挖掘领域，尤其涉及一种基于密度的增量聚类数据挖掘方法及系统。

背景技术

随着计算机和网络技术的迅猛发展，数据库的规模和应用范围也随之不断扩大，人们获取数据的途径也越来也多，获取数据的方式也更趋于自动化，使得获取数据变得更加容易，人们对数据的认识也逐步深入。

目前一些应用领域，诸如电信、互联网、物流、经济、军事、金融、生物医药等等，都产生了大量的不同类型的数据，可以将这些数据大致分为确定性数据和不确定性数据，其中，确定性数据中又可以分为空间数据(即多维数据)和非空间数据(如DNA序列等)，不确定性数据又可以分为元组不确定性数据和属性不确定性数据。而且，这些数据不同于传统的静态数据，随着时间的推移，这些数据会逐渐的增加。传统的数据分析方法很难对其加以有效的分析，如何从中快速高效的发掘有价值的信息，引起了众多研究人员的关注。

近年来，数据挖掘技术成为了人们眼中的焦点，数据挖掘的目标就是从海量的数据中抽取潜在的、有价值的模式和知识。聚类分析是数据挖掘的重要手段，目前被广泛应用的聚类算法，通常只适用于静态数据集的聚类，而对于动态数据集，新增数据后则需要使用聚类算法，重新进行聚类，这样必然造成了聚类效率的低下和计算资源的浪费。

因此，如何提高对动态数据集的数据挖掘效率一直以来就是业界亟需改进的目标。

发明内容

有鉴于此，本发明实施例的目的在于提供一种基于密度的增量聚类数据挖掘方法及系统，旨在解决现有技术中对动态数据集进行数据挖掘的效率较低的问题。

本发明实施例是这样实现的，一种基于密度的增量聚类数据挖掘方法，包括：

采用DBSCAN算法对原始数据集进行聚类处理，以得到有类标签的数据；

对所述有类标签的数据当添加有新的数据时，则采用IncrementalDBSCAN算法对所述有类标签的数据进行增量聚类处理；以及

将两次聚类处理的结果进行迭加以形成最终数据挖掘结果。

优选的，所述对所述有类标签的数据当添加有新的数据时，则采用IncrementalDBSCAN算法对所述有类标签的数据进行增量聚类处理的步骤包括：

判定对所述有类标签的数据所做的数据操作方式，并根据不同的数据操作方式分别处理所述有类标签的数据；以及

根据不同数据类型，对所述有类标签的数据进行增量聚类处理。

优选的，所述判定对所述有类标签的数据所做的数据操作方式，并根据不同的数据操作方式分别处理所述有类标签的数据的步骤包括：

当进行插入操作时，若插入对象符合预设噪音条件则将该插入对象标记为噪音，若插入对象符合预设创建新聚类条件则为该插入对象创建一个新聚类，若插入对象符合预设归并同一聚类条件则为该插入对象归并到同一个聚类中，若插入对象符合预设合并不同聚类条件则为该插入对象合并到不同的聚类中；