[发明专利]一种基于密度峰值的数据流聚类方法及装置有效
申请号: | 201910324141.1 | 申请日: | 2019-04-22 |
公开(公告)号: | CN110163255B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 孙红卫;张瑞;杜韬;王信堂;许婧文;朱连江 | 申请(专利权)人: | 济南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/2455;G06F16/2458 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 杨哲 |
地址: | 250022 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 密度 峰值 数据流 方法 装置 | ||
本公开公开了一种基于密度峰值的数据流聚类方法及装置,以密度峰值和模糊聚类方法为基础,首次提出的疑似离群点的概念,以宽度自适应采样窗口模型以及空间‑时间衰减机制为主要创新点,以提高算法对数据流聚类的效率为主要目标和出发点,创新性地提出了一种新的数据流聚类方法及装置,即一种基于密度峰值的数据流聚类方法及装置,在保障可观的聚类精度前提下,获得更高效的数据流聚类效果。
技术领域
本公开属于数据流聚类的技术领域,涉及一种基于密度峰值的数据流聚类方法及装置。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
当今世界正处于以人工智能、机器学习、大数据分析、虚拟现实等先进技术为主导的第四次科技革命中,智能时代到来的趋势已势如破竹,各行各业都在积极加入到智能化大潮中,努力提高生产效率和竞争力。
数据,是智能时代这一饕餮盛宴的原生材料,巨量的高维数据蕴含着丰富的信息和知识,而随着个人终端技术和网络技术的飞速发展,信息交互日益频繁,通信量也大大提高,网络中无时无刻都存在着源源不断的流动的数据,这些时刻在网络介质中快速传播的数据成为一种新的数据形式——数据流,对于大多数企业、单位是不可能将网络数据全部截取后保存到存储介质中再统一分析的,一是硬件资源要求极高,二是网络数据具有一定的时效性,全部存储下来再分析得出的结果、知识可能已经过时。
而数据流还有一个特点就是无标签,属于无监督学习的研究对象,聚类分析是无监督学习中的重要内容,而面对数据流,传统的全局聚类算法已经不再适用,需要一种高效的面向数据流的聚类算法来实时地对数据进行分析并反馈其分析结果。
最经典的数据流聚类算法是由K-means算法改进来的CluStream算法,这也是数据流聚类算法的起点。后来出现了CluStream算法的改进版——HPStream算法,使其面向高维数据流时更鲁棒。由于它们的核心算法还是基于K-means的,只能发现球型簇,当面对非球型簇的时候便会暴露其缺点,于是基于密度的数据流聚类算法DenStream被提出,另外基于数据流网格模型的D-Stream算法也是一种基于密度的算法。另外,由于数据流中的高维数据形式不统一,难免会存在混合型数据,传统的聚类算法便无法有效进行处理,于是面向混合属性的数据流聚类算法HCLuStream便被提出,使得聚类算法更能适应于真是的数据流环境。
然而,发明人在研发过程中发现,虽然这些算法都为数据流聚类做出了各自的贡献,完善了数据流动态聚类的方法,使其越来越满足实际应用要求,但都存在一个问题,他们的主要关注点都是在数据类型上,根据数据情况而提出相应的改进,也就是重点放在聚类精度上,然而面对数据流,聚类效率也是极其重要的内容,如何使算法能够自适应调整使自身可以高效处理尽可能多的数据,而不丢失信息也是一个有意义的研究点。
发明内容
针对现有技术中存在的不足,本公开的一个或多个实施例提供了一种基于密度峰值的数据流聚类方法及装置,采用模糊聚类保证基本的聚类效率,引入密度峰值算法保证基本的聚类精度,在这两者基础上提出疑似离群点的概念来提高聚类方法的准确率,引入空间-时间衰减机制和自适应采样数据窗口模型来保障聚类方法的高效性。本公开可以有效地应用于企事业单位数据分析,特别是时效性要求较高且数据量较大的应用环境,可以实时、高效、直观地获得聚类分析的结果。
根据本公开的一个或多个实施例的一个方面,提供一种基于密度峰值的数据流聚类方法。
一种基于密度峰值的数据流聚类方法,该方法包括:
接收首批待聚类的数据流数据,初始化参数和数据结构;
接收新一批待聚类的数据流数据作为新数据,进行新数据的预聚类,同时将旧有数据流数据进行衰减;
将新一批待聚类的数据流数据和旧有数据流数据及其数据结构进行合并,并聚类合并后的数据,所述合并后的数据成为旧有数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910324141.1/2.html,转载请声明来源钻瓜专利网。