[发明专利]一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法在审
申请号: | 201811515205.8 | 申请日: | 2018-12-12 |
公开(公告)号: | CN109711439A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 李胜;洪彩霞;何熊熊;常丽萍;杨建军;管俊轶 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 算法 画像数据 邻居搜索 大规模数据 准确度 交集 大小不一 距离最近 欧式距离 实际工程 统计特性 应用需求 圆形区域 决策图 数据集 自适应 遍历 游客 样本 分配 | ||
一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法,首先基于欧式距离和数据集本身的统计特性定义密度自适应距离,然后使用Group算法遍历所有的样本,形成大小不一且无交集的圆形区域;再根据新的定义密度的方式计算每个圆的密度与距离;利用决策图找出簇心圆后,将剩余的圆分配给距离最近其密度高于它的圆,从而完成聚类。本发明方法在不影响聚类准确度的情况下能够快速完成聚类,在处理大规模数据时有明显的优势,更能满足实际工程应用需求。
技术领域
本发明涉及密度聚类领域,具体涉及一种使用Group算法来加速聚类的密度峰大规模游客画像数据聚类方法。
背景技术
聚类是数据挖掘技术中的一个重要组成部分,它是指用物理或抽象对象的集合分成由类似的对象组成的多个类的过程。通俗来讲,聚类就是一个将目标对象划分成若干个簇的过程,使得相同簇中的对象相似度较高,不同簇之间的对象相似度低。聚类分析是一种常见的数据分析工具,在模式识别、图像处理、机器学习、web搜索、市场营销等领域都有着广泛的应用前景。传统的聚类分析计算方法主要有如下几种:基于划分聚类、基于层次聚类、基于密度聚类、基于网格聚类以及基于图的聚类。K-means算法是基于划分聚类的经典算法,通过多次迭代提高聚类质量。由于该算法对初始聚类中心很敏感,如果初始聚类中心选择不好,结果很容易陷入局部最优,导致聚类结果不稳定。并且K-means算法不适合处理任意形状的簇;尽管基于密度划分的DBSCAN算法以及基于图的SC(Spectral Clustering)聚类算法适用于任意形状的数据集,但他们过于依赖参数的设定;而基于网格的聚类算法如STING、CLIQUE,在处理数据时往往会降低聚类的准确度。
2014年,Rodriguez等人在《Science》期刊中提出了一种可以处理任何形状数据集的算法:Clustering by fast search and find of Density Peaks(简称DPC算法)。该算法假设聚类中心具有较高的密度ρ,且与其他具有更高局部密度的数据点具有相对较大的距离δ。与传统聚类算法相比,密度峰聚类算法虽然聚类效果好,但往往要以较长的时间为代价。
发明内容
为了克服现有DPC算法处理大规模游客画像数据时需要耗费大量时间的不足,本发明提出了利用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法,首先,基于欧式距离和数据集本身的统计特性定义密度自适应距离,以更好地描述数据空间分布结构;其次,将Group算法与DPC算法相结合,并且提出了一种新的定义密度的方式,利用在UCI真实数据集上的实验表明,新算法不仅能够保证聚类的效果,还大大减少了聚类所花费的时间。
为了解决上述技术问题,本发明采用如下的技术方案:
一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法,包括以下步骤:
步骤1,输入数据集X={x1,x2,…,xn}∈RD,其中,x表示数据集中的样本点,D表示样本维数,n表示样本的个数;
步骤2,Eps半径参数的确定,过程如下:
2.1首先计算样本点xi和xj之间的欧式距离:得到距离分布矩阵DISTn×n的值,即:
DISTn×n={dist(xi,xj),1≤i≤n,1≤j≤n} (1)
其中,xi表示第i个样本点。对DISTn×n中每行的值从小到大进行排序,记DISTn×m为排序后距数据点n最近的第m个距离值,m=[0.01n],当数据集小于200时,m取2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811515205.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:大巴交通线路获取方法、装置及设备
- 下一篇:一种数据异常检测方法和装置