[发明专利]一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法在审
申请号: | 201811515205.8 | 申请日: | 2018-12-12 |
公开(公告)号: | CN109711439A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 李胜;洪彩霞;何熊熊;常丽萍;杨建军;管俊轶 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法,首先基于欧式距离和数据集本身的统计特性定义密度自适应距离,然后使用Group算法遍历所有的样本,形成大小不一且无交集的圆形区域;再根据新的定义密度的方式计算每个圆的密度与距离;利用决策图找出簇心圆后,将剩余的圆分配给距离最近其密度高于它的圆,从而完成聚类。本发明方法在不影响聚类准确度的情况下能够快速完成聚类,在处理大规模数据时有明显的优势,更能满足实际工程应用需求。 | ||
搜索关键词: | 聚类 算法 画像数据 邻居搜索 大规模数据 准确度 交集 大小不一 距离最近 欧式距离 实际工程 统计特性 应用需求 圆形区域 决策图 数据集 自适应 遍历 游客 样本 分配 | ||
【主权项】:
1.一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法,其特征在于,所述方法包括以下步骤:步骤1,输入数据集X={x1,x2,…,xn}∈RD,其中,x表示数据集中的样本点,D表示样本维数,n表示样本的个数;步骤2,Eps半径参数的确定,过程如下:2.1首先计算样本点xi和xj之间的欧式距离:
得到距离分布矩阵DISTn×n的值,即:DISTn×n={dist(xi,xj),1≤i≤n,1≤j≤n} (1)其中,xi表示第i个样本点,对DISTn×n中每行的值从小到大进行排序,记DISTn×m为排序后距数据点n最近的第m个距离值,m=[0.01n],当数据集小于200时,m取2;2.2对于DISTn×m中每个样本点的距离,即每条行向量的数据,在距离度量中,都应有自己的权重α,即:
其中,αi的选取与数据本身的统计特性有关,方差描述随机变量对于均值的偏离程度,方差越大,波动越大;2.3首先,计算DISTn×m每行的标准差σ,即:
其中,
为距离DISTn×m第i行的均值;2.4标准差越大,其对应的权重应当越小,因此定义权重:
对权重进行归一化:
从而得出Eps;分两个阶段运行:第一阶段,在整个数据集上运行Group算法以获得一系列圆形区域;第二阶段,使用基于DPC的算法对所获得的圆形区域进行聚类;步骤3,在整个数据集上运行Group算法以获得一系列圆形区域;在Group算法遍历完所有数据集之后,会形成一系列大小不一的圆,记为s,于是每个数据点依次分配到圆s中,所有s组成集合S,sm表示每个圆的圆心;步骤4,使用基于DPC的算法对所获得的圆形区域进行聚类,聚类中心具有较高的密度ρ且与更高密度点具有较大的距离δ,过程如下:4.1对密度ρ进行重新定义,Group算法遍历所有数据集后,所得到的圆形区域之间会存在相互重叠的情况,但是它们之间并无交集,此时,将重叠区域之间的数据点分配给交叉的圆形区域,这样每个圆形区域的密度定义为:
其中humi和ri分别为第i个圆形区域中数据点的个数和圆形区域的半径;4.2以圆i到更高密度圆j的最短距离作为圆内样本点的距离值,记为δi,定义如下:
对于具有全局最高密度的数据点,有δj=maxi≠jδi;步骤5,Group算法将所有样本点用若干个圆形区域表示后,计算出每个圆的密度ρi以及距离δi,将具有较高密度ρ和较大距离值δ作为聚类中心,聚类中心通过决策图选取,找到簇心圆后,首先对每个簇心圆赋予不同的类标,然后采用一种基于密度的划分方式;步骤6,每个非簇心圆跟随它最近且密度高于它的圆,直到所有的非簇心圆分配完,分配完后,每个非簇心圆的类标只需跟随其落入的圆的类标,聚类结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811515205.8/,转载请声明来源钻瓜专利网。
- 上一篇:大巴交通线路获取方法、装置及设备
- 下一篇:一种数据异常检测方法和装置