[发明专利]一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法在审

专利信息
申请号: 201811515205.8 申请日: 2018-12-12
公开(公告)号: CN109711439A 公开(公告)日: 2019-05-03
发明(设计)人: 李胜;洪彩霞;何熊熊;常丽萍;杨建军;管俊轶 申请(专利权)人: 浙江工业大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法,首先基于欧式距离和数据集本身的统计特性定义密度自适应距离,然后使用Group算法遍历所有的样本,形成大小不一且无交集的圆形区域;再根据新的定义密度的方式计算每个圆的密度与距离;利用决策图找出簇心圆后,将剩余的圆分配给距离最近其密度高于它的圆,从而完成聚类。本发明方法在不影响聚类准确度的情况下能够快速完成聚类,在处理大规模数据时有明显的优势,更能满足实际工程应用需求。
搜索关键词: 聚类 算法 画像数据 邻居搜索 大规模数据 准确度 交集 大小不一 距离最近 欧式距离 实际工程 统计特性 应用需求 圆形区域 决策图 数据集 自适应 遍历 游客 样本 分配
【主权项】:
1.一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法,其特征在于,所述方法包括以下步骤:步骤1,输入数据集X={x1,x2,…,xn}∈RD,其中,x表示数据集中的样本点,D表示样本维数,n表示样本的个数;步骤2,Eps半径参数的确定,过程如下:2.1首先计算样本点xi和xj之间的欧式距离:得到距离分布矩阵DISTn×n的值,即:DISTn×n={dist(xi,xj),1≤i≤n,1≤j≤n}     (1)其中,xi表示第i个样本点,对DISTn×n中每行的值从小到大进行排序,记DISTn×m为排序后距数据点n最近的第m个距离值,m=[0.01n],当数据集小于200时,m取2;2.2对于DISTn×m中每个样本点的距离,即每条行向量的数据,在距离度量中,都应有自己的权重α,即:其中,αi的选取与数据本身的统计特性有关,方差描述随机变量对于均值的偏离程度,方差越大,波动越大;2.3首先,计算DISTn×m每行的标准差σ,即:其中,为距离DISTn×m第i行的均值;2.4标准差越大,其对应的权重应当越小,因此定义权重:对权重进行归一化:从而得出Eps;分两个阶段运行:第一阶段,在整个数据集上运行Group算法以获得一系列圆形区域;第二阶段,使用基于DPC的算法对所获得的圆形区域进行聚类;步骤3,在整个数据集上运行Group算法以获得一系列圆形区域;在Group算法遍历完所有数据集之后,会形成一系列大小不一的圆,记为s,于是每个数据点依次分配到圆s中,所有s组成集合S,sm表示每个圆的圆心;步骤4,使用基于DPC的算法对所获得的圆形区域进行聚类,聚类中心具有较高的密度ρ且与更高密度点具有较大的距离δ,过程如下:4.1对密度ρ进行重新定义,Group算法遍历所有数据集后,所得到的圆形区域之间会存在相互重叠的情况,但是它们之间并无交集,此时,将重叠区域之间的数据点分配给交叉的圆形区域,这样每个圆形区域的密度定义为:其中humi和ri分别为第i个圆形区域中数据点的个数和圆形区域的半径;4.2以圆i到更高密度圆j的最短距离作为圆内样本点的距离值,记为δi,定义如下:对于具有全局最高密度的数据点,有δj=maxi≠jδi;步骤5,Group算法将所有样本点用若干个圆形区域表示后,计算出每个圆的密度ρi以及距离δi,将具有较高密度ρ和较大距离值δ作为聚类中心,聚类中心通过决策图选取,找到簇心圆后,首先对每个簇心圆赋予不同的类标,然后采用一种基于密度的划分方式;步骤6,每个非簇心圆跟随它最近且密度高于它的圆,直到所有的非簇心圆分配完,分配完后,每个非簇心圆的类标只需跟随其落入的圆的类标,聚类结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811515205.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top