[发明专利]地理位置聚类方法有效
申请号: | 201710456448.8 | 申请日: | 2017-06-16 |
公开(公告)号: | CN107291873B | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 汤奇峰;古丽米热·艾力肯 | 申请(专利权)人: | 晶赞广告(上海)有限公司 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06K9/62 |
代理公司: | 上海翰信知识产权代理事务所(普通合伙) 31270 | 代理人: | 张维东 |
地址: | 200072 上海市闸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地理位置 方法 | ||
1.一种地理位置聚类方法,其特征在于,包括以下步骤:
步骤1,根据数据点集分布的偏度和峰度判断数据点集是否符合正态分布,所述偏度和所述峰度的计算方法如下:
S表示偏度,C表示峰度,xi表示数据点集中的一个数据,表示数据点集中的数据均值,n为数据点集中的数据个数,表示数据变量x关于分布中心的3阶距,为数据点集的标准差;
如果符合正态分布则进入步骤2,如果不符合正态分布则结束;
步骤2,根据所述数据点集的正态分布基于预定规则得出所述数据点集的核函数的带宽,所述带宽计算方法如下:
h为核函数的带宽,为数据点集的标准差,n为数据点集的数据个数;
步骤3,根据所述数据点集基于预定规则确定起始点;
步骤4,根据所述起始点、所述带宽基于预定规则得到所述起始点移动到的终点,标记从所述起始点移动到所述终点的计算过程中访问过的所述数据点集中的数据,并将标记的数据归为一个簇;
步骤5,判断所述数据点集中的所有数据是否均被标记过,如果所述数据点集中的所有数据均被标记过则进入步骤7,如果所述数据点集中有未被标记的数据,则进入步骤6;
步骤6,将所述数据点集中被标记过的数据剔除,将未被标记的数据作为新的数据点集计算得到新的起始点,然后返回步骤4;
步骤7,将得到的所有簇两两进行组合,判断每个组合中的两个簇的终点之间的距离与距离阈值的大小,如果两个簇的终点之间的距离小于距离阈值,则将该两个簇合并,如果两个簇的终点之间的距离大于距离阈值,则将两个簇分别作为单独的簇,并基于预定规则将所述数据点集中属于多个簇的多簇数据的进行归类。
2.根据权利要求1所述的地理位置聚类方法,其特征在于:
其中,步骤1中,如果数据点集不符合正态分布,在结束前,先对数据点集进行调整,如果调整后符合正态分布的则进入步骤2,如果不能调整成正态分布的则结束。
3.根据权利要求1所述的地理位置聚类方法,其特征在于:
其中,所述起始点采用中心点计算公式得到,中心点计算公式如下:
其中,n为确定起始点时选用的数据点集中的数据个数,centraLon为中心点的经度,centraLat为中心点的纬度,latitudei为数据点集中的数据的纬度,longitudei为数据点集中的数据的经度。
4.根据权利要求1所述的地理位置聚类方法,其特征在于:
其中,步骤4中从所述起始点移动到所述终点的方法如下:
步骤4-1,以所述起始点为中心点,查找所述数据点集中所有到所述中心点的距离小于所述带宽的数据并进行标记,并计算中心点到每个标记的数据的漂移向量;
步骤4-2,将步骤4-1中得到的所有漂移向量相加得到中心点的偏移向量,将中心点沿所述偏移向量移动,移动的距离为所述偏移向量的绝对值,移动后到达的点作为中间点;
步骤4-3,判断所述偏移向量与设定阈值的大小,如果大于设定阈值,则返回步骤4-1,并以步骤4-2中得到的所述中间点为中心点开始迭代计算,如果小于设定阈值,则记录下该中间点作为终点,并且将在该迭代过程中被标记过的点归类为一个簇。
5.根据权利要求4所述的地理位置聚类方法,其特征在于:
其中,所述漂移向量采用以下方法得到:
为数据点集的标准差,k(x)为Gaussian kernel函数,h为核函数的带宽,xi表示步骤4-1中标记的数据,x表示中心点。
6.根据权利要求4所述的地理位置聚类方法,其特征在于:
其中,所述数据点集中属于多个簇的多簇数据采用以下方法进行归类:
在步骤4中聚类一个簇时,每执行一次步骤4-1,被标记的数据属于该簇的概率加1,
将多簇数据属于各个簇的概率进行比较,将多簇数据归类于概率大的那个簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于晶赞广告(上海)有限公司,未经晶赞广告(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710456448.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于大量数据的平台日志搜索呈现方法
- 下一篇:地图点位聚合方法及装置