[发明专利]地理位置聚类方法有效
申请号: | 201710456448.8 | 申请日: | 2017-06-16 |
公开(公告)号: | CN107291873B | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 汤奇峰;古丽米热·艾力肯 | 申请(专利权)人: | 晶赞广告(上海)有限公司 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06K9/62 |
代理公司: | 上海翰信知识产权代理事务所(普通合伙) 31270 | 代理人: | 张维东 |
地址: | 200072 上海市闸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地理位置 方法 | ||
本发明提供了一种地理位置聚类方法,首先验证数据点集中的数据是否符合正态分布,对于符合正态分布的,先计算核函数的带宽,再计算聚类的起始点,接着根据起始点和带宽计算得到起始点需要移动到的终点,并将该过程中访问过的数据均标记,并归类为一个簇,如果有没有被访问到的数据,则将标记过的点剔除后再重新计算新的起始点,重复第一次计算起始点移动的步骤,并得到另一个簇,将所有得到的簇两两进行组合,判断是否有需要合并的簇,因此采用本发明的地理位置聚类方法能够排除提取不正确或其它原因导致的异常点,从而生产正确、无噪音的地理位置数据,还可以消除由于地理位置生产者使用不同坐标系而产生的位置漂移。
技术领域
本发明属于软件算法技术领域,具体涉及一种地理位置聚类方法。
背景技术
随着计算机技术的发展,现今,我们需要地图导航时,大都使用电子地图,从电子地图上输入目的地后,能够直接在地图上定位该目的地。但是,现有的算法会出现提取不正确、或其它原因导致的异常点,从而会导致生产的地理位置数据不准确。或者由于地理位置生产者使用不同坐标系而产生位置漂移的问题。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种能够排除提取不正确或其它原因导致的异常点,从而生产正确、无噪音的地理位置数据,并且还可以消除由于地理位置生产者使用不同坐标系而产生的位置漂移的地理位置聚类方法。
本发明提供了一种地理位置聚类方法,其特征在于,包括以下步骤:步骤1,判断数据点集是否符合正态分布,如果符合则进入步骤2,如果不符合则结束;
步骤2,根据所述数据点集的正态分布基于预定规则得出所述数据点集的核函数的带宽;
步骤3,根据所述数据点集基于预定规则确定起始点;
步骤4,根据所述起始点、所述带宽基于预定规则得到所述起始点移动到的终点,标记从所述起始点移动到所述终点的计算过程中访问过的所述数据点集中的数据,并将标记的数据归为一个簇;
步骤5,判断所述数据点集中的所有数据是否均被标记过,如果所述数据点集中的所有数据均被标记过则进入步骤7,如果所述数据点集中有未被标记的数据,则进入步骤6;
步骤6,将所述数据点集中被标记过的数据剔除,将未被标记的数据作为新的数据点集计算得到新的起始点,然后返回步骤4;
步骤7,将得到的所有簇两两进行组合,判断每个组合中的两个簇的终点之间的距离与距离阈值的大小,如果两个簇的终点之间的距离小于距离阈值,则将该两个簇合并,如果两个簇的终点之间的距离大于距离阈值,则将两个簇分别作为单独的簇,并基于预定规则将所述数据点集中属于多个簇的多簇数据的进行归类。
进一步,在本发明提供的地理位置聚类方法中,还可以具有这样的特征:其中,步骤1中,根据数据点集分布的偏度和峰度来判断数据点集是否符合正态分布,偏度和峰度的计算方法如下:
S表示偏度;C表示峰度;xi表示数据点集中的一个数据;表示数据点集中的数据均值;n为数据点集中的数据个数;表示数据变量x关于分布中心的3阶距;为数据点集的标准差。
进一步,在本发明提供的地理位置聚类方法中,还可以具有这样的特征:其中,步骤1中,如果数据点集不符合正态分布,在结束前,先对数据点集进行调整,如果调整后符合正态分布的则进入步骤2,如果不能调整成正态分布的则结束。
进一步,在本发明提供的地理位置聚类方法中,还可以具有这样的特征:其中,步骤2中,带宽的计算方法如下:
h为核函数的带宽;为数据点集的标准差;n为数据点集中的数据个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于晶赞广告(上海)有限公司,未经晶赞广告(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710456448.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于大量数据的平台日志搜索呈现方法
- 下一篇:地图点位聚合方法及装置