[发明专利]一种用户家庭工作地址挖掘流程有效
申请号: | 201810602684.0 | 申请日: | 2018-06-12 |
公开(公告)号: | CN109034187B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 鲍明广 | 申请(专利权)人: | 上海中通吉网络技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 葛钟 |
地址: | 201708 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种用户家庭工作地址挖掘流程,用户的地理位置信息可以通过各种途径获取到,在地图上展示出来就是许多点组成的疏密不等的集群,一个基本常识就是普通用户的家庭地址和工作地址是点相对密集的区域,首先用DBSCAN等基于空间聚类的方式找出点相对密集的区域,并取前两个集群点数最多的集群为用户家和工作地址所在地。然后根据两个集群的点抽取一些特征(比如集群总点数、集群点总时长、集群点时间波动性、集群点时间特征、集群点星期特征、集群点周边POI(place of interest)信息等)作为特征,利用SVM或Logistics模型训练,判断某个集群是家还是工作地址。然后用一种调优后的KMeans算法在集群上聚类,作为用户的家庭或者工作地址。 | ||
搜索关键词: | 一种 用户 家庭 工作 地址 挖掘 流程 | ||
【主权项】:
1.一种用户家庭工作地址挖掘流程,其特征在于:所述用户家庭工作地址挖掘流程包括如下工作步骤:(1)、将所有用户地理位置信息经过预处理后,以用户分组后,各用户数据按时间降序排列,选择最近一段时间的行程的起始点和终止点的经纬度及其时间作为数据源;(2)、利用DBSCAN算法并选取不同的超参数组合进行调优计算出最优的各个用户最优的地理位置集群,并选出集群总点数靠前n个集群作为备选集群,然后计算点数最多和最少的备选集群的总点数只差和所有备选集群总点数的比值,如果大于阈值则继续(3),否则结束判断;(3)、针对所有的备选集群,利用KMeans算法计算该集群的一个中心点作为备选集群的中心;(4)、遍历某用户经过时间排序后的所有行程点,从第二段行程的开始依次判断是否起点的位置与上一段行程的终止位置距离小于第一阈值,如果不是则继续下段行程判断,如果小于第一阈值,则依次判断距离所有备选集群中心的距离是否小于第二阈值,则该段行程加入对应备选集群,如果是则继续(5),否则继续下段行程判断;(5)、遍历某用户经过时间排序后的所有行程点,从第二段行程开始依次判断该行程起点与上段行程的终点时间间隔,然后加入该行程对应备选集群的总时间间隔TC;判断该段行程时间内是否有周六周日的时间,将相关时间加入到周六周日对应的总时间间隔,同时各个备选集群有效点数相应加一,这些数据都记为相应集群的特征;(6)、根据各个备选集群的总停留时间重新排序,保留前两名集群及相关特征。然后判断第一备选集群总时间间隔占比是否大于第一阈值,如果是则标记为只有家庭地址的用户,否则继续判断上述前两名集群总时间间隔占比是否大于第二阈值,如果不是则结束判断,如果是继续判断第二备选集群总时间间隔占比是否大于第三阈值,如果不是则结束判断,如果是则继续判断前两名集群总停留点数占比是否大于第四阈值,如果不是结束判断,如果是则继续判断第二集群总停留点占比是否大于第五阈值,如果是则计算前两名集群的达到时间波动特征;(7)、利用总时间间隔、周六总时间间隔、周日总时间间隔、有效点数和到达时间波动特征作为机器学习的输入,相应的标签是该集群属于家庭还是工作地址,运用机器学习模型进行训练并调优得出最终结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海中通吉网络技术有限公司,未经上海中通吉网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810602684.0/,转载请声明来源钻瓜专利网。