[发明专利]一种手机信令数据清洗方法在审
申请号: | 201810797832.9 | 申请日: | 2018-07-19 |
公开(公告)号: | CN109040989A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 蔡铭;钟舒琦 | 申请(专利权)人: | 中山大学 |
主分类号: | H04W4/20 | 分类号: | H04W4/20;H04W8/02 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 手机信令 数据处理 清洗 漂移 城市交通规划 位置数据处理 经纬度 关键字段 乒乓切换 冗余数据 数据清洗 数据效用 系统清洗 研究区域 同位置 稀疏 自动化 筛选 合并 记录 人口 研究 | ||
1.一种手机信令数据清洗方法,其特征在于,包括以下步骤:
S1:筛选研究区域经纬度范围内数据;
S2:关键字段缺失数据处理;
S3:稀疏数据处理;
S4:同位置点数据合并;
S5:同时间不同位置数据处理;
S6:乒乓切换数据处理;
S7:漂移数据处理;
其中,所述的手机信令数据包括:
1)记录编号id:唯一标识每一条信令记录;
2)用户编号isdn:唯一标识每一个用户;
3)经度lng:用户所在位置的经度;
4)纬度lat:用户所在位置的纬度;
5)时间time:信令记录产生的时间;
信令数据的经纬度为用户实际位置的经纬度或基站小区的经纬度。
2.根据权利要求1所述的手机信令数据清洗方法,其特征在于,所述步骤S1中研究区域为矩形区域,其经度的最大值与最小值为lngmax、lngmin,纬度的最大值与最小值为latmax、latmin,则所筛选出的有效数据为:
lngmin<lngid<lngmax
latmin<latid<latmax
其中lngid和latid为每条信令记录的经纬度。
3.根据权利要求2所述的手机信令数据清洗方法,其特征在于,所述步骤S2中关键字段缺失数据包括用户编号、时间、经纬度字段。
4.根据权利要求3所述的手机信令数据清洗方法,其特征在于,步骤S3的具体过程是:
a)将一天24小时分为48个半小时区间;
b)将每个用户的原始信令数据按时间分至各个区间;
c)统计每个用户每天的信令数据所分布区间的数量ntimeslot;
d)选取区间数量大于阈值的用户数据为有效数据。
5.根据权利要求4所述的手机信令数据清洗方法,其特征在于,步骤S4中,将所有手机信令数据按照用户编号isdn和时间time递增排序,根据每条记录的经度lng和纬度lat计算其与上一条记录的距离distance_lag,筛选出所有距离distance_lag不为0的记录。对于筛选出的手机信令数据,再次按照用户编号isdn和时间time递增排序,根据每条记录的经度lng和纬度lat计算其与下一条记录的距离distance,根据每条记录的时间time计算其与下一条记录的时间差作为其停留时间staytime,由每条信令记录的距离distance除以停留时间staytime得到该条信令记录的速度speed。
6.根据权利要求5所述的手机信令数据清洗方法,其特征在于,步骤S5中,对于同一用户同一时间不同位置的信令记录的位置为Pm1、Pm2……Pmn∈Pm,其前一条信令记录的位置为Pf1、Pf2……Pfn∈Pf,其后一条信令记录的位置为Pr1、Pr2……Prn∈Pr,则由同时间记录的位置Pm与其前一条信令记录的位置Pf组成向量由同时间记录的位置Pm与其后一条信令记录的位置Pr组成向量根据向量点乘的原理计算两向量的夹角对于同一用户同一时间不同位置的信令记录,取夹角θ较小的记录为有效记录,对经过处理的信令数据包括非同时间不同位置数据进行步骤S4的同位置点数据合并处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810797832.9/1.html,转载请声明来源钻瓜专利网。