[发明专利]一种手机信令数据清洗方法在审
申请号: | 201810797832.9 | 申请日: | 2018-07-19 |
公开(公告)号: | CN109040989A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 蔡铭;钟舒琦 | 申请(专利权)人: | 中山大学 |
主分类号: | H04W4/20 | 分类号: | H04W4/20;H04W8/02 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 手机信令 数据处理 清洗 漂移 城市交通规划 位置数据处理 经纬度 关键字段 乒乓切换 冗余数据 数据清洗 数据效用 系统清洗 研究区域 同位置 稀疏 自动化 筛选 合并 记录 人口 研究 | ||
本发明提供一种手机信令数据的清洗方法,包括以下步骤:(1)筛选研究区域经纬度范围内的数据;(2)关键字段缺失数据处理;(3)稀疏数据处理;(4)同位置点记录合并;(5)同时间不同位置数据处理;(6)乒乓切换数据处理;(7)漂移数据处理。本发明充分考虑手机信令数据的特点,对手机信令数据中出现的误差及冗余数据进行系统清洗,使之适用于城市交通规划、人口分布等领域的研究,具有清洗全面、自动化、效率高、数据效用高等特点。
技术领域
本发明涉及大数据技术领域,更具体地,涉及一种手机信令数据清洗方法。
背景技术
根据工业和信息化部的数据,截至2018年5月,我国移动电话用户数量已达到14.96亿,出行群体中的手机拥有率及使用率已达到较高比例。用户在使用手机进行打接电话、收发短信、切换基站时,会产生手机信令数据并被运营商所记录,由此得到用户的时间与位置数据。
相比于传统居民出行调查每5~10年一次的频率,1%~5%的抽样率,手机信令数据拥有样本量大、观测时间长的优势。相比于公交IC卡、出租车GPS以及卡口等交通大数据,手机信令数据拥有跟随性强的优势,即其位置数据不受交通方式变化的影响。但是手机信令数据作为移动通信运营商计费的副产物,存在着两个明显的劣势。一是位置精度低,一般情况下手机信令数据仅有基站级别的定位精度,即用户返回的位置均为手机基站的位置。在市区内基站的覆盖范围为200-500米,在郊区或农村地区基站覆盖范围为800-1000米,相比于GPS定位3-10米的定位精度存在明显劣势。二是数据稀疏,因为手机并非实时与基站通信,只有用户进行相应操作或是长时间未与基站通信是才会与基站通信。因此手机信令数据可能无法反映用户的实时位置,导致用户轨迹点的缺失。
此外,手机信令数据还存在乒乓切换数据、漂移数据、同时间不同位置点数据等特有的误差数据。乒乓切换数据指的是当用户处于两个及以上基站小区的交界处时,手机信号被多个基站覆盖且信号强度相近,手机在两个或多个基站间来回切换,产生多条信令记录,但实际上手机用户并没有移动或移动距离很短的情况。漂移数据是指用户突然从临近基站切换至远处基站,一段时间后又切回临近基站的情况所产生的数据。同时间不同位置数据是指同一用户的在同一时刻存在两条及以上不同位置点的信令数据。这些误差数据都手机信令所特有的,需要针对性地设计方法剔除。加上手机信令数据具有数据冗余量大、精度低、数据稀疏等特点。这就对手机信令数据的清洗提出了更高的要求,需要根据手机信令数据的特点进行针对性的清洗,使之适用于后续的数据分析。
发明内容
本发明提供一种手机信令数据清洗方法,该方法高效处理海量手机信令数据,使之适用于地理、交通规划等领域的数据分析应用。
为了达到上述技术效果,本发明的技术方案如下:
一种手机信令数据清洗方法,包括以下步骤:
S1:筛选研究区域经纬度范围内数据;
S2:关键字段缺失数据处理;
S3:稀疏数据处理;
S4:同位置点数据合并;
S5:同时间不同位置数据处理;
S6:乒乓切换数据处理;
S7:漂移数据处理;
其中,所述的手机信令数据包括:
1)记录编号id:唯一标识每一条信令记录;
2)用户编号isdn:唯一标识每一个用户;
3)经度lng:用户所在位置的经度;
4)纬度lat:用户所在位置的纬度;
5)时间time:信令记录产生的时间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810797832.9/2.html,转载请声明来源钻瓜专利网。