[发明专利]一种基于时空网格的数据过滤方法、终端设备及存储介质在审
申请号: | 202111369711.2 | 申请日: | 2021-11-18 |
公开(公告)号: | CN114282067A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 施翔飞;林海;江逸鑫;黄月和;阮志忠;黄天旺 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/9537 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 赵薇 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 网格 数据 过滤 方法 终端设备 存储 介质 | ||
本发明涉及一种基于时空网格的数据过滤方法、终端设备及存储介质,该方法中包括:S1:采用基于规则的过滤器对数据进行过滤处理,剔除数据中不符合规则的异常数据;S2:对过滤处理后的数据进行时空网格化处理为时空网格编码后,以哈希表结构进行存储;S3:通过时空过滤器,对哈希表中不满足时空约束条件的数据进行过滤。本发明除了能过滤常见的异常数据外,还通过对数据进行时空网格化,对数据进行提炼,减少大量冗余基础采集日志存储,降低了存储成本,且保留了具有代表性价值的数据,为后续的时空关联挖掘工作打下良好基础。
技术领域
本发明涉及大数据处理领域,尤其涉及一种基于时空网格的数据过滤方法、终端设备及存储介质。
背景技术
随着大数据时代的到来,日益膨胀的采集数据使大数据逐渐迷失在信息的海洋之中。常常会有大量无效、冗余数据混杂在其中,其对硬件要求带来巨大压力,同时也大大影响数据挖掘的难度,导致挖掘出的信息价值有所降低。传统的技术主要有以下几种:
第一种是如申请号为CN201610974444.4的中国发明专利《一种海量时空数据清洗方法及装置》中采用的方法,其未考虑到后期的数据检索使用的方便性,且考虑不全面,只基于时间去判定数据合法性。
第二种是如申请号为CN201710016325.2的中国发明专利《一种基于多源位置感知的时空关系分析系统》中采用的方法,其未针对数据本身特性结合实际业务进行细节过滤,且其数据存储也只是简单的描述利用hdfs进行分布式存储,并不能体现后期检索使用能达到快速检索。
综上,传统方法具有以下不足:传统时空数据过滤只是做了简单的完整性以及业务规范检验过滤,或者只考虑了时间因素,仍然存在大量冗余数据,且未对数据进行规范化,不利于检索;需要大量算力去挖掘计算这些无用冗余数据,且对挖掘出的关联信息起到误导性作用,造成以量概质的现象。因此不能够满足需求。
发明内容
为了解决上述问题,本发明提出了一种基于时空网格的数据过滤方法、终端设备及存储介质。
具体方案如下:
一种基于时空网格的数据过滤方法,包括以下步骤:
S1:采用基于规则的过滤器对数据进行过滤处理,剔除数据中不符合规则的异常数据;
S2:对过滤处理后的数据进行时空网格化处理为时空网格编码后,以哈希表结构进行存储;
S3:通过时空过滤器,对哈希表中不满足时空约束条件的数据进行过滤。
进一步的,不符合规则的异常数据包括:字段不完整的数据、存在于黑名单上的数据和不满足业务规则的数据。
进一步的,步骤S2中哈希表中关键字字段对应的内容为数据类型与时空网格编码的拼接。
进一步的,时空网格编码具体为:timeSlot|longitudeSlot|latitudeSlot,其中:“|”表示分隔符,timeSlot表示时间槽,longitudeSlot表示经度槽,latitudeSlot表示纬度槽,计算公式分别为:
timeSlot=(timestamp–timestamp%timeSlotSize)/timeSlotSize
longitudeSlot=(longitude–longitude%longitudeSlotSize)/longitudeSlotSize
latitudeSlot=(latitude–latitude%latitudeSlotSize)/latitudeSlotSize
longitude=int(longitude*100000)
latitude=int(latitude*100000)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111369711.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置