[发明专利]一种基于时空网格的数据过滤方法、终端设备及存储介质在审

专利信息
申请号: 202111369711.2 申请日: 2021-11-18
公开(公告)号: CN114282067A 公开(公告)日: 2022-04-05
发明(设计)人: 施翔飞;林海;江逸鑫;黄月和;阮志忠;黄天旺 申请(专利权)人: 厦门市美亚柏科信息股份有限公司
主分类号: G06F16/901 分类号: G06F16/901;G06F16/9537
代理公司: 厦门市精诚新创知识产权代理有限公司 35218 代理人: 赵薇
地址: 361000 福建省厦门市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 时空 网格 数据 过滤 方法 终端设备 存储 介质
【说明书】:

本发明涉及一种基于时空网格的数据过滤方法、终端设备及存储介质,该方法中包括:S1:采用基于规则的过滤器对数据进行过滤处理,剔除数据中不符合规则的异常数据;S2:对过滤处理后的数据进行时空网格化处理为时空网格编码后,以哈希表结构进行存储;S3:通过时空过滤器,对哈希表中不满足时空约束条件的数据进行过滤。本发明除了能过滤常见的异常数据外,还通过对数据进行时空网格化,对数据进行提炼,减少大量冗余基础采集日志存储,降低了存储成本,且保留了具有代表性价值的数据,为后续的时空关联挖掘工作打下良好基础。

技术领域

本发明涉及大数据处理领域,尤其涉及一种基于时空网格的数据过滤方法、终端设备及存储介质。

背景技术

随着大数据时代的到来,日益膨胀的采集数据使大数据逐渐迷失在信息的海洋之中。常常会有大量无效、冗余数据混杂在其中,其对硬件要求带来巨大压力,同时也大大影响数据挖掘的难度,导致挖掘出的信息价值有所降低。传统的技术主要有以下几种:

第一种是如申请号为CN201610974444.4的中国发明专利《一种海量时空数据清洗方法及装置》中采用的方法,其未考虑到后期的数据检索使用的方便性,且考虑不全面,只基于时间去判定数据合法性。

第二种是如申请号为CN201710016325.2的中国发明专利《一种基于多源位置感知的时空关系分析系统》中采用的方法,其未针对数据本身特性结合实际业务进行细节过滤,且其数据存储也只是简单的描述利用hdfs进行分布式存储,并不能体现后期检索使用能达到快速检索。

综上,传统方法具有以下不足:传统时空数据过滤只是做了简单的完整性以及业务规范检验过滤,或者只考虑了时间因素,仍然存在大量冗余数据,且未对数据进行规范化,不利于检索;需要大量算力去挖掘计算这些无用冗余数据,且对挖掘出的关联信息起到误导性作用,造成以量概质的现象。因此不能够满足需求。

发明内容

为了解决上述问题,本发明提出了一种基于时空网格的数据过滤方法、终端设备及存储介质。

具体方案如下:

一种基于时空网格的数据过滤方法,包括以下步骤:

S1:采用基于规则的过滤器对数据进行过滤处理,剔除数据中不符合规则的异常数据;

S2:对过滤处理后的数据进行时空网格化处理为时空网格编码后,以哈希表结构进行存储;

S3:通过时空过滤器,对哈希表中不满足时空约束条件的数据进行过滤。

进一步的,不符合规则的异常数据包括:字段不完整的数据、存在于黑名单上的数据和不满足业务规则的数据。

进一步的,步骤S2中哈希表中关键字字段对应的内容为数据类型与时空网格编码的拼接。

进一步的,时空网格编码具体为:timeSlot|longitudeSlot|latitudeSlot,其中:“|”表示分隔符,timeSlot表示时间槽,longitudeSlot表示经度槽,latitudeSlot表示纬度槽,计算公式分别为:

timeSlot=(timestamp–timestamp%timeSlotSize)/timeSlotSize

longitudeSlot=(longitude–longitude%longitudeSlotSize)/longitudeSlotSize

latitudeSlot=(latitude–latitude%latitudeSlotSize)/latitudeSlotSize

longitude=int(longitude*100000)

latitude=int(latitude*100000)

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111369711.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top