[发明专利]一种数据乱序到达处理方法和系统有效
申请号: | 201710236101.2 | 申请日: | 2017-04-12 |
公开(公告)号: | CN106997394B | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 李广;王纯斌;曹洹太;覃进学;刘旻哲 | 申请(专利权)人: | 成都四方伟业软件股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 610041 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 到达 处理 方法 系统 | ||
本发明公开了一种数据乱序到达处理方法和系统。方法包括以下步骤:提取当前时间窗口字段,将时间窗口字段处理成日期类型数据;判断用户流数据是否存在指定时间窗口字段,并做相应地处理;标记时间分片字段所在的时间窗口字段,并从Redis存储库中提取在该时间窗口字段之前的数据集;判断标记的时间窗口字段的时间分片数据是否在提取的数据集中,并做相应地处理;存储用户流数据到Redis存储库中,更新Redis存储库;系统包括数据处理模块、第一判断模块、标记模块、第二判断模块和Redis存储库模块。本发明解决了实时流数据的乱序到达的问题,尤其适用于解决数据源并非序列化的场景,提升了数据的有效性和时序性。
技术领域
本发明涉及大数据分析处理技术领域,具体是一种数据乱序到达处理方法和系统。
背景技术
目前大数据产业背景下,实时流技术是一种将批次化、有序、整齐的序列化数据,固定地往分析器中推送的数据处理技术。由于分析器对数据格式要求严格,这直接导致大多数情况下,数据格式单一,序列化要求严格。然而,在实时流数据源中,数据往往并非都是来自高度序列化的场景,因数据乱序到达导致数据清洗结果与原数据结果经常呈现不一致,数据时序性差,数据质量低。
发明内容
本发明的目的在于克服现有技术的不足,提供一种数据乱序到达处理方法和系统,本发明通过对实时流数据时间分片分批分配的原理,使Spark处理节点上在存储Redis过程中进行逻辑分配,从而解决了实时流数据的乱序到达问题,提升了数据的有效性和时序性。
本发明的目的是通过以下技术方案来实现的:一种数据乱序到达处理方法,它包括以下步骤:
S103:提取当前时间窗口字段,将时间窗口字段处理成日期类型数据;
S104:判断用户流数据是否存在指定时间窗口字段,
(1)如果用户流数据没有指定时间窗口字段,则使用当前时间作为时间分片字段;
(2)如果用户流数据有指定时间窗口字段,且指定的时间窗口字段不在合法窗口内,则丢弃该字段并记录日志,将日志作为时间分片字段;
(3)如果用户流数据有指定时间窗口字段,且指定的时间窗口字段在合法窗口内,则使用该字段作为该条用户数据的时间分片字段;
S105:标记步骤S4中得到的时间分片字段所在的时间窗口字段,并从Redis存储库中提取在该时间窗口字段之前的数据集;
S106:判断标记的时间窗口字段的时间分片数据是否在步骤S5中提取的数据集中,
(1)如果所述的时间分片数据在数据集中,则将所述的时间分片数据与数据集合并,并将合并后的数据重新存储到Redis存储库中;
(2)如果所述的时间分片数据不在数据集中,则对所述的时间分片数据新建数据表单,并将新建数据表单添加到Redis存储库中;
S107:存储该条用户流数据到Redis存储库中,更新Redis存储库。
进一步,在步骤S103之前,还包括以下步骤:
S101:接收用户流数据;
S102:对接收到的用户流数据进行预处理,判断数据的有效性,并对有效数据转换数据类型。
所述的用户流数据包括传感器数据、业务系统数据和服务器日志。
一种数据乱序到达处理系统,它包括:
数据处理模块,用于将时间窗口字段处理成日期类型数据;
第一判断模块,用于判断用户流数据是否存在指定时间窗口字段;
标记模块,用于标记时间分片字段所在的时间窗口字段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710236101.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:医疗配件定向供料装置
- 下一篇:医疗配件上料装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置