[发明专利]一种数据去重方法、装置及计算机可读存储介质在审
申请号: | 202211233426.2 | 申请日: | 2022-10-10 |
公开(公告)号: | CN115563094A | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 郭铭 | 申请(专利权)人: | 上海微盟企业发展有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/242;G06F16/903 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭庆玲 |
地址: | 200441 上海市宝山*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 方法 装置 计算机 可读 存储 介质 | ||
本申请公开了一种数据去重方法、装置及计算机可读存储介质,涉及大数据领域。通过按预设周期获取ZSet结构中的目标窗口;其中目标窗口为ZSet结构中的所有窗口按预设要求排列的第一个窗口;判断目标窗口是否符合预设条件,若否,读取目标窗口中Set结构中所有的关键字符串,以用于通过Set结构对消息进行去重;其中,关键字符串为通过消息队列生成的包含消息的多个关键字符串。由此可知,上述方案通过对消息队列中的消息生成关键字符串,利用窗口的Set结构不重复特性的去重机制对包含消息的关键字符串进行去重,实现了对数据的聚合去重,解决了数据量大时,数据处理业务资源紧张和数据重复处理造成的资源浪费,提高了资源利用率。
技术领域
本申请涉及大数据领域,特别是涉及一种数据去重方法、装置及计算机可读存储介质。
背景技术
流式数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,流式数据可被视为一个随时间延续而无限增长的动态数据集合,应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。流式数据需要按记录或根据滑动时间窗口按顺序进行递增式处理,可用于多种分析,包括关联、聚合、筛选和取样。借助此类分析得出的信息,得以深入了解其内容,从而迅速对新情况做出响应。
现有的流式数据处理,对短时间内多条重复消息没有做聚合去重;当数据量大时容易导致下游消息处理业务崩溃,且对重复数据做重复处理会造成资源的浪费。
鉴于上述问题,设计一种数据去重方法,提高资源利用率,是该领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种数据去重方法、装置及计算机可读存储介质。
为解决上述技术问题,本申请提供一种数据去重方法,包括:
按预设周期获取ZSet结构中的目标窗口;其中,所述目标窗口为所述ZSet结构中的所有窗口按预设要求排列的第一个窗口;
判断所述目标窗口是否符合预设条件;
若否,读取所述目标窗口中Set结构中所有的关键字符串,以用于通过所述Set结构对消息进行去重;
其中,所述关键字符串为通过消息队列生成的包含所述消息的多个所述关键字符串。
优选地,在所述按预设周期获取ZSet结构中的目标窗口之前,还包括:
通过所述ZSet结构以时间顺序创建所述窗口;
其中,各所述窗口的项目名称为各所述窗口的创建时间。
优选地,所述判断所述目标窗口是否符合预设条件包括:
判断所述目标窗口的所述创建时间与持续时间的和是否不小于当前物理时间;
若否,则所述目标窗口不符合所述预设条件,进入到所述读取所述目标窗口中Set结构中所有的关键字符串的步骤。
优选地,所述消息队列生成所述关键字符串的具体步骤包括:
获取所述消息队列中的所述消息;
根据预设规则对所述消息进行过滤;
将过滤后的所述消息生成所述关键字符串,以用于发送所述关键字符串至所述创建时间与当前物理时间的差值最小的所述窗口中。
优选地,在所述读取所述目标窗口中Set结构中所有的关键字符串之前,还包括:
获取所述目标窗口的窗口锁。
优选地,在所述读取所述目标窗口中Set结构中所有的关键字符串之后,还包括:
将所述关键字符串还原为所述消息的原始数据;
发送所述原始数据至所述消息队列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海微盟企业发展有限公司,未经上海微盟企业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211233426.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种展成电解随动密封装置
- 下一篇:恒流保护电路及推挽变换器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置