[发明专利]流式数据处理方法、装置、设备和介质有效
申请号: | 201911285830.2 | 申请日: | 2019-12-13 |
公开(公告)号: | CN111046074B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 陈鑫;林江红;高春旭;叶峻 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06Q30/0241 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 设备 介质 | ||
本申请实施例公开了一种流式数据处理方法、装置、设备和介质,涉及大数据处理技术领域,其中,该方法包括:确定预设数量的槽位中是否存在实时接收的新数据中的关键字段,其中,预设数量的值大于需求数据量的设定值;如果不存在,并且预设数量的槽位中不存在空位,则用关键字段替换槽位中的末位字段,并根据新数据当前携带的信息和末位字段的统计属性,确定关键字段在槽位中的统计属性;根据关键字段的统计属性,实时确定新数据是否属于需求数据。本发明实施例通过动态维护预设数量的槽位数据,在保证top‑k问题处理准确率的情况下,可以降低内存消耗。
技术领域
本申请实施例涉及计算机技术,具体涉及大数据处理,尤其涉及一种流式数据处理方法、装置、设备和介质。
背景技术
在很多统计分析系统或广告系统中,均会对数据流进行实时计算,从而解决针对某个数据维度的top-k问题。
针对该top-k问题,当前常用方案主要包括以下两种:
(1)直接通过先进先出的方式,先到先得,k个槽位占满之后,在后接收的数据直接抛弃。该方案只适用于在先接收的实时数据中的关键字段key本身就属于后期频繁出现的关键字段key的场景,即该方案适用场景较窄,非常容易导致top-k问题的处理准确性降低。
(2)保存所有实时数据中关键字段key的统计值,通过统计排序,得到准确的top-k问题的处理结果。当数据量非常大时,该方案对内存资源消耗较大,影响系统整体的处理性能。
发明内容
本申请实施例公开一种流式数据处理方法、装置、设备和介质,以通过动态维护预设数量的槽位数据,以及新加入字段对被替换字段的统计属性的继承,在保证top-k问题处理准确率的情况下,降低内存消耗。
第一方面,本申请实施例公开了一种流式数据处理方法,包括:
确定预设数量的槽位中是否存在实时接收的新数据中的关键字段,其中,所述预设数量的值大于需求数据量的设定值;
如果不存在,并且所述预设数量的槽位中不存在空位,则用所述关键字段替换槽位中的末位字段,并根据所述新数据当前携带的信息和所述末位字段的统计属性,确定所述关键字段在槽位中的统计属性;
根据所述关键字段的统计属性,实时确定所述新数据是否属于需求数据。
上述申请中的一个实施例具有如下优点或有益效果:通过动态维护预设数量的槽位,以及槽位中新加入关键字段对末位字段的统计属性的继承,采用top-k问题的近似处理思想,在保证top-k问题处理准确率的情况下,降低了内存消耗。
可选的,所述统计属性包括计数值和误差值;
相应的,根据所述新数据当前携带的信息和所述末位字段的统计属性,确定所述关键字段在槽位中的统计属性,包括:
根据所述新数据当前携带的信息和所述末位字段的计数值,确定所述关键字段在槽位中的计数值,并将所述末位字段的计数值确定为所述关键字段的误差值。
上述申请中的一个实施例具有如下优点或有益效果:使得新加入关键字段的统计属性继承被替换字段的统计属性,保持了槽位中出现的各字段统计属性的连续性,进而确保了基于字段统计属性筛选出需求数据的准确性。
可选的,所述方法还包括:
如果所述预设数量的槽位中不存在所述关键字段,并且所述预设数量的槽位中存在空位,则将所述关键字段添加至所述空位,根据所述新数据当前携带的信息,对所述关键字段在槽位中的计数值进行初始化,其中,将所述计数值进行初始化包括将所述关键字段在槽位中的误差值初始化为0。
可选的,所述预设数量的槽位中存储的各个字段的计数值形成双向链表;将所述各个字段作为父节点,将所述各个字段的计数值作为子节点,所述父节点与所述子节点为对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911285830.2/2.html,转载请声明来源钻瓜专利网。