[发明专利]一种数据处理方法、系统、设备及存储介质在审
| 申请号: | 202210725963.2 | 申请日: | 2022-06-24 |
| 公开(公告)号: | CN116204301A | 公开(公告)日: | 2023-06-02 |
| 发明(设计)人: | 耿得恒;倪宝亮;王振雷 | 申请(专利权)人: | 浙江极氪智能科技有限公司;浙江吉利控股集团有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/48 |
| 代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 马德举 |
| 地址: | 315000 浙江省宁波市北*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据处理 方法 系统 设备 存储 介质 | ||
本发明提供一种数据处理方法、系统、设备及存储介质,属于数据处理技术领域。方法包括:获取数据分类集合中各分区的批量待处理数据;将每一分区的所述批量待处理数据切割为多个容量相同的子数据集合,依次保存至内存队列的数据槽中,每个子数据集合对应一个数据槽;使用预设的处理函数按照所述内存队列依次读取每一所述数据槽中的所述子数据集合的信息,对所述批量待处理数据进行处理。改善了数据传输过程中,数据拉取与数据处理能力不均衡的问题。
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据处理方法、系统、设备及存储介质。
背景技术
目前许多的数据传输SDK(Software Development Kit,软件开发工具包)是对第三方客户端做一个简单的包装,但许多数据源的弊端没有得到真正的解决。以Kafka为例,Kafka提供原生单线程的消费形式,但是一旦消息发送速度过快,就会出现消息堆积的问题,从而导致延迟。除此之外,由于Kafka消息中保留机制的作用,有些消息可能在被消费之前就被清理了,从而造成了消息的丢失。所以需要通过多线程的形式提高消费能力。现有技术中,基于多线程的消费形式有许多种模式,有多线程模式和生产者消费者模式。
多线程模式中,数据的拉取与处理都在一个线程中。对于多线程模式而言,其存在的问题如下:(1)线程的数量受限于分区数,导致无法横向扩展。(2)需要更多的tcp连接,从而占用更多的系统资源。(3)一旦处理逻辑耗时过长,导致数据出现重平衡的现象。
生产者消费者模式中,通过将数据的拉取与处理解耦,使用单线程拉取数据后,用多线程处理拉取的数据。但对于生产者消费者模式,存在如下问题:(1)无法支持小批量提交消费者队列中的各offset,如果支持小批量提交,又无法保证消息offset提交的一致性。(2)无法平衡数据拉取能力与数据处理能力。(3)请求频繁,对客户端、数据源都是造成较大的压力,从而导致系统的吞吐量下降。因此,需要提供一种数据处理方法、系统、设备及存储介质。
发明内容
鉴于以上现有技术的缺点,本发明的目的在于提供一种数据处理方法、系统、设备及存储介质,以改善现有技术中,数据传输过程中,数据拉取与数据处理能力不均衡的问题。
为实现上述目的及其它相关目的,本发明提供一种数据处理方法,包括以下过程:
获取数据分类集合中各分区的批量待处理数据;
将每一分区的所述批量待处理数据切割为多个容量相同的子数据集合,依次保存至内存队列的数据槽中,每个子数据集合对应一个数据槽;
使用预设的处理函数按照所述内存队列依次读取每一所述数据槽中的所述子数据集合的信息,对所述批量待处理数据进行处理。
在本发明一实施例中,所述获取数据分类集合中各分区的批量待处理数据,包括:
若内存队列的数据槽的数量小于预设消费者的数量,拉取数据分类集合中预存的消费者记录列表;
读取所述消费者记录列表中的各分区列表的数据信息,并选择其中一个分区列表,获取当前分区的批量待处理数据。
在本发明一实施例中,所述将每一分区的所述批量待处理数据切割为多个容量相同的子数据集合,依次保存至内存队列的数据槽中,包括:
将每一分区的所述批量待处理数据切割为多个容量相同的子数据集合,并根据数据处理的任务,建立与子数据集合对应的检查点;
将当前子数据集合和对应的检查点封装成一个事件,保存至内存队列的一个数据槽中。
在本发明一实施例中,所述拉取数据分类集合中预存的消费者记录列表之前,还包括:设置数据分类集合中数据拉取的频率、数据处理的频率、生产者数量和消费者数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江极氪智能科技有限公司;浙江吉利控股集团有限公司,未经浙江极氪智能科技有限公司;浙江吉利控股集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210725963.2/2.html,转载请声明来源钻瓜专利网。





