[发明专利]一种数据处理方法、装置、设备、系统和存储介质在审
申请号: | 201911180814.7 | 申请日: | 2019-11-27 |
公开(公告)号: | CN112860417A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 陈国锋;余万水;杨锋 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/48 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;刘伟 |
地址: | 404100 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 设备 系统 存储 介质 | ||
本发明公开了一种数据处理方法、装置、设备、系统和存储介质,涉及数据处理技术领域,以解决执行器的处理结果不准确的问题。该方法包括:从分布式累加器获取目标变量的累加值,其中,所述累加值是所述分布式累加器根据Spark中的执行器发送的累加信息获得的;判断所述累加值是否满足预设条件,得到判断结果;根据所述判断结果确定处理方式。本发明实施例可提高执行器处理结果的准确性。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、设备、系统和存储介质。
背景技术
Spark是一种分布式集群计算平台。Driver(驱动器)是Spark中运行的应用(Application),用于对整个流程进行协调和管理;Executor(执行器)是Spark的执行器,是为某个Application运行在worker node(工作节点)上的一个进程。
在使用Spark大数据平台处理数据时,需要对某个变量进行实时累加计算,并根据累加结果对该变量执行不同的处理。在这个过程中,驱动器将变量的初始值分配到每个执行器,而后由每个执行器对变量的值进行累加。
由于分布式处理结构的限制,在这种方式中,执行器只能根据自身对某个变量的累加值进行处理,从而导致执行器的处理结果不准确。
发明内容
本发明实施例提供一种数据处理方法、装置、设备、系统和存储介质,以解决执行器的处理结果不准确的问题。
第一方面,本发明实施例提供了一种数据处理方法,应用于Spark中的执行器,所述执行器为至少一个,所述方法包括:
从分布式累加器获取目标变量的累加值,其中,所述累加值是所述分布式累加器根据Spark中的执行器发送的累加信息获得的;
判断所述累加值是否满足预设条件,得到判断结果;
根据所述判断结果确定处理方式。
第二方面,本发明实施例还提供一种数据处理方法,应用于分布式累加器,包括:
向Spark中的执行器发送目标变量的累加值,其中,所述累加值是根据Spark中的执行器发送的累加信息获得的。
第三方面,本发明实施例还提供一种数据处理装置,应用于Spark中的执行器,包括:
获取模块,用于从分布式累加器获取目标变量的累加值,其中,所述累加值是所述分布式累加器根据Spark中的执行器发送的累加信息获得的;
判断模块,用于判断所述累加值是否满足预设条件,得到判断结果;
处理模块,用于根据所述判断结果确定处理方式。
第四方面,本发明实施例还提供一种数据处理装置,应用于分布式累加器,包括:
发送模块,用于向Spark中的执行器发送目标变量的累加值,其中,所述累加值是根据Spark中的执行器发送的累加信息获得的。
第五方面,本发明实施例还提供一种电子设备,包括:收发器、存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述收发器用于在所述处理器的控制下接收和发送数据,所述处理器执行所述程序时实现如上所述的数据处理方法中的步骤。
第六方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理方法中的步骤。
第七方面,本发明实施例还提供一种数据处理系统,包括:Spark中的执行器,分布式累加器;
所述分布式累加器,用于向所述执行器发送目标变量的累加值,其中,所述累加值是根据Spark中的执行器发送的累加信息获得的;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911180814.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种食用植物油的加工方法
- 下一篇:风扇