[发明专利]分布式处理中的容错方法及设备有效

专利信息
申请号: 201711126616.3 申请日: 2017-11-14
公开(公告)号: CN109783273B 公开(公告)日: 2022-12-13
发明(设计)人: 王博;陶阳宇;陆一峰;吕志强;李超;吴永军;李治;刘耀莉 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F11/14 分类号: G06F11/14
代理公司: 广州铸智知识产权代理有限公司 44886 代理人: 孙丹丹
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分布式 处理 中的 容错 方法 设备
【说明书】:

发明的目的是提供一种分布式处理中的容错方法及设备,本发明针对易出错类型的作业开启数据持久化,即满足所述易出错类型的作业,其实例从备份数据库中恢复,不满足所述出错类型的作业,整个作业才重跑,从而将容错的额外开销减到最小。另外,本发明只对运行时间超过了阈值T的作业进行Instance的容错,若未超过阈值T的作业,则进行整个作业的重跑,从而进一步将容错的额外开销减到最小。

技术领域

本发明涉及计算机领域,尤其涉及一种分布式处理中的容错方法及设备。

背景技术

在分布式系统中的在线服务(OnlineJob),负责处理用户提交的作业(Job)。

在线服务(OnlineJob)是指为作业(Job)运行加速的实时计算框架,在线服务以服务的形态启动于生产集群,服务的进程常驻在服务器上,采用网络数据洗牌(NetworkShuffle)和纯内存计算。

一个作业(Job)包含多个子任务(Task),一个Task包含若干个实例(Instance),每个Instance运行在一个节点上。

Instance是作业(Job)中的最小划分单元。作业(Job)执行过程中,每一个实例(Instance)都需要将其运行产生的数据通过网络发送到其下游的所有实例(Instance),然后下游实例根据从上游实例接收的数据进一步得到该下游实例运行产生的数据,并将该下游实例运行产生的数据再通过网络发送到其再下游实例,这个过程即为网络数据洗牌(NetworkShuffle)。

在进行网络数据洗牌(NetworkShuffle)时,每一个Instance相对于其上游Instance都是读端(Reader)的角色;在进行网络数据洗牌(NetworkShuffle)时,每一个Instance相对于其下游Instance都是写端(Writer)的角色。

分布式系统的在线服务上所运行的Instance,在运行时数据都保持在内存中,各个Instance间的网络数据洗牌(NetworkShuffle)都通过内存直接在网络上传输,然而,由于系统宕机、网络不通、内存出错等等多种情况的存在,分布式系统本身具有的不可靠性特质,任何一个Instance在运行中都有可能运行失败即出错。

目前对于Instance运行失败的处理采取了不同处理策略:

1.任务/迭代轮/数据块重跑:对于处理运行时间很短,数据量比较少应用的计算框架,发生运行失败时往往采用任务重跑的策略,因为Instance级别的容错往往都需要一定开销,而这些开销对于短作业往往太大;对于多轮迭代类型的图计算计算框架(比如PowerGraph),其容错针对每一轮迭代,每一轮迭代会进行一次数据备份(checkpoint),当发生Instance运行失败时,该Instance所在迭代轮进行重跑;对于流式计算计算框架(比如Storm),其容错针对每一个输入数据块,当某个Instance发生运行失败时,该时刻所对应数据块的所有处理Instance进行重跑。

2.基于数据落盘的Instance容错:每一个Instance将计算结果持久化到文件系统中(比如Hadoop MapReduce),发生Instance运行失败时,只重跑失败的Instance的即可,重跑Instance的上游数据从持久化的文件系统中读取。

3.基于内存容错的Instance容错:每一个Instance将计算结果持久化到高容错内存系统中(比如Apache Spark将数据持久化到RDD中),发生Instance失败时,重跑的Instance从持久化的数据中读取输入数据。

上述三种现有方案存在的问题如下:

1.作业/迭代轮/数据块重跑,只适用于计算时间非常短的应用场景,对于运行时间比较长的作业,整个作业的重跑,浪费了正常Instance的计算结果,对于大数据量作业而言浪费过于严重;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711126616.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top