[发明专利]一种分布式任务处理方法及装置有效
申请号: | 201610928429.6 | 申请日: | 2016-10-31 |
公开(公告)号: | CN108021430B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 王志杰;浦世亮;周明耀 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 项京;马敬 |
地址: | 310051 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 任务 处理 方法 装置 | ||
本发明实施例公开了一种分布式任务处理方法及装置,该方法包括:管理节点遍历包括每个运行任务的任务信息的任务处理队列,其中,任务信息包括该任务的状态信息;根据任务信息,从任务处理队列中,筛选出对应的状态信息超时未更新的目标任务;为目标任务添加非处理标识;以使计算节点申请到该目标任务后,根据该非处理标识,将该目标任务透传至数据接收端。
技术领域
本发明涉及分布式集群系统任务处理技术领域,特别涉及一种分布式任务处理方法及装置。
背景技术
随着计算机信息化进程的推进,人们越来越依赖使用计算机进行批量数据的分析处理,分布式集群系统的应用越来越广泛。在分布式集群系统中存在管理节点以及计算节点。管理节点用于整体调度待处理的任务,计算节点用于向向管理节点申请任务,分析处理管理节点所分配的任务并且定时上报分析处理的任务的状态。当分布式集群系统中某一计算节点崩溃,则会导致该计算节点下的任务都无法完成分析处理,这就容易给用户带来损失。
为了解决上述问题,该分布式集群系统需要具备容错的功能。其中,现有技术中,当分布式集群系统中某个计算节点崩溃后,若计算节点在一定的时间范围内重新启动,则会自行从崩溃位置处的任务重新开始进行处理,否则,通过管理节点将该崩溃的计算节点下的任务重新调度至其他计算节点,以使其他计算节点处理该崩溃的计算节点下的任务。
该现有技术在一定程度上实现了分布式集群系统的容错功能,然而,当存在某个错误任务持续致使计算节点崩溃时,即当崩溃的计算节点在一定的时间范围内重新启动后,自行重新开始处理该某个错误任务时,该计算节点会继续崩溃。或者,该崩溃的计算节点未在一定的时间范围内重新启动,管理节点将该崩溃的计算节点的包括该错误任务的所有任务重新调度至其他计算节点,当新的计算节点开始处理该错误任务时,该新的计算节点也会崩溃。该某个错误任务的存在,造成了该分布式集群系统的不稳定。
那么如何解决上述问题成为亟待解决的问题。
发明内容
本发明实施例公开了一种分布式任务处理方法及装置,及时将错误任务从分布式集群系统剔除,以在实现容错功能的基础上,增加分布式集群系统的稳定性。具体方案如下:
一方面,本发明实施例提供了一种分布式任务处理方法,所述方法包括:
遍历任务处理队列,其中,所述任务处理队列中包括每个运行任务的任务信息,所述任务信息包括该任务的状态信息;
根据所述任务信息,从所述任务处理队列中,筛选出对应的状态信息超时未更新的目标任务;
为所述目标任务添加非处理标识;以使计算节点申请到所述目标任务后,根据所述非处理标识,将所述目标任务透传至数据接收端。
可选的,所述任务处理队列中的每个任务信息中还包括该任务的崩溃次数;
所述根据所述任务信息,从所述任务处理队列中,筛选出对应的状态信息超时未更新的目标任务的步骤之后,所述方法还包括:
判断所述目标任务的崩溃次数是否超过崩溃阈值;
当判断所述目标任务的崩溃次数超过崩溃阈值时,执行为所述目标任务添加非处理标识的步骤;否则,将所述目标任务的崩溃次数加一。
可选的,所述方法还包括:
当判断所述目标任务的崩溃次数超过崩溃阈值时,判断所述目标任务是否达到最小任务切分单位;
当判断所述目标任务达到最小任务切分单位时,执行为所述目标任务添加非处理标识的步骤;
当判断所述目标任务未达到最小任务切分单位时,以所述最小任务切分单位对所述目标任务进行切分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610928429.6/2.html,转载请声明来源钻瓜专利网。