[发明专利]一种并行计算环境下的高可用任务处理控制模型在审
申请号: | 201710907672.4 | 申请日: | 2017-09-29 |
公开(公告)号: | CN107621978A | 公开(公告)日: | 2018-01-23 |
发明(设计)人: | 魏子重 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06F11/30 |
代理公司: | 济南信达专利事务所有限公司37100 | 代理人: | 阚恭勇 |
地址: | 450000 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 并行 计算 环境 可用 任务 处理 控制 模型 | ||
技术领域
本发明涉及任务处理技术,尤其涉及一种并行计算环境下的高可用任务处理控制模型。
背景技术
近年来,随着大规模计算需求的不断增加,并行计算已经被越来越多的组织和机构采用。并行计算可以在成本可控的前提下很好的解决需要进行大规模复杂运算的问题,但是由于并行任务分布在多个计算节点上执行,并且并行控制逻辑复杂,如何实现分布式并行任务处理的高可用是一个亟待解决的问题。
发明内容
为了解决以上技术问题,本发明提出了一种并行计算环境下的高可用任务处理控制模型。针对并行计算环境下实现具有高可用特性的任务处理的问题,利用多线程技术设计了一种新的高可用任务处理控制模型,利用该模型可实现在多节点并行计算环境下对任务处理的控制,并实现高可用支持。
本模型主要包括:处理任务管理、处理控制集群、处理线程、健康检查、分布式共享存储五个组件;处理任务管理负责并行处理任务的创建及修改,处理任务中记录了并行处理任务的执行计划、资源范围、处理任务脚本等信息。处理控制集群根据处理任务配置及健康检查信息,负责任务处理线程的分发、调度、休眠、唤醒及重建等操作并实现处理任务的高可用控制。处理线程负责任务的实际执行并将任务处理结果和线程心跳信息存入分布式共享存储。健康检查负责对处理线程的健康状态进行收集和监控,通过心跳等数据对处理线程的执行情况进行评估,及时发现出现异常的处理线程并进行警告,同时健康检查收集计算节点的状态、性能信息,对计算节点的健康状态进行评估和警告,健康检查的结果存储在共享存储中。分布式共享存储负责存储处理任务配置、处理线程心跳信息、任务处理结果等数据的存储,为其他组件提供数据存储和读取支持。
处理任务描述了并行处理任务执行所需的基础信息,主要包括:并行处理任务的执行计划、并行度、计算资源范围、调度策略、处理脚本、是否开启高可用信息;
执行计划描述了处理任务的执行时间,执行周期及间隔,执行计划采用Cron表达式进行描述;并行度描述了该处理任务可以使用的并行处理线程的数量;计算资源范围描述了并行任务可使用的计算节点的数量和范围。调度策略描述了处理任务的资源调度方案,调度策略包括:均衡调度策略、最优资源调度策略、集中调度策略等;处理脚本中注册了处理任务执行的脚本或程序包,支持多种类型的脚本或程序包:python脚本、shell脚本、Pig脚本、MapReduce程序包、Java程序包;是否开启高可用描述了该处理任务是否为有高可用要求的任务;
用户通过处理任务管理模块进行处理任务的创建、查询、修改及删除,创建的处理任务存储在分布式共享存储中。
处理控制集群根据处理任务配置及健康检查信息,负责任务处理线程的启动、分发、调度、迁移、休眠、唤醒及重建操作;
处理控制集群读取共享存储中的处理任务信息,根据处理任务中的执行计划周期性的进行处理任务的启动。根据处理任务中的并行度、计算资源范围和调度策略结合共享存储中记录的计算节点状态信息,选择计算节点,将处理任务分发到节点上,并根据处理脚本启动处理线程;
高可用处理任务执行过程中,处理控制集群会读取共享存储中的处理线程健康状态,当发现有处理线程处于异常状态时,会对该线程进行重建操作;同时,处理控制集群会读取共享存储中的计算节点健康状态,当发现某计算节点出现异常,会对该计算节点上运行的处理线程进行迁移、休眠操作,并在节点异常状态恢复之前不再向该计算节点分发处理任务,当节点状态恢复之后进行处理线程的唤醒操作,并恢复向该节点分发处理任务,实现处理任务的高可用。
处理线程是处理任务脚本在计算节点上的运行时线程;处理线程所用的脚本注册在处理任务的执行脚本中,处理线程的启动、休眠、唤醒、迁移由处理控制集群控制;
处理线程的执行受健康检查的监管,健康检查收集处理线程的执行情况,监控执行线程的心跳信息并基于这些信息进行预警。
健康检查负责对计算节点及处理线程的健康状态进行收集、监控和预警;
健康检查收集计算节点主机的cpu、内存、IO负载信息,通过预设的健康指标阈值对计算节点进行健康评估,当计算节点主机出现异常时,健康检查产生预警信息,并发送到分布式共享存储中进行存储;
健康检查收集处理线程的心跳信息和处理过程信息,使用这些信息对处理线程的执行情况进行评估,并将处理线程的状态发送到分布式共享存储;当发现处理线程出现异常时,健康检查发出处理线程异常警告,并更新共享存储中的处理线程状态为异常,处理控制集群根据线程状态对线程进行控制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710907672.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应用的控制方法、终端及计算机可读存储介质
- 下一篇:轴承钢管的夹持机构