[发明专利]基于TORQUE的并行检查点执行方法有效
申请号: | 201210367653.4 | 申请日: | 2012-09-28 |
公开(公告)号: | CN102915257A | 公开(公告)日: | 2013-02-06 |
发明(设计)人: | 林霞 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06F11/00 | 分类号: | G06F11/00 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100193 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 torque 并行 检查点 执行 方法 | ||
技术领域
本发明属于计算机领域,具体涉及一种基于TORQUE的并行检查点执行方法。
背景技术
作业调度系统是高性能计算机系统基础的应用管理软件,其功能与性能直接关系到整个计算机系统的效率以及可靠性。但是在并行平台上对检查点技术并没能做到广泛的支持,而检查点的一个典型应用就是容错。
检查点现有技术:Libckpt:集成在Condor操作系统中的检查点系统。由于缺乏内核的支持,它只能对有限的用户进程进行设置检查点,使得它在机群/作业管理系统中的应用变得困难。
SGI的Irix:内核级实现,提供了丰富的用户接口和实际应用。但是Irix不是一款开放源代码的系统。
Epckpt:基于Linux的检查点系统,未作存储优化,效率低下。
现有的TORQUE虽然已经实现了检查点技术,但是只能对单进程的任务进行检查点设置,且无法支持对多进程进行检查点和进程的迁移。存在这些问题的原因如下:TORQUE只是结合了BLCR(Berkeley Lab’s Linux Checkpoint/Restart伯克利实验室实现的检查点与恢复技术)进行进程检查点。而BLCR自身无法支持分布式多进程任务;而且只在任务运行节点上存有检查点映像文件,其他节点无法利用该文件,也就无法做到进程迁移。
发明内容
为克服上述缺陷,本发明提供了一种基于TORQUE的并行检查点执行方法,运用改进的基于TORQUE的改进检查点技术,使得原来只支持单进程检查点的TORQUE,现在也能够支持多进程检查点,并能够对节点故障自动处理,对进程进行迁移。
为实现上述目的,本发明提供一种基于TORQUE的并行检查点执行方法,基于TORQUE的并行检查点执行方法,在NFS文件共享存储系统中对计算节点进行检查点操作,其改进之处在于,所述方法包括如下步骤:
(1).用户向TORQUE服务器守护进程pbs_server提交作业;
(2).TORQUE服务器守护进程发送任务消息给TORQUE调度器pbs_sched,TORQUE调度器pbs_sched根据作业中指定的参数要求寻找计算节点;
(3).对计算节点进行检查点操作。
本发明提供的优选技术方案中,在所述步骤1中,用户通过TORQUE提交作业命令qsub提交作业脚本,作业脚本使用MPI进程启动命令chkp_mpirun启动MPI,在提交作业命令中加入作业检查点请求。
本发明提供的第二优选技术方案中,在所述步骤2中,TORQUE调度器pbs_sched通过计算节点守护进程pbs_mom轮询各计算节点的状态,将结果返回给TORQUE服务器守护进程pbs_server。
本发明提供的第三优选技术方案中,在所述步骤3中,TORQUE服务器守护进程pbs_server将用户的检查点操作请求传送到相应的计算节点上并周期运行;其中,各个计算节点分别设置有独立检查点镜像。
本发明提供的第四优选技术方案中,周期进行检查点操作的各个计算节点将独立检查点镜像合并成全局检查点文件。
本发明提供的第五优选技术方案中,全局检查点文件存储在NFS文件共享存储系统中。
本发明提供的第六优选技术方案中,在所述步骤3后,存在以下步骤a:
(a).在轮询各个计算节点时,如果发现某个计算节点故障,则将该计算节点上分配的所有未执行完的和未执行的任务根据全局检查点文件全部进行卷回恢复。
本发明提供的第七优选技术方案中,在所述步骤a中,TORQUE调度器pbs_sched将故障计算节点的所有任务号发回给TORQUE服务器守护进程pbs_server,TORQUE服务器守护进程pbs_server将读取NFS文件共享存储系统上离当前时间最近的全局进程映像文件,以卷回的方式重新提交任务。
与现有技术比,本发明提供的一种基于TORQUE的并行检查点执行方法,基于TORQUE的改进检查点技术,可以使得TORQUE对运行于其上的,无论是单进程还是多进程的任务进行检查点,并在节点故障时自动进行卷回恢复,避免了由用户发现节点失效并重新提交作业的不便,以及重启作业不及时导致的系统利用率低下,从而提高了调度系统的可靠性;而且,经实验测试,运用改进的基于TORQUE的改进检查点技术,使得原来只支持单进程检查点的TORQUE,现在也能够支持多进程检查点,并能够对节点故障自动处理,对进程进行迁移,从而减少了因节点故障造成的计算资源浪费。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210367653.4/2.html,转载请声明来源钻瓜专利网。