[发明专利]基于TORQUE的并行检查点执行方法有效
申请号: | 201210367653.4 | 申请日: | 2012-09-28 |
公开(公告)号: | CN102915257A | 公开(公告)日: | 2013-02-06 |
发明(设计)人: | 林霞 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06F11/00 | 分类号: | G06F11/00 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100193 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 torque 并行 检查点 执行 方法 | ||
1.一种基于TORQUE的并行检查点执行方法,在NFS文件共享存储系统中对计算节点进行检查点操作,其特征在于,所述方法包括如下步骤:
(1).用户向TORQUE服务器守护进程pbs_server提交作业;
(2).TORQUE服务器守护进程发送任务消息给TORQUE调度器pbs_sched,TORQUE调度器pbs_sched根据作业中指定的参数要求寻找计算节点;
(3).对计算节点进行检查点操作。
2.根据权利要求1所述的方法,其特征在于,在所述步骤1中,用户通过TORQUE提交作业命令qsub提交作业脚本,作业脚本使用MPI进程启动命令chkp_mpirun启动MPI,在提交作业命令中加入作业检查点请求。
3.根据权利要求1所述的方法,其特征在于,在所述步骤2中,TORQUE调度器pbs_sched通过计算节点守护进程pbs_mom轮询各计算节点的状态,将结果返回给TORQUE服务器守护进程pbs_server。
4.根据权利要求1所述的方法,其特征在于,在所述步骤3中,TORQUE服务器守护进程pbs_server将用户的检查点操作请求传送到相应的计算节点上并周期运行;其中,各个计算节点分别设置有独立检查点镜像。
5.根据权利要求4所述的方法,其特征在于,周期进行检查点操作的各个计算节点将独立检查点镜像合并成全局检查点文件。
6.根据权利要求5所述的方法,其特征在于,全局检查点文件存储在NFS文件共享存储系统中。
7.根据权利要求1或者4所述的方法,其特征在于,在所述步骤3后,存在以下步骤a:
(a).在轮询各个计算节点时,如果发现某个计算节点故障,则将该计算节点上分配的所有未执行完的和未执行的任务根据全局检查点文件全部进行卷回恢复。
8.根据权利要求7所述的方法,其特征在于,在所述步骤a中,TORQUE调度器pbs_sched将故障计算节点的所有任务号发回给TORQUE服务器守护进程pbs_server,TORQUE服务器守护进程pbs_server将读取NFS文件共享存储系统上离当前时间最近的全局进程映像文件,以卷回的方式重新提交任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210367653.4/1.html,转载请声明来源钻瓜专利网。