[发明专利]一种与作业调度系统相结合的资源检测预处理方法有效
申请号: | 201210333671.0 | 申请日: | 2012-09-10 |
公开(公告)号: | CN102902598A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 张磊;张涛 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F11/34 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100193 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 作业 调度 系统 相结合 资源 检测 预处理 方法 | ||
技术领域
本发明涉及一种高性能计算集群领域的预处理方法,具体涉及一种与作业调度系统相结合的资源检测预处理方法。
背景技术
大规模集群作业调度系统最常见的问题之一就是:资源(包括计算节点资源、存储资源等)已经出现了异常(非节点下线异常),但调度系统却未能捕获该异常,以至于作业被调度到异常节点资源上,或使用了其他异常资源,导致作业最终无法正常完成。这样将造成资源和时间的大量浪费,且无法得到正常的作业运行结果。
Torque 5.0中提供了计算节点健康检测的功能,并且配合调度器(如:Maui)将健康状态异常节点的状态置为Down。Torque的节点健康检测功能通过指定监测脚本,获取检测脚本的运行输出信息,如果输出信息以“ERROR”开头,则调度器将该节点的状态设为Down。同时,可以设置节点检测间隔。现有技术存在以下问题:
首先,Torque所提供的计算节点健康检测功能要求使用者自行编写相应检测脚本或Linux下的可执行程序,这样就要求使用者具有一定的检测脚本或应用检测程序开发能力,使用难度较大;其次,Torque所提供的计算节点健康检测功能仅在检测异常时,利用调度器将节点状态设置为Down,并没有提供相应的异常自动处理功能。
发明内容
针对现有技术的不足,本发明提供一种与作业调度系统相结合的资源检测预处理方法。本发明在开源的集群作业调度资源管理系统Torque计算节点健康检测功能的基础之上,针对“存储资源的可靠性”和“准备文件可用性”这两问题给出了自处理方案,并提供了相关的自动处理和配置文件,真正做到了简单、可配置、可扩展。
本发明的目的是采用下述技术方案实现的:
一种与作业调度系统相结合的资源检测预处理方法,其改进之处在于,所述方法包括下述步骤:
(1)启用作业调度器预处理功能;
(2)所述作业调度器读取计算节点资源配置文件;
(3)对计算节点资源进行内容检测;
(4)当发现计算节点资源异常内容时,判断是否需要启动自处理过程;
(5)判断是否对计算节点资源异常内容进行自处理;
(6)对计算节点资源异常内容进行自处理;
(7)通过SMTP或SMGP扩展配置接口将所述计算节点资源异常内容以短信或邮件的形式发送给使用者;
(8)将操作过程记录到日志文件中。
其中,所述步骤(2)中,所述计算节点资源配置文件用health.prop配置文件表示。
其中,所述health.prop配置文件的内容包括:
A、是否启用资源监测预处理功能,默认为Yes;
B、准备文件(准备文件属于被检测对象之一,对其检测方式仅为可用性检测)可用性对象,即:检查指定文件是否存在,默认为空;
C、所要检测容量的目录或分区是否存在,默认为空;
D、自动处理过程触发阈值,当所指定目录或分区使用容量超出该阈值时,将启动自动处理过程,默认为0.8,即:当指定目录或分区使用量超过80%时,则启动自动处理过程;
E、自动处理时,处理文件对象的最小值,默认:1BM,即:仅处理文件大小大于1BM的文件;
F、自动处理时,处理文件对象需早于此日期前产生,默认值为7,即:仅处理一周以前生产的文件;
G、自动处理时,只处理属于某个任务组的文件,默认值为空,即:处理所有组的文件;
H、自动处理时,只处理属于某个人的文件,默认值为空,即:处理所有人的文件。
其中,所述步骤(3)中,对计算节点资源中脚本文件的内容进行检测;所述脚本文件用node_check.scp表示。
其中,所述步骤(4)中,若需要启动自处理过程,则进行步骤(5);否则返回步骤(1)。
其中,所述步骤(5)中,若对计算节点资源异常内容进行处理时则进行步骤(6);否则进行步骤(7)。
其中,所述步骤(6)中,对计算节点资源异常内容进行自处理后将处理过程记录到日志文件中,即进行步骤(8)。
其中,所述步骤(8)中,所述操作过程包括对计算节点资源异常内容进行处理时的处理过程和发送给使用者的发送过程;所述日志文件用health.log表示。
与现有技术比,本发明达到的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210333671.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于刮板输送机的过渡槽
- 下一篇:一种运动目标检测方法