[发明专利]一种基于Linux的HPC作业调度实现高可用的方法在审
申请号: | 201510819166.0 | 申请日: | 2015-11-20 |
公开(公告)号: | CN105468446A | 公开(公告)日: | 2016-04-06 |
发明(设计)人: | 唐珂 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 张靖 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 linux hpc 作业 调度 实现 可用 方法 | ||
技术领域
本发明涉及高性能集群的作业调度系统技术领域,具体涉及一种基于Linux的HPC 作业调度实现高可用的方法,通过综合高性能作业调度器、Linux网络文件系统机制、资源 同步、资源监控等主流方法,实现在高性能集群中非常重要的作业调度系统的高可用功能, 使高性能核心作业提交业务不中断。
背景技术
高性能集群的作业调度系统作为高性能计算的核心功能,一直以来被企业和用户 高度重视。目前主流的高性能作业调度器(或称之为集群资源管理器)包括IBM的LSF,开源 的Torque等。在集群的正常运行过程中,考虑到集群业务不能中断的需求,通常需要两个服 务器互备。在高性能集群使用中,需要考虑到更多服务需求,特别是作业调度器的互备功 能。
随着云计算,互联网,大数据的飞速发展,人们对机器的性能要求越来越高,特别 是对集群高可用性的关注。高可用性通常里描述一个系统经过专门设计,尽可能减少停工 时间,从而保证集群业务的连续性。通常高可用有三种工作方式:主从方式、双机双工方式、 集群工作方式。
(1)主从方式:主机工作,备机监控。当主机失效时,服务切换到备机;当主机恢复 后,服务回切到主机。
(2)双机双工方式:两台主机同时运行各自的服务工作相互监控,并且能保证一台 失效后,另一台能接手。
(3)集群工作方式:集群内部多台主机一起工作,各自运行一个或多个服务,任意 主机失效后其业务都可以被其他主机接管。
Torque作业调度器做为集群作业调度系统,作业管理又称为工作负载管理,负载 共享或负载管理。它有效地管理系统中的各种资源,以及用户提交的作业。目的是为了充分 利用集群的软硬件资源及宝贵的CPU时间,有效地管理集群,合理地调度作业,使系统具有 高的吞吐率和利用率。
DRBD是一个块设备,用来配置高可用集群。其主要思想是通过网络实现整个块设 备镜像的方式,可以认为一个基于网络的raid1。
HEARTBEAT作为常用的资源管理监控软件,通过配置节点之间的心跳链路(监控链 路),实现高可用方案中的关键功能,即服务的监控与启动,资源的挂载,失效切换。
发明内容
本发明要解决的技术问题是:为了解决上述问题,提供一种基于Linux的HPC作业 调度实现高可用的方法。
本发明所采用的技术方案为:
一种基于Linux的HPC作业调度实现高可用的方法,所述方法在开源的Torque调度器互 备功能的基础上,通过DRBD+HEARTBEAT方式,将Torque的相关配置文件和路径共享,最终通 过浮动IP以及NFS实现双机互备的完整功能。
所述方法包括:1)集群高可用性;2)Torque资源管理器;3)DRBD+HEARTBEAT方 案;其中:
1)集群高可用性:集群是由一系列独立的计算机,通过高速互联网路连接在一起,通过 统一的管理对外提供服务的计算机组;集群高可用性通常里描述一个系统经过专门设计, 尽可能减少停工时间,从而保证集群业务的连续性;
2)Torque资源管理器:对集群中的cpu,内存计算资源、网络、存储资源统一管理和调 度,同时具有对当前集群资源的负载情况、工作状态监控的功能;
3)DRBD+HEARTBEAT方案:DRBD是实现资源同步的主流软件,HEARTBEAT是实现互备资源 监控的主流软件,两者构成一个比较成熟的双机互备方案。
所述方法采用的高可用方案为双机主备方案,部署步骤如下:
根据Torque+Maui的部署方式,所述Torque调度器环境分为:
server端,部署高可用的调度器服务节点;
client端,部署调度器提交作业服务节点;
mom端,部署调度器运行节点;
其中:
1)浮动IP,提供调度器的server端的访问路径和端口;
2)NFS服务,提供调度器所需的配置文件存放路径;
3)NTP服务,提供调度器以及整个集群的时间同步功能。
所述方法具体操作过程如下:
1)配置hosts文件,将所有客户端节点的信息都写入到hosts文件,并保证节点间可相 互实现无密码访问;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510819166.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于社区概念的分布式容错方法
- 下一篇:应用软件安装方法和装置