[发明专利]集群作业调度方法和装置有效
申请号: | 201410363745.4 | 申请日: | 2014-07-28 |
公开(公告)号: | CN104123183B | 公开(公告)日: | 2017-11-14 |
发明(设计)人: | 马四腾 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/455;G06F11/16 |
代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 王丹,李丹 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集群 作业 调度 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种集群作业调度方法和装置。
背景技术
当前,基于网络的计算机技术,促进了集群系统的发展和广泛应用。用高速网络将高性能工作站或个人电脑按某种结构连接成集群,实现并行计算,只需要很小的花费就可以得到大型机和并行机的性能。随着高性能计算机集群应用规模的不断扩充,集群的管理问题显得越加突出。
作业调度系统,一般部署在高性能集群系统的管理节点上,主要负责接收用户提交的作业请求,并根据特定的调度规则以及用户对作业的要求选择合适的资源来完成用户作业请求。对用户而言,在作业调度系统的帮助下,高性能计算集群系统就好像一台具备很多CPU的大服务器,多个用户可以同时使用这个系统。作业调度系统管理用户提交的作业请求,为各个作业请求合理地分配资源,从而确保充分利用集群系统的计算能力,并尽可能迅速地得到运算结果。因此,作业调度系统对集群的管理非常重要。
传统的作业调度系统部署有两种,一种方法是在集群的管理节点单机部署,即把作业调度软件,例如开源的Torque+Maui软件,直接部署在集群的管理节点上。但是,采用管理节点单机部署的方式,一旦该管理节点发生故障,便会导致整个集群的作业调度系统停止工作,整个集群的作业无法进行合理有效的调度,作业运行也就会出现停滞,严重影响系统运行效率。
另一种方法是使用心跳(heartbeat)方案,即将作业调度软件部署在集群的两个管理节点上,并在该两个管理节点上还部署heartbeat。由一管理节点的作业调度系统提供作业调度服务,当该管理节点出现故障后,由heartbeat控制切换到另一管理节点上,由另一管理节点继续提供作业调度服务。但是,由于heartbeat只能监控到管理节点,并不能对作业调度系统的资源进行监控,一旦监控的资源出现故障,例如Maui服务出现故障,就不能有效的进行资源切换,因而也会导致整个集群作业无法进行合理有效的调度,严重影响系统运行效率。
发明内容
为了解决上述技术问题,本发明提供了一种集群作业调度方法和装置,能够实现作业调度系统的高容错和高可用。
为了达到本发明目的,本发明提供了一种集群作业调度方法,包括:对用户提交的作业进行分组,作业调度操作系统将分组后的作业调度给管理节点上的至少两个虚拟机,该至少两个虚拟机使用预先配置的共享存储中的共享资源进行作业处理;若管理节点上进行作业处理的虚拟机出现故障,作业调度操作系统将作业切换到备份虚拟机,备份虚拟机使用共享存储中的共享资源进行作业处理;若对管理节点进行维护,或者管理节点出现故障,作业调度操作系统将管理节点上的虚拟机迁移到其他管理节点上,迁移后的虚拟机使用共享存储中的共享资源进行作业处理。
进一步地,该方法还包括:在管理节点上部署共享存储,该共享存储中包括共享资源。
进一步地,该方法还包括:在管理节点上部署至少两个虚拟机,具体为,通过基于内核的虚拟机KVM在管理节点上部署至少两个虚拟机;若虚拟机使用相同的作业调度操作系统,先通过KVM部署一个虚拟机,然后采用克隆Clone方式部署其他虚拟机。
进一步地,该方法还包括:在虚拟机上部署作业调度操作系统。
进一步地,若管理节点上进行作业处理的虚拟机出现故障,包括:若作业调度操作系统对虚拟机进行处理的作业无法调度,则判断出管理节点上进行作业处理的虚拟机出现故障。
进一步地,备份虚拟机是预先部署的虚拟机冗余,或者在判断出虚拟机出现故障后采用Clone方式创建。
本发明提供了一种集群作业调度装置,包括:分组模块,用于对用户提交的作业进行分组;调度模块,用于将分组后的作业调度给管理节点上的至少两个虚拟机,该至少两个虚拟机使用共享存储中的共享资源进行作业处理;切换模块,用于若管理节点上进行作业处理的虚拟机出现故障,将作业切换到备份虚拟机,备份虚拟机使用共享存储中的共享资源进行作业处理;迁移模块,用于若对管理节点进行维护,或者管理节点出现故障,将管理节点上的虚拟机迁移到其他管理节点上,迁移后的虚拟机使用共享存储中的共享资源进行作业处理。
进一步地,该装置还包括:第一部署模块,用于在管理节点上部署共享存储,该共享存储中包括共享资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410363745.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于降低电动机中扭矩波动的系统
- 下一篇:一种无锁的多线程数据同步方法