[发明专利]一种云计算集群中节点自修复的方法有效
申请号: | 201310607512.X | 申请日: | 2013-11-27 |
公开(公告)号: | CN103595572B | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | 牛永伟;吴鑫坤;苏纪娟;徐志鹏;谢彭彭;张子斌 | 申请(专利权)人: | 安徽斯百德信息技术有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/08 |
代理公司: | 北京和信华成知识产权代理事务所(普通合伙)11390 | 代理人: | 胡剑辉 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算 集群 节点 修复 方法 | ||
技术领域:
本发明涉及云计算技术领域,具体涉及一种云计算集群中节点自修复的方法。
背景技术:
随着互联网技术与应用的不断发展,承载互联网服务的数据中心规模也再不断扩大,一些大型的数据中心服务器数量已有数百台,甚至上千台,面对如此庞大的服务器维护工作,服务器管理员的一大部分时间都被服务器重启这样简单操作所占用,服务器管理员迫切需求一种技术方法可以实现服务器自检与重启,从而降低服务器管理与维护繁杂度,并更好的实现服务器管理人员的人力资源分配与优化。
参看图1,云管理系统中有多台服务器用于承载云虚机运行,这些服务器被组成一个集群,而其中的每台服务器被称作节点。集群中的某个节点出现故障时,云管理系统将会自动启用故障转移功能,即将该台服务器上运行的云虚机全部转移到运行良好的设备上,从而保证云虚机的正常运行。对于出现故障的服务器,管理人员需要手动检测并重启,服务器重启且正常运行后便可以再次用于承载云虚机。
现有的云管理系统中集群节点自动化部署技术,当发现集群中节点宕机之后会启动故障转移程序,然后需要管理员去检测故障节点并修复。对于规模庞大的云管理系统集群,这样的技术管理将耗费大量的维护成本。
发明内容:
本发明的目的是提供一种云计算集群中节点自修复的方法,它基于现有的云管理系统中集群节点自动化部署技术,以及IPMI技术,通过将这两种技术优化结合,并采用一定技术手段来使之更符合现在的市场需求,实现云管理系统中集群节点的自动修复功能,从而在保证云管理系统运行正常且不被影响的情况下,降低服务器管理员的工作量与工作时间,节省人力资源成本。
为了解决背景技术所存在的问题,本发明是采用以下技术方案:它的修复方法为:1、云管理系统监控每台节点的运行状态;2、当某节点出现故障时,系统启动故障转移进程,该节点上的所有云虚机在其他资源充足且运行正常的节点上自动启动;3、管理系统通过IPMI系统控制节点重新启动,并检测状态;4、如果启动之后正常则该节点继续加入集群使用;5、如果重启修复失败,则通过IPMI控制节点实现网络启动,然后利用云管理系统的自动发现安装功能给该节点重装系统和设置,待设置完成后加入集群;6、如果修复失败则通过控制台发布警报通知管理员。
本发明具有以下有益效果:它基于现有的云管理系统中集群节点自动化部署技术,以及IPMI技术,通过将这两种技术优化结合,并采用一定技术手段来使之更符合现在的市场需求,实现云管理系统中集群节点的自动修复功能,从而在保证云管理系统运行正常且不被影响的情况下,降低服务器管理员的工作量与工作时间,节省人力资源成本。
附图说明:
图1为背景技术中传统云管理系统中集群节点运行与修复流程图,
图2为本发明的工作流程图,
图3为实施例的的分析图示。
具体实施方式:
参看图2,本具体实施方式采用以下技术方案:它的修复方法为:1、云管理系统监控每台节点的运行状态;2、当某节点出现故障时,系统启动故障转移进程,该节点上的所有云虚机在其他资源充足且运行正常的节点上自动启动;3、管理系统通过IPMI系统控制节点重新启动,并检测状态;4、如果启动之后正常则该节点继续加入集群使用;5、如果重启修复失败,则通过IPMI控制节点实现网络启动,然后利用云管理系统的自动发现安装功能给该节点重装系统和设置,待设置完成后加入集群;6、如果修复失败则通过控制台发布警报通知管理员。
本具体实施方式具有以下特点:1、自愈能力:当云管理系统中有节点运行不正常或宕机时,系统可以通过本方案来实现自愈能力,该过程需要手动操作的非常少;2、高安全性:云管理系统会通过监测、判断与自动启用功能来实现节点宕机时的修复工作,整个过程几乎无需人工干涉,因此安全性更高;3、更具时效性:传统情况下,云管理系统中节点宕机需要管理员手动修复,但是发现宕机、到达现场、手动修复及监测是否修复成功这一系列的工作都需要耗费不少的时间,因此一定程度上影响了云管理系统中节点的正常运行。而通过本方案可以实现整个修复过程的自动化,从而更具时效性;4、降低管理成本:整个修复过程由系统自主监测与修复,无需人工操作,因此可以节省管理人员及管理成本;5、优化管理人员结构:由于管理员可以从本来繁杂的工作中解脱出来,因此他们可以有时间与精力从事其它更重要的工作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽斯百德信息技术有限公司,未经安徽斯百德信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310607512.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于改善的焊料接合的带槽板
- 下一篇:一种图片抓取的方法和系统