[发明专利]一种跨节点的虚拟机集群高可用实现方法和装置有效
申请号: | 201710597777.4 | 申请日: | 2017-07-20 |
公开(公告)号: | CN107404522B | 公开(公告)日: | 2020-03-10 |
发明(设计)人: | 孙京本;刘如意;李佩 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06;H04L12/26;H04L12/24 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 节点 虚拟机 集群 可用 实现 方法 装置 | ||
本申请公开了一种跨节点的虚拟机集群高可用实现方法和装置,该方法包括通过pacemaker资源管理工具建立集群;获取所述虚拟机的网络连接方式和虚拟地址;获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息;获取所述集群的状态;查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作,如果所述fence操作失败的次数超过预设阈值,则判断出引起脑裂的宿主机的物理网卡,并将引起脑裂的宿主机上的虚拟机移出所述集群。上述跨节点的虚拟机集群高可用实现方法和装置,能够解决宿主机的物理网卡故障或者外部交换机故障的引起的集群脑裂问题,避免外部因素引起的集群状态异常,保证有效的对外提供服务。
技术领域
本发明属于集群通信技术领域,特别是涉及一种跨节点的虚拟机集群高可用实现方法和装置。
背景技术
现有技术中,集群方案基于pacemaker资源管理器及其组件corosync(提供心跳支持)、fence_virsh(提供故障恢复)等实现的虚拟机集群高可用特性,通过pacemaker使各节点以广播的形式对其他所有的节点发送心跳信号。当某一节点心跳丢失时,其他节点通过启动fence脚本资源的方式对该节点进行fence操作,包括重启和关闭节点等。
集群中互相通信的两个或者多个节点,通常会发送心跳信号,以确保节点都是正常运行的,通常情况下,当一个节点出现故障(宕机、崩溃)时,会停止对对端节点发送心跳信号,对端节点因为收不到该节点的心跳信号,由此认为该节点是死亡的,然后采取一些手段(重启或者关闭)来恢复该节点的运行,以保证业务的不中断。
以孤立物理节点上的虚拟机为节点建立集群时,虚拟机之间不存在物理直接相连的链路作为心跳链路,只能借助宿主机的物理链路发送心跳信号。虚拟机通过桥接或者其他任何方式都要通过宿主机的物理网卡,因此集群是通过宿主机的物理以太网相连。宿主机物理网卡的网线可能由于人为因素或者其他因素被拔出时,造成的集群中节点心跳丢失,这种情况下的心跳丢失时,链路两端的节点都检测不到对端节点的心跳信号,就会持续的对对端节点进行fence操作,但是因为节点的物理网线被拔出或者损坏,针对该链路两端节点的fence操作均不会成功,造成集群的脑裂状态。集群处于脑裂状态时,处于丢失心跳状态的节点会持续不断的发送fence操作执行来让对端节点进行fence操作,但是该fence操作却不会执行成功,结果就是整个集群的状态都是异常的,无法正常的对集群外部继续提供服务。
发明内容
为解决上述问题,本发明提供了一种跨节点的虚拟机集群高可用实现方法和装置,能够解决宿主机的物理网卡故障或者外部交换机故障的引起的集群脑裂问题,避免外部因素引起的集群状态异常,保证有效的对外提供服务。
本发明提供的一种跨节点的虚拟机集群高可用实现方法,包括:
通过pacemaker资源管理工具建立集群,所述集群中的节点为运行在宿主机上的虚拟机,所述虚拟机之间的心跳链路基于所述宿主机的物理链路;
获取所述虚拟机的网络连接方式和虚拟地址;
获取所述宿主机上用于为所述虚拟机提供心跳链路的物理网卡的信息;
获取所述集群的状态,当所述集群中的对端节点offline时,记录当前时间并保存offline信息;
查询是否通过调用对端节点上的fence脚本对对端宿主机上的虚拟机进行了fence操作,如果所述fence操作失败的次数超过预设阈值,则判断出引起脑裂的宿主机的物理网卡,并将引起脑裂的宿主机上的虚拟机移出所述集群。
优选的,在上述跨节点的虚拟机集群高可用实现方法中,所述判断出引起脑裂的宿主机的物理网卡包括:
从所述物理网卡的信息中提取Linkdetected:yes\no的信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710597777.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:重置设备的方法、装置和系统
- 下一篇:云平台自适应资源调度系统和方法