[发明专利]基于看门狗本地检测技术的高可用集群系统假死解决方法无效
申请号: | 201110362929.5 | 申请日: | 2011-11-16 |
公开(公告)号: | CN102521060A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 蔡强;王幸福;袁泉 | 申请(专利权)人: | 广东新支点技术服务有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 广州市越秀区海心联合专利代理事务所(普通合伙) 44295 | 代理人: | 马丽丽 |
地址: | 510663 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 看门狗 本地 检测 技术 可用 集群 系统 假死 解决方法 | ||
技术领域
本发明属于计算机集群技术领域,特别是涉及解决高可用性集群(High-availability clusters)系统假死的方法。
背景技术
随着计算机应用领域的不断扩展和通信网络技术的飞速发展,电信、金融、电子政务等关键领域对服务器持续运行的要求越来越高,由于服务器宕机等故障所造成的业务停止将会带来无法估量的损失,为了应对这样的情况,目前惯用手段是采用高可用集群系统,即使某台服务器发生故障,用户业务和数据也可迅速切换到备份服务器上,从而保证了整个系统对外服务的正常,为企业24小时x365天的关键业务应用提供了强大的保障。
但是,现有高可用集群系统难以克服的一个问题是节点假死问题,比如当客户端的请求量达到一定数值,出现服务器硬件资源难以满足需求,服务器不能正常对外提供服务,半瘫痪的一种状况。这种状况的持续时间不定,是否可恢复也未知。此时如果备份服务器接管业务,主机假死恢复后服务在两个节点同时运行,会发生磁阵双挂,导致用户数据丢失。而如果备份服务器不接管业务则集群不能正常对外提供服务。
因此,我们希望能有一种方法能解决假死的问题,保证高可用集群系统能更安全稳定的提供服务。
现有的看门狗技术,又叫watchdog timer,是一个定时器电路,一般看门狗芯片和CPU的一个I/0引脚相连,该I/O引脚通过程序控制它定时地往看门狗的这个引脚上送入高电平(喂狗),一旦CPU由于干扰造成程序跑飞后而陷入死循环状态时,喂狗便不能被执行,这个时候,看门狗电路就会由于得不到CPU送来的信号,便在它和CPU复位引脚相连的引脚上送出一个复位信号,使CPU发生复位,系统重启。
发明内容
针对上述问题,本发明提供基于看门狗本地检测技术的高可用集群系统假死解决方法,该方法基于看门狗技术,对假死状态进行检测、确认,避免业务在两个节点同时运行情况的发生。
本发明通过以下技术手段实现:基于看门狗本地检测技术的高可用集群系统假死解决方法,包括以下步骤:
A.集群系统启动时,读取配置文件,得到喂狗时间间隔T和最大检测失败次数N;设置看门狗超时时间为T×N,开启看门狗;
B.设定喂狗参数条件;
C.启动定时器进程,每隔时间T检测喂狗参数是否符合,参数符合则进行喂狗操作,然后等待时间T后进行下次检测;否则执行步骤D;
D.检测失败,不喂狗,等待时间T后进行下次检测;当连续N次检测失败,看门狗超时,系统重启;
E.系统重启过程中,该节点上运行的服务迁移到备份节点,保证系统的高可用性和数据安全性。
本发明还可做以下改进:
步骤B中,所述喂狗参数条件为定时器进程正常运行。
步骤B中,所述喂狗参数条件为衡量系统负载,系统负载小于阀值则符合喂狗条件。
所述衡量系统负载的方法是,首先,获取系统CPU的总个数Num;其次,读取系统最近5-20分钟的总负载值Load,计算当前平均负载LoadAvg=Load/Num;然后比较系统当前平均负载LoadAvg与配置文件中规定的系统负载阈值Thres,如果LoadAvg小于Thres,则喂狗参数符合。
所述衡量系统负载的方式为iowait查看磁盘IO负载、vmstat估算内存负载中的至少一种。
步骤B中,所述喂狗参数条件为,首先,读取配置文件,记录需要由看门狗检测的服务以及其检测脚本信息;然后,进行服务本地检测,如果服务检测成功,则喂狗参数符合。
所述服务本地检测方式为通过检测脚本发送TCP连接请求、SQL查询、特定于服务的消息、带协议标示位的包头或包体(包括文本和二进制流协议)中的任一种方式检测服务的可用性。
所述检测脚本是由python、perl、shell、C中任一种语言所编写的检测程序。
所述看门狗是硬件看门狗。
与现有技术相比,本发明具有的有益效果为:
1)本发明提供的基于看门狗本地检测技术的高可用集群系统假死解决方法,先检查主机是否处于假死状态,确定主机假死后使用看门狗技术重启主机,确保主机上运行的服务停止,有效的避免了主机假死恢复后服务在两个节点同时运行,会发生磁阵双挂,导致用户数据丢失的问题,保证了整个系统运行的稳定性。
2)本发明提供的基于看门狗本地检测技术的高可用集群系统假死解决方法,先检查主机是否处于假死状态,确定主机假死后使用看门狗技术重启主机,主机重启过程中备份节点接管业务,解决了主机持续假死,集群不能正常对外提供服务问题,保证了服务可持续性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东新支点技术服务有限公司,未经广东新支点技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110362929.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种航天用传感器减振抗冲方法
- 下一篇:一种高速公路工程软弱土地基处理方法