[发明专利]一种用于分布式程序的容错方法和系统有效

专利信息
申请号: 200910243944.0 申请日: 2009-12-25
公开(公告)号: CN101777020A 公开(公告)日: 2010-07-14
发明(设计)人: 不公告发明人 申请(专利权)人: 北京讯鸟软件有限公司
主分类号: G06F11/36 分类号: G06F11/36
代理公司: 暂无信息 代理人: 暂无信息
地址: 100086北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 分布式 程序 容错 方法 系统
【说明书】:

技术领域

本申请涉及一种容错方法和系统,具体而言,涉及一种用于分布式程序的容错方法和系统。 

背景技术

监视程序是监视计算机进程运行状态的程序,当监视程序确定被监视的计算机进程出现未运行的情况或出现异常的状况时,监视程序尝试启动或重新启动所述被监视的计算机进程。截至目前,这种监视程序都只能监视本机的计算机进程,其对本机上的进程按顺序来操作,如果其中的一个进程出现了异常则会按照启动顺序来启动其所监视的进程。 

但随着对计算机运行能力的日益增大的需求,很多任务已无法由单个计算机处理完成。在此背景下,分布式程序应运而生,因其具有资源共享,负载均衡,安全性高等优点,所以分布式程序的应用越来越广泛。分布式程序利用网络技术在分布式计算机系统中的几台计算机上同时协同执行程序来共同完成一项任务。但一个新的问题是现有的本机进程状态监视程序已难以应对分布式程序的状态监视任务。因此,当分布式程序出错时,管理员必须到分布式计算机系统中的各个计算机处分别查看进程的出错情况,这将消耗管理员大量的时间和精力。 

发明内容

本发明的目的在于提供一种用于分布式程序的容错方法和系统,其能按顺序启动部署在不同容错客户端上的程序进程,当任何一个有依赖关系的进程崩溃时,容错服务器可以根据其上配置好的策略执行相应的操作,而容错客户端只需要利用现有的监视程序执行监视、负责报告进程状态以及接收并执行由容错服务器发送或由运维人员下发的指令,就能够按顺序启动上述进程,以保证工作能正常进行。 

本发明的目的是通过下述方式实现的: 

本发明提供了一种用于分布式程序的容错方法,用于具有容错服务器和至少一个容错客户端的容错系统中,所述方法包括下述步骤:容错客户端利用其进程状态状态监视模块监视其自身运行的分布式程序的进程的状态;当监视到进程状态异常时,容错客户端利用进程状态异常信息生成模块生成进程状态异常信息,并利用通信模块将所述信息发送到容错服务器;容错服务器通过其通信模块接收进程状态异常信息;容错服务器利用策略执行模块根据自动重启策略或手动重启策略并按照进程依赖关系表格中规定的进程间的依赖关系执行重启容错处理,其中所述自动重启策略或手动重启策略是利用策略指定模块预先指定的;在执行重启容错处理后,容错客户端利用通信模块向容错服务器报告进程启动的结果。 

本发明还提供了一种用于分布式程序的容错系统,具有容错服务器和至少一个容错客户端。所述容错服务器包括:通信模块,用于与容错客户端进行通信,接收容错客户端发来的进程状态异常信息;策略指定模块,用于预先指定重启容错处理中所使用的自动重启策略或手动重启策略;策略执行模块,根据由策略指定模块预先制定的策略,执行对应的重启容错处理;策略数据库,存储自动重启策略和手动重启策略;进程依赖关系数据库,存储有表示分布式程序进程间依赖关系的进程依赖关系表格。所述容错客户端包括:进程状态监视模块,用于监视其自身运行的分布式程序的进程的状态;进程状态异常信息生成模块,用于在监视到进程状态异常时生成进程状态异常信息;通信模块,用于与容错服务器进行通信,将进程状态异常信息发送到容错服务器。 

通过上述的用于分布式程序的容错方法和系统,可以利用现有的监视程序,只需对该程序进行简单设置,增加进程状态异常信息生成模块和通信模块(其中进程状态异常信息生成模块用于在监视到进程状态异常时生成进程状态异常信息,通信模块用于与容错服务器进行通信,将进程状态异常信息发送到容错服务器),就可以自动监控分布式程序进程的状态,并当分布式程序进程出错时可以自动执行应对处理,省去了管理员到各台计算机分别查看进程运行状况的步骤。此外,当分布式程序进程的部署出现变化时,例如增加新的进程而导致进程关系的增加、或者现有进程关系发生变化,只需要修改或增加策略数据库中相应的策略,同时新增相应的容错客户端,而无需更改其他配置,就可以实现相应的容错机制。 

附图说明

在下文中将参照附图描述本发明的具体实施方式,结合下述具体描述,本发明 的各个方面和优点将变得显而易见。在所附附图中: 

图1A是根据本发明的用于分布式程序的容错系统的框图。 

图1B是根据本发明的用于分布式程序的容错系统的物理部署图。 

图2根据本发明一个实施方式的用于分布式程序的容错方法的流程图。 

图3是采用基于自动重启策略的容错方法的流程图。 

图4是采用基于手动重启策略的容错方法的流程图。 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京讯鸟软件有限公司,未经北京讯鸟软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910243944.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top