[发明专利]一种基于差异识别的并行系统局部迁移容错方法有效
申请号: | 201510830319.1 | 申请日: | 2015-11-24 |
公开(公告)号: | CN105468457B | 公开(公告)日: | 2019-04-09 |
发明(设计)人: | 宋长明;刘沙;李伟东;张宏宇;王礼生 | 申请(专利权)人: | 无锡江南计算技术研究所 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F11/20 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 龚燮英 |
地址: | 214083 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 差异 识别 并行 系统 局部 迁移 容错 方法 | ||
一种基于差异识别的并行系统局部迁移容错方法包括:系统启动并行作业迁移容错并申请新的资源用于作业迁移;作业管理进行迁移前准备;并行文件系统进行飞行数据驱赶及状态保留;并行语言库进行消息驱赶及任务同步;并行语言库提取出需要迁移的关键信息,并通知到系统核心,并通知作业管理作业任务已经做好迁移准备;作业管理调用系统核心接口进行作业任务迁移,系统核心仅仅将系统核心状态与作业任务进程信息传送到目标节点,并恢复包含关键信息的作业任务进程;在目标节点,并行文件系统根据迁移前记录的描述符再次打开对应的文件,恢复文件环境,并行语言根据系统核心恢复的关键信息,恢复作业运行环境;作业管理重构作业,恢复作业的继续运行。
技术领域
本发明涉及处理器技术领域,具体涉及一种基于差异识别的并行系统局部迁移容错方法。
背景技术
在并行系统中,大规模作业的容错处理一直是影响系统可用性、好用性和资源利用率关键性问题。
具体地说,在并行系统中,由于节点规模巨大,所以频发的节点故障导致作业的连续运行会经常性的被打断;而频繁的容错不但影响作业的持续运行,降低了系统资源的利用率,也极大的影响用户的使用体验。
基于故障预警实现主动容错的作业迁移是解决该问题的一个有效手段。在这种方案中,一般在发现某些节点发生故障预警或健康度降低时,将该节点上的作业任务迁移到其他健康资源,以避免节点故障影响作业的持续运行。
但是,在现有技术的这种方案中,主要是针对预警节点进行整机环境迁移或者对预警节点上的作业用户进程进行整体迁移,两种情况都需要迁移的环境较大,容错时间长、开销大。
发明内容
本发明所要解决的技术问题是针对现有技术中存在上述缺陷,主要针对常规作业迁移开销较大的问题,实现了一种基于差异识别的并行系统局部迁移容错方法,能够有效的降低节点作业任务迁移时的开销,有效减少迁移容错时间,降低容错风险,提高资源利用率。
根据本发明,提供了一种基于差异识别的并行系统局部迁移容错方法,包括:
第一步骤:系统根据节点的工作状态启动并行作业迁移容错并申请新资源用于作业迁移;
第二步骤:作业管理进行迁移前准备;
第三步骤:并行文件系统进行飞行数据驱赶及状态保留,而且并行语言库进行消息驱赶及任务同步;
第四步骤:并行语言库提取出用户使用的内存中需要迁移的关键信息,将关键信息通知到系统核心,并通知作业管理作业任务已经做好迁移准备;
第五步骤:作业管理调用系统核心接口进行作业任务迁移,其中系统核心仅仅将系统核心状态与作业任务进程信息传送到目标节点,并恢复包含关键信息的作业任务进程;
第六步骤:在目标节点,并行文件系统根据迁移前记录的描述符,再次打开对应的文件,恢复文件环境;
第七步骤:在目标节点,并行语言根据系统核心恢复的关键信息,恢复作业运行环境;
第八步骤:作业管理根据新的作业运行环境重构作业,恢复作业的继续运行。
优选地,在第一步骤中,系统判断在节点发生故障预警或健康度减低时,启动并行作业迁移容错并申请新的资源用于作业迁移。
优选地,在第二步骤中,作业管理以信号方式将并行文件系统与并行语言通知迁移源方。
优选地,在第四步骤中,并行语言库根据用户课题类型提取出用户使用的内存中需要迁移的关键信息。
附图说明
结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡江南计算技术研究所,未经无锡江南计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510830319.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种在web应用中实现在线升级代码的方法
- 下一篇:一种数据升级方法及装置