[发明专利]基于在线学习的超级计算机结点故障主动容错方法有效
申请号: | 201610040662.0 | 申请日: | 2016-01-21 |
公开(公告)号: | CN105718355B | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 蒋艳凰;卢宇彤;赵强利;周恩强;董勇;胡维;孙勤 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/14 |
代理公司: | 国防科技大学专利服务中心43202 | 代理人: | 郭敏 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 在线 学习 超级 计算机 结点 故障 主动 容错 方法 | ||
技术领域
本发明主要涉及超级计算机系统的容错方法,尤其指如何利用在线机器学习技术对超级计算机结点实施低开销的主动容错方法。
背景技术
超级计算机系统通过将众多的计算部件结合起来并行执行同一计算任务,从而能够大大减少大规模计算任务所需的执行时间。通常的超级计算机系统构成是一个或多个服务结点用于登录管理,众多的计算结点用于完成计算任务,服务结点和计算结点间通过监控管理网络互相通信,监控管理网用于超级计算机系统的维护与管理。服务结点上部署有监控系统,能够监控每个计算结点的运行情况;并部署有资源管理系统,用于为计算任务分配计算资源(如计算结点等)。计算结点间还通过高速互连网相连,高速互连网用于计算任务的进程间通信。在超级计算机系统上运行的计算任务多为并行应用程序,运行过程中通过产生若干进程分布在不同的计算结点上同时执行,这些进程间的通信多采用消息传递的方式。超级计算机系统的故障通常为Fail-Stop类型的故障,即在计算任务的执行过程中,一旦有故障发生,系统将终止相关计算任务的所有进程,其并行应用程序非正常退出。如果没有容错支持,一旦故障发生,前面的计算都前功尽弃,必须重新启动相关计算任务,从头开始执行。
应用需求的不断增长推动着超级计算机软硬件系统的不断发展,随着超级计算机系统规模日益庞大,众多的组成部件、低电压的工作模式、复杂的软硬件结构等,使得超级计算机系统的平均无故障时间(Mean Time Between Failure,MTBF)越来越短,可靠性问题日益突出。如果没有容错技术的支持,运行时间长、并行规模大的计算任务无法顺利完成。容错成为提高超级计算机系统可用性,保证计算任务顺利完成的重要方法。到目前为止,超级计算机系统采用的容错方法一直是被动容错,即在故障发生后对故障进行处理,使得计算任务能够从某个点恢复并继续运行。
系统级检查点恢复(Checkpoint/Restart)是目前超级计算机系统采用的主流容错方法,它是一种被动容错方法,其主要思想是通过周期性的检查点操作,为计算任务的每个进程保存全局一致的执行映像,并将映像保存到稳定介质上(如共享存储系统)。一旦发生故障,则通过检查点恢复操作从最近一次检查点映像文件恢复该计算任务的运行,将计算损失减小到最近一次完成检查点操作的时间点到故障发生时间点这段时间间隔内所作的计算,避免了从头开始执行计算任务。检查点恢复方法主要包括如下关键步骤:
(1)设置检查点周期:为计算任务设置相邻两次检查点操作之间的时间间隔。检查点周期的具体值与计算任务的并行规模和超级计算机系统的平均无故障时间密切相关。在计算任务的执行过程中,通常由MPI(Message Passing Interface,消息传递接口)系统负责计算任务的各个进程之间的消息传递。为了保证长时间运行的计算任务能够顺利执行完毕,需要在MPI系统中为计算任务设定检查点周期(即执行检查点操作的时间间隔),并使得在平均无故障时间间隔内能够执行多次检查点操作;
(2)生成全局检查点映像文件:一旦到达一个检查点周期,MPI系统则启动全局检查点操作,通知计算任务中的每个进程需要执行检查点操作,生成全局检查点映像文件,并将其保存到指定的位置。全局检查点操作的目标是保证每个进程生成的局部检查点映像文件满足全局一致性;
(3)每个进程生成局部检查点映像文件:计算任务中的每个进程在本地执行单进程检查点操作,生成本地进程的检查点映像,并将检查点映像文件保存到指定的位置;
(4)检查点恢复操作:一旦故障发生,MPI系统从指定位置获取计算任务的全局检查点和所有进程的局部检查点映像文件,将计算任务的所有进程从该检查点处恢复执行。
系统级检查点恢复方法是超级计算机系统采用的主要容错方法,但是这种方法的容错开销很大,主要表现在如下几个方面:
(1)存储开销大:采用系统级检查点,每个进程均要产生本进程的检查点映像文件,检查点映像文件的内容包括:该进程的进程代码段、数据段、用户栈、上下文切换相关信息、活动文件信息、与信号有关的信息等,每个进程产生的检查点映像文件规模较大,一般达到几十MB至数百MB。为了保证容错恢复时能够获取到每个进程的检查点映像文件,这些映像文件通常保存到全局共享存储系统中。因此每次检查点操作,计算任务的所有进程将同时访问全局共享存储系统,导致系统的存储开销很大。
(2)通信开销大:为了将检查点映像文件保存到全局共享存储系统中,各进程需要通过网络将检查点映像文件传输到全局共享存储系统,因此执行检查点操作会带来很大的通信开销;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610040662.0/2.html,转载请声明来源钻瓜专利网。