[发明专利]一种基于双主机热备份的Hadoop高可用性系统实现方法无效
申请号: | 201310159892.5 | 申请日: | 2013-05-02 |
公开(公告)号: | CN103220183A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 胡昔祥;任祖杰;万健;张纪林;殷昱煜;刘明刚 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/861;H04L1/22 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主机 备份 hadoop 可用性 系统 实现 方法 | ||
技术领域
本发明涉及分布式系统和高可用性系统技术领域,特别涉及一种基于双主机热备份的Hadoop高可用性系统实现方法。
背景技术
目前,在互联网应用、金融电信、医疗健康等诸多领域,数据量正在急剧膨胀。为了挖掘这些庞大数据背后潜在的科学或商业价值,需要构建高效的海量数据处理系统。为加快数据处理的速度,许多研究机构与公司纷纷提出各种用于海量数据处理的并行计算框架,如MapReduce、Dryad、Spark等等。这些并行计算框架将一个复杂的数据处理任务分解为多个执行阶段,并将业务数据分配到多个节点,整个任务由许多个节点相互依赖地并行执行,直到所有阶段执行完毕。
许多公司中采用MapReduce的开源实现版本-Hadoop系统,来实现对海量数据的高效分析处理。然而Hadoop主节点JobTracker存在单点故障问题,严重影响了Hadoop的高可用性。
目前存在的解决JobTracker单点故障问题有双机冷备份方案和基于Master/Slaves方式的多JobTracker的方案。双机冷备份方案只能保证一个JobTracker失效后,另外一个JobTracker接管服务,但是会导致切换之前正在运行的作业状态全部丢失,并且需要重新运行。基于Master/Slaves方式的多JobTracker的方案能够解决JobTracker的单点问题,但多个JobTracker之间的状态同步操作会让JobTracker的性能降低,随着集群增大和集群上的运行的作业增多时,多个JobTracker之间的状态同步对主 JobTracker的性能影响越大。
发明内容
本发明的目的在于:针对现有JobTracker备份方法存在的问题,提出双主机热备解决方案。JobTracker备份节点利用消息中间件,实时收集JobTracker主节点的作业状态; 然后JobTracker备份节点解析JobTracker主节点的作业状态同步本机的作业运行状态,从而实现JobTracker主备双节点状态一致。由于JobTracker备份节点同步JobTracker主节点的作业状态带来的额外代价较小,因此,当JobTracker主节点失效或者需要重启时,JobTracker备份节点将会迅速恢复所有的作业状态,并接管原来JobTracker主节点的所有作业请求而成为新的JobTracker主节点,从而保证对外服务不间断的运行。
本发明解决其技术问题的技术方案是:
一种基于双机热备份的Hadoop高可用性系统的实现方法:通过双主机热备来增强Hadoop的作业跟踪节点JobTracker的高可用性,引入了一个JobTracker备份节点去对JobTracker主节点进行热备份,JobTracker备份节点通过实时收集、解析JobTracker主节点的作业状态来恢复本机的作业运行状态,从而到达主备状态同步。其具体步骤为:
步骤1—作业状态收集:
作业状态的收集是通过消息中间件完成的。消息中间件提供消息的存储转发服务,实时的收集JobTracker主节点的作业状态信息,然后转发给JobTracker备用节点。
步骤2—作业状态同步:
在作业状态同步阶段,JobTracker备用节点通过实时解析从消息中间件收集得到的作业状态,还原得到JobTracker主节点的作业状态。
步骤3—故障迁移:
故障迁移是指在双主机热备份Hadoop系统中,当JobTracker主节点运行节点失效时,系统自动和透明地迁移到JobTracker备份节点,JobTracker备份节点恢复失效节点的所有状态信息,然后继续提供相应的服务。本发明具有的有益效果是:
1、本发明通过JobTracker备用节点实时地解析作业日志恢复作业状态,增加的系统额外开销较小。
2、本发明通过JobTracker备用节点对JobTracker主节点进行热备份,故障迁移时间短。
3、本发明可用于Hadoop系统中,也可以用于其它分布式系统中。
附图说明
图1是本发明Hadoop高可用系统的总体框架图。
图2是本发明作业状态收集过程图。
图3是本发明作业状态同步过程图。
图4是本发明虚拟IP迁移过程图。
具体实施方式
下面结合附图和具体实施应用过程对本发明进一步说明:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310159892.5/2.html,转载请声明来源钻瓜专利网。