[发明专利]对互连失效在群集范围内的一致性检测有效
申请号: | 201380014134.2 | 申请日: | 2013-02-28 |
公开(公告)号: | CN104221004A | 公开(公告)日: | 2014-12-17 |
发明(设计)人: | A·卡特卡尔;O·P·阿加瓦尔;B·萨克尔 | 申请(专利权)人: | 赛门铁克公司 |
主分类号: | G06F15/173 | 分类号: | G06F15/173 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 赵蓉民 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互连 失效 群集 范围内 一致性 检测 | ||
技术领域
本公开总体上涉及对计算机群集的管理,更具体地讲,涉及对链路失效的群集范围的一致性检测。
背景技术
高可用性群集(也称为HA群集或失效备援群集)是支持以最少的停机时间运行服务器应用程序的计算机(节点)组。在各个系统组件失效时,高可用性群集使用成组的冗余计算资源来提供连续服务。更具体地讲,高可用性群集通过提供多个服务器、多个网络连接、冗余数据存储等来消除单点失效。在不存在群集的情况下,如果运行特定应用程序的服务器失效,则在服务器恢复之前应用程序将不可用。在高可用性群集中,检测服务器的失效(或由此检测所使用的特定计算资源诸如网络适配器、存储设备等的失效)。于是自动地采取措施以使正在失效的服务器上运行的应用程序保持可用。这可以采用重启服务器和应用程序、使用不同的网络资源(例如,网络适配器),或者在另一个计算系统(即,群集的另一个节点)上自动地重启应用程序的形式。该过程称为“失效备援”。高可用性群集通常用于关键服务器应用程序,诸如企业数据库、重要的业务应用程序、电子商务网站等。即便此类应用程序仅出现短期的停工,代价也可能极为高昂,尤其在特定行业例如银行业和电信行业中。
在计算机存储中,逻辑卷管理是在大容量存储设备上分配空间的灵活方法。特别是,卷管理器可将底层物理分区连接、条带化到一起或以其他方式组合,以形成更大的虚拟分区。管理员然后可在不会潜在地中断系统使用的情况下重设逻辑卷的大小或将其移动。群集卷管理器将逻辑卷管理跨群集的多个节点扩展,使得每个节点识别相同的逻辑卷布局,以及所有节点的所有卷资源的相同状态。在进行群集卷管理的情况下,来自群集中任何节点的对磁盘或卷配置所作出的任何更改都将被群集的所有节点识别。为了支持群集级的卷管理,在新节点加入群集并且在现有节点离开群集时对群集进行重新配置。
群集使用节点之间的互连(链路)进行数据和管理通信。如果链路失效,则需要采取纠正措施。从失效备援和其他群集活动恢复的效率和及时性取决于群集能够检测和处理链路失效的速度。独立的节点可使用操作系统服务来检测其链路中的任一个是否失效。在两个节点没有使用任何交换机而直接连接(使用交叉电缆)的情况下,链路掉线通知被两个节点接收到,使得它们可以并行地对该事件做出反应。然而,在两个以上的节点使用交换机耦接的情况下,仅有本地节点会实时获悉链路失效。因此,由于在群集中存在网络拓扑结构,所以通常仅有单个节点或节点的本地化子组会立即获悉链路失效。传统上,其他节点随后通过群集范围内的心跳机制获悉连接失效,其中该心跳机制用于监测群集中每个节点的状态。与独立的节点获悉本地链路失效所花费的时间相比,心跳机制相对较慢。对群集的适当管理可能取决于群集的每个节点在采取纠正措施之前知悉链路失效。到每个节点通过心跳机制获悉失效为止的时间间隔使掉线的连接所必需的任何群集重新配置或失效备援活动延迟,并在群集的管理方面,诸如在隔离仲裁决策的执行方面,引起额外的问题。此外,在节点或群集在不同时间获悉链路失效的情况下,可能发生错误的不期望的恢复活动。
这些问题需要得到解决。
发明内容
链路失效的通知传播到群集中多个节点中的每一个。群集特定节点的特定链路的失效,例如通过特定节点的操作系统,被检测到。特定链路失效的通知传播到群集的所述多个节点,使得所述节点并行地处理链路掉线事件。执行对链路失效通知的传播,使得群集的节点在由相应心跳的超时获悉链路掉线事件之前就接收到该通知。在一些实施例中,因为也许存在链路立即恢复上线的情况,所以链路失效的通知仅在等待特定的宽限期之后传播。
在一个实施例中,通过广播消息来传播链路失效的通知,该消息向群集的节点通知特定链路的失效。单独的链路被维持,该单独的链路连接至群集的每个节点并专用于广播链路掉线事件通知消息。该单独的链路可用于向群集的节点广播消息。单独的链路可以但不必采用私有链路的形式,该私有链路不会暴露给群集的用户。在一个实施例中,确保在对链路掉线事件进行处理之前广播消息已被群集的节点接收到。这点可例如通过等待从群集的每个节点接收到确定收到广播消息的确认而实现。在一个实施例中,如果在给定时间周期内没有从每个节点接收到确定收到广播消息的确认,则重新传输广播消息。
在另一个实施例中,通过将链路失效的通知传输到所有节点均可访问的集中式计算设备来将该通知传播到群集的节点。群集的节点能够以特定的频率轮询集中式计算设备是否有链路失效的通知,并通过轮询获悉特定链路的失效。在一个实施例中,替代轮询(或除了轮询之外),集中式计算设备将特定链路失效的通知传输至群集的节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于赛门铁克公司,未经赛门铁克公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380014134.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种城市污泥在去除砷中的应用
- 下一篇:一种γ-碘化亚铜的制备方法