WEB开发网
开发学院操作系统Linux/Unix IBM AIX 持续可用性 阅读

IBM AIX 持续可用性

 2008-09-18 08:24:02 来源:WEB开发网   
核心提示: 集成的硬件错误检测和错误隔离是 System p 和 System i 平台设计战略的重要组成部分,由于这个原因,IBM AIX 持续可用性(7),IBM 在 1997 年为 IBM POWER™ 服务器引入了首次故障数据捕获(First Failure Data Captur

集成的硬件错误检测和错误隔离是 System p 和 System i 平台设计战略的重要组成部分。由于这个原因,IBM 在 1997 年为 IBM POWER™ 服务器引入了首次故障数据捕获(First Failure Data Capture,FFDC)。FFDC 在交付能够自我诊断和自我修复的服务器方面起着关键作用。该系统能够在系统运行时有效地捕获硬件错误。

FDDC 技术确保在系统中检测到错误(通过错误检测器或其他类型的检测方法)时,将捕获错误根源而不需要再现该问题或运行任何类型的扩展跟踪或诊断程序。对于绝大多数错误,有效的 FFDC 设计意味着还可以自动检测根源而不需要服务人员介入。与错误有关的相关错误数据将捕获并保存,以便做进一步的分析。

在硬件方面将基于已发生的第一个事件将 FFDC 数据收集在错误隔离寄存器中。FFDC 检测站小心地定位在服务器逻辑和数据路径中,以确保能够迅速确定潜在的错误,并准确地将错误追溯到某个单独的现场可替换单元(Field Replaceable Unit,FRU)。

相对于不太准确的“重新启动并诊断”服务方法,这种主动的诊断策略是重大的改进。使用基于 IBM 内部跟踪信息的估计方法,可以预测在没有 FFDC 功能的情况下,具有严重影响的中断的发生频率要高两到三倍。

事实上,如果没有某种用于问题诊断的普遍方法,即使间隙地发生的简单问题也会导致严重和漫长的中断。通过使用这种主动的诊断方法,IBM 不必再依赖间隙性的“重新启动并重试”错误检测策略,而是在某种程度上确定地知道哪个部分存在问题。

这种体系结构还是 IBM 预测性故障分析的基础,因为服务处理器现在能够对间隙性的组件错误进行计数并做日志记录,并且可以在达到某个错误阈值时释放或采取其他校正操作。

上一页  2 3 4 5 6 7 8  下一页

Tags:IBM AIX 持续

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接