WEB开发网
开发学院操作系统Linux/Unix IBM AIX 持续可用性: 第 3 部分 阅读

IBM AIX 持续可用性: 第 3 部分

 2008-10-22 08:23:17 来源:WEB开发网   
核心提示: 内核非执行(no-execute)探测 非执行探测也是在 AIX V5.3 TL5 中引入的,可以为不应该作为可执行代码的各种内核数据区设置这种保护,IBM AIX 持续可用性: 第 3 部分(2),这个特性利用了页面级执行启用/禁用硬件特性,如果错误的设备驱动程序或内核代码的执行分支能够

内核非执行(no-execute)探测

非执行探测也是在 AIX V5.3 TL5 中引入的,可以为不应该作为可执行代码的各种内核数据区设置这种保护。这个特性利用了页面级执行启用/禁用硬件特性。如果错误的设备驱动程序或内核代码的执行分支能够意外地进入这些页面,这个特性会马上探测到。以前,这种情况可能会导致崩溃,但尚未确定。

这个改进会立即捕捉到执行无效地址的指令,使它们没有机会进一步损害或导致难以调试的次级故障,从而提高内核可靠性和可服务性。这个特性对于用户差不多是透明的,因为大多数受保护的数据区显然应该是不可执行的。

扩展的错误处理

在 2001 年,IBM 引入了一种结合使用系统固件和扩展错误处理(Extended Error Handling,EEH)设备驱动程序的方法,可以从间歇性 PCI 总线错误中恢复。这种方法会恢复并重置适配器,由此开始对持久性 PCI 总线错误的系统恢复。出故障的设备不会立即失效,而是被 “冻结” 并重新启动,从而避免一次机器检查。POWER6 技术把这个功能扩展到了 PCIe 总线错误。

分页空间检验

如果系统崩溃、挂起或其他症状的根源是数据损坏,那么很难找到问题的根源,这是因为症状出现的地方远离数据损坏的位置。分页空间检验的设计目的是,检查从分页空间读入的数据是否与以前写出的数据匹配,从而改进 First Failure Data Capture(FFDC)对分页空间数据损坏引起的问题的处理。

当一个页面被换出(Page out)时,会为页面中的数据计算校验和,并把校验和保存在与分页设备相关联的一个固定数组中。当页面被换回(Page in)时,会为从分页空间读入的数据计算一个新的校验和,并与数组中的值进行比较。如果这两个值不匹配,内核就在日志中记录一个错误并终止(如果错误发生在系统内存中),或者向应用程序发送一个异常(如果错误发生在用户内存中)。

上一页  1 2 3 4 5 6 7  下一页

Tags:IBM AIX 持续

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接