WEB开发网
开发学院操作系统Linux/Unix 使用 IBM Systems Director 6.1 帮你实时监控硬件... 阅读

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

 2009-07-12 08:34:43 来源:WEB开发网   
核心提示:开始之前 学习如何在现代企业环境中使用 IBM Systems Director 6.1(以下简称 Director 6.1)来实时监控硬件环境,本教程解释 Director 6.1 的硬件监控组件构成,使用 IBM Systems Director 6.1 帮你实时监控硬件环境,以及如何使用和应用 Director

开始之前

学习如何在现代企业环境中使用 IBM Systems Director 6.1(以下简称 Director 6.1)来实时监控硬件环境。本教程解释 Director 6.1 的硬件监控组件构成,以及如何使用和应用 Director 6.1 的硬件监控组件。

开始之前

本节解释本教程讲授什么内容,以及如何从中获得最大的收益。

关于本教程

IBM Systems Director 6.1 是 IBM 系统软件部门于 2008 年 10 月推出的具有战略意义的集中式平台管理软件。如何对大量不同架构和平台的系统(例如 POWER 芯片服务器、基于 Intel 芯片的服务器以及刀片中心)进行持续实时监控,并在故障发生时迅速找到问题的根源并解决问题,一直是困扰系统管理员的难题之一。针对这一问题,Director 6.1 提供了一系列的硬件监控管理器,为用户提供了全方位,一体化的硬件监控解决方案,使用户能够更加轻松、便捷、及时地监控系统状态、处理硬件故障。

学完本教程之后,您将熟悉 Director 6.1 硬件监控功能,并能根据实际需求创建应用监控组件。

目标

本教程:

概述 Director 6.1 硬件监控管理组成。

详细描述如何使用 Director 6.1 实时监控硬件性能指标。

指导您如何使用 Director 6.1 发现处理硬件故障。

列出监控中常见问题。

前提条件

本教程针对初级和中级系统管理员,他们可能没有安装或配置过 Web 服务器,或者不熟悉现代 Web 服务器体系结构。要想学习本教程中的示例,您应该基本了解 UNIX? 命令行 shell 和文本编辑器。

系统需求

要想运行本教程中的示例,需要安装 Director 6.1 服务器 . 对于不同的系统管理环境,Director 6.1 服务器对系统环境的需求是不一样的:

1)小规模配置

系统环境包含少于 500 台终端节点,数据库采用 apache derby。

2)中等规模配置

系统环境包含 500 台到 1000 台终端节点,数据库采用 DB2 和 Oracle。

3)大规模配置

系统环境包含超过 1000 台终端节点,数据库采用 DB2 和 Oracle。

表 1. Director 6.1 服务器在 AIX 和 PLINUX 操作系统上安装的硬件需求

配置 推荐的硬件配置
处理器 内存 存储
小规模 1 CPU, POWER5™或者 POWER6™1 2.5 - 3 GB 4 GB
中等规模 2 CPU,POWER5 或 POWER61 4 GB 6 GB
大规模 4 CPU, POWER5 或 POWER61 10 GB 8 GB

表 2. Director 6.1 服务器在 x86 LINUX 操作系统上安装的硬件需求

配置 推荐的硬件配置
处理器 内存 存储
小规模 1 CPU, 3GHZ Intel Xeon 1 GB 4 GB
中等规模 2 CPU, 3GHZ Intel Xeon 2 GB 6 GB
大规模 4 CPU, 3GHZ Intel Xeon 4 GB 8 GB

Director 6.1 硬件监控管理器概述

根据监控内容划分,Director 6.1 的监控管理器主要分为状态管理器和事件管理器:

状态管理器可以提供系统监控指标定制,多种可视化方式展现系统的实时状态和支持状态数据导入再加工分析等功能,可以满足用户所有系统状态监控需求;

事件管理器可以通过对实时故障告警进行初步问题定位,为用户处理硬件故障提供切实帮助。同时,事件管理器还提供事件过滤、事件自动化处理等多种事件处理工具来提高用户工作效率。

Director 6.1 状态管理器—实时监控硬件性能指标

使用状态监视器和阈值监控系统

大部分系统管理员习惯实时监控系统性能状态,通过对一些关键性能指标的监控,如 CPU 占用率,内存使用率等,有利于及时发现系统潜在问题和故障。Director 6.1 提供了便捷的监控入口( 图 1),通过点击 监视器 ,打开状态监视器综合页面( 图 2)。

图 1. 状态监视器入口

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图 2. 监视器综合页面

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

在监视器综合页面里列出一些 Director6.1 预定义的监控指标,如 常见监视器 , 常见 CIM 监视器 , 虚拟化管理期监视器 等。其中 常见监视器 是根据不同平台预定义的一些常见的监控指标, 常见 CIM 监视器 也是根据不同平台预定义的一些通过 CIM 模型获取指标数据的监控指标集合, 虚拟化管理期监视器 是针对虚拟化资源(如逻辑分区)的监控指标。这些预定义的指标一般能满足日常监控的需求。

在监视器综合页面,点击 浏览 按钮,选择所要监控性能状态的系统( 图 3),这里既可选择监控一台主机,也可选择监控一个服务器群(System Group)。在选好要监控的系统后( 图 4),点击所要察看的监控指标,如 常见监视器 ( 图 5)

图 3. 选择状态监控系统

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图 4. 选择监控系统后监控综合页面

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图 5. 监视器视图

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

如 图 5 所示,监视器视图逐行展现预定义的监控指标,并且这些数据每隔 30 秒就会重新刷新。用户还可以对各个监控指标自定义阈值,一旦所监控的实际值达到或超出阈值范围,就会触发阈值告警。可以通过以下步骤来实现阈值的激活:

选取一个关注的监控指标,从右键菜单中选择 激活阈值 ( 图 6)

图 6. 激活阈值菜单

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

在弹出的阈值配置页面中,根据需求设置告警级别,告警值域等( 图 7)。在配置完成后,点击 确认 。

图 7. 阈值配置页面

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

当阈值符合所定义的告警范围,相应的告警就会出现在监视器视图页面里( 图 8)

图 8. 阈值告警

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

灵活定制性能监控指标

用户除了可以查看 Director 6.1 预定义的监控指标的数据外,还可以自定义自己关心的监控指标:

首先需要明确一点,不同平台所支持的监控指标是不同的,所以我们只能根据不同平台来创建相应的监控指标视图。因此在监视器综合页面( 图 2),要先选择所要监控的平台资源,然后点击 创建 按钮

在弹出的创建视图( 图 9)中,填入新建的监控指标视图名称、描述,并且在 显示 栏里选择所需的监控视图。这里 选择的资源 是指根据监控系统支持的监控指标来创建新的监控指标视图。比如,我们选用了一个 AIX 主机作为监控资源,那么根据这个主机创建的监控指标一般只适用于 AIX 系统监控。如果我们希望在新建的指标视图中也包含系统预定义的指标,那么我们可以选择 监视器视图 ,这样系统为这个平台预定义的监控指标视图就会显示出来供我们添加。下面我们以通过浏览平台支持的监控指标来实现创建新的指标视图为例,介绍监控指标的定制功能。

图 9. 监控指标创建视图

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

从 显示 菜单中选择 选择的资源 ,进入下一页面,查看支持的监控指标( 图 10)

图 10. 平台支持的监控指标

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

一般来说,平台支持的监控指标包含两个部分:基于 CIM 的指标模型和 Director 6.1 平台实现的指标模型。当然还可以包含其他模型的指标,如 SNMP 等。这里我们仅以 Director 6.1 平台实现的指标模型为例。我们可以直接选择“Director Agent”指标,也可以只选择下一级子指标。这里我们点击 Director Agent,进入下一级页面( 图 11)。

图 11. Director Agent 子指标

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

在这个页面( 图 11)根据不同指标类型,列出了内存、CPU、磁盘、文件系统、网络等子指标。我们可以选择几类指标,也可以只选择某类指标中几个子指标( 图 12)。这里我们选择内存监视器里的所有指标,并点击 添加 ,最后点击 确定 保存这个指标视图。

图 12. 内存监视器指标

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

新建的监控指标视图会在监视器综合页面中( 图 13)显示。这个新建的指标视图的使用方法与系统预定义的指标没有区别,可直接点击展示( 图 14)。

图 13. 增加了新的监控视图的监视器综合页面

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

图 14. 显示自定义的监控指标

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

多层次展示监控数据

IBM Systems Director 不仅提供了丰富的监控指标,满足用户系统监控需求,还为用户提供了便捷的查看方式和丰富的数据展示手段,方便用户监控和察看系统状态。

点击 运行状态总结 ( 图 15),进入运行状态总结页面( 图 16)

图 15. 运行状态总结入口

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图 16. 运行状态总结页面

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

运行状态总结页面( 图 16)分为 3 个区域, 记分板 , 仪表板 和 运行状况总结 。其中, 记分板 分为两行,分别显示系统告警状态(Problem)和系统更新状态(Compliance)。系统告警状态统计表明在所有被管系统中处于紧急状态、警告状态和信息状态的系统数量;系统更新状态统计表明被管系统中所安装软件不一致的状态数量。 仪表板 是用于状态监控数据的图形展示,用形象化的图形展示便于用户察看系统状态。 运行状况总结 又分为 有问题系统 和 收藏夹 两个区域, 有问题系统 是与 记分板 中的告警统计相一致的,用来显示具体问题系统信息。用户可以将关心的系统加入 收藏夹 ,便于用户察看和观察其状态变化。这里我们着重介绍如何在 仪表板 里添加系统状态监控器。

打开被管系统的监视器视图( 图 5),选择所要展示的监控指标,从右键菜单里选择 添加至仪表板 ( 图 17),在弹出的对话框( 图 18)里,填入图表的名称、描述和类型,并点击确定。

图 17. 添加监控指标到仪表板

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图 18. 添加到仪表板的对话框

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

在运行状态总结页面的仪表板就会出现相应的图表( 图 19),并且会实时刷新。

图 19. 添加图表的仪表板

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

用户也可直接根据所选的监控指标显示相应图形。在打开被管系统的监视器视图( 图 17),选择所要展示的监控指标,从右键菜单里选择 图形 ,就会打开相应的图形显示( 图 20)

图 20. 监控指标的图形显示

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

监控状态数据的导出与处理

为了给用户提供更加丰富的数据处理能力,Director 6.1 的状态管理器可以将采集的系统监控数据以及硬件事件数据进行导出。导出的数据文件格式为逗号分割文件格式(Comma Separate Value,CSV)。该格式是一种标准的数据文件格式,可以被众多的数据处理程序(例如 Microsoft 公司的电子表格软件 Excel)所接受。同时,这种格式也可以被其他的文本处理程序所接受。

在 图 20 的 Graph 界面中,点击数据导出按钮就可以将监控的数据导出。此时系统会弹出文件下载提示框( 图 21)

图 21. 监控数据文件下载提示

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

我们可以使用默认的 Microsoft Excel 打开该文件,也可以选择保存该文件。如果使用文本编辑器(例如 Ultra Edit)打开该文件,我们可以看到如下的内容。

清单 1. 导出的数据文件

Time,System,Value

2009-3-12 4:36,otto01.austin.ibm.com,1.1832009-3-12 4:37,otto01.austin.ibm.com,2.2092009-3-12 4:37,otto01.austin.ibm.com,1.0682009-3-12 4:38,otto01.austin.ibm.com,2.6552009-3-12 4:39,otto01.austin.ibm.com,2.4592009-3-12 4:39,otto01.austin.ibm.com,0.9842009-3-12 4:40,otto01.austin.ibm.com,1.7032009-3-12 4:40,otto01.austin.ibm.com,0.8772009-3-12 4:41,otto01.austin.ibm.com,26.8882009-3-12 4:42,otto01.austin.ibm.com,27.4332009-3-12 4:42,otto01.austin.ibm.com,8.5212009-3-12 4:43,otto01.austin.ibm.com,1.4882009-3-12 4:43,otto01.austin.ibm.com,1.4552009-3-12 4:44,otto01.austin.ibm.com,0.7842009-3-12 4:45,otto01.austin.ibm.com,1.2552009-3-12 4:45,otto01.austin.ibm.com,14.065

我们可以使用 Excel 对数据进行简单的处理,也可以使用 Excel 内置的 VBA 宏语言进行编程,对数据进行比较复杂的处理。当然我们也可以使用一些脚本语言对这些数据进行处理。例如现在我们要算出在一天之内的每个小时的 CPU 利用率,并且要求使用图形表示。针对这个要求,使用像 MS Excel 这样的具有数据处理功能的电子表格软件,可以对导出的数据文件进行如下的处理。

因为要计算每个小时内的平均值,首先要对导出数据中的时间进行一个简单的处理,即取出每个时刻中的小时信息。具体方法是插入一列,可以将其命名为“Hour”,使用公式 =Hour() 就可以将 Time 列的值转换为小时。

同时选中 Hour 列和 Value 列,点击菜单 数据 ,然后点击 数据透视表和数据透视视图 。系统会弹出如 图 22 所示的对话框。

图 22. 数据透视表和数据透视视图步骤 1

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

保持默认的设置,直接点击下一步。

在第二步中选择数据区域。因为数据区域已经实现选中,因此可以直接点击 下一步 。第三步的向导对话框如 图 23 所示。

图 23. 数据透视表和数据透视视图步骤 3

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

在第三步中点击按钮 布局 。在弹出的布局窗口( 图 24)中,将 Date 拖入行,将 Value 拖入 数据 区域内。点击代表 Value 的按钮,在弹出的小窗口中选择 平均值 ,最后点击 确定 。如 图 25 所示

图 24. 数据透视表字段

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图 25. 数据透视表和数据透视图向导——布局

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

如此之后,点击 确定 。再点击 完成 ,便完成了整个过程,得到了一个每个小时的平均值的数据表。

基于这个数据表,我们通过 Excel 的图表向导,就可以很容易得到这个系统每小时的平均 CPU 利用率的图表。如 图 26 所示。

图 26. 生成 CPU 利用率图表

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

Director 6.1 事件管理器—及时监控处理硬件故障事件

查看实时硬件故障告警问题和事件日志,识别问题并确定故障根源

很多时候系统管理员需要了解所有被管理机器的硬件和操作系统资源的运行状态,以便迅速找到问题的根源。但太多的机器,不同的问题,应该从哪台机器着手去解决问题,如何从现存问题发现更多的细节线索,成为困扰管理员的难题之一。

Director 6.1 状态管理器会收集和记录所有相关的硬件事件信息,并为用户提供统一的图形用户界面和多种便捷的方式访问,从而使管理员能通过查看问题和事件日志,以识别问题并确定故障根源。问题 (Problems) 和事件记录 (Event Log) 就是其中两个非常有用的方式。

问题 (Problems)

问题页面记录着该 Director 6.1 管理的环境中所有系统的硬件问题信息。Director 6.1 是通过跟踪状态集项 (status set entries) 来记录管理环境中系统的状态的。每当一个资源报告了一个系统相关的问题,一个状态集项就会产生,并被 Director 6.1 服务器收集到和记录下来。这些项随后就被列在问题页面上,如图 27 所示。

图 27. 活动状态页面

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

每条记录包括问题名字 (Name),问题的严重性 (Severity),问题所在的系统 (System),对应的组件名称 (Component),问题分类 (Category),问题发生的时间和日期 (Date and Time),以及问题的详细信息 (Details)。

你可以通过点击一条问题记录来查看其更详细的信息,如图 28 所示。这些信息对解决所报告的问题非常有帮助,尤其是以下几项。

自动清除 (Auto-Clear): 这是识别在对应的问题消除事件收到后该事件是否会自动被从系统上清除。

事件文本 (Event Text): 这是产生这条记录的事件的信息描述。

事件 ID(EVENTID): 这可以帮助定位是系统上哪个 CIM 订阅转发的这事件。

供应商名字 (PROVIDERNAME): 这提供了产生这事件的 CIM 供应商的名字。

图 28. 问题属性

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

事件日志 (Event Log)

IBM System Director 事件日志记录了所有从管理的资源发来的事件信息,如图 29 所示。

图 29. 事件日志列表

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

每条事件记录包括事件描述 (Event Text),发生事件的源 (Source),严重性 (Severity),事件分类 (Category),以及发生的时间和日期 (Date and Time)。你还可以通过点击对应的事件来查看其详细信息,如图 30 所示。

图 30. 事件日志属性

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

这样,通过事件日志 (Event Log),你可以轻松地知道在被管理的机器上发生了什么样的事件,从而为进一步查明问题根源提供判断依据。

随着管理的机器的数目的增大,事件日志中记录的事件会越来越多。在众多的事件中快速找到特定的事件可以帮助管理员节省时间,从而能把管理员从海量事件信息中解放出来,将重心放到对特定事件的分析和处理,进而快速准确地定位并解决问题。Director 6.1 很好的考虑到这点,为你提供了如下几样便捷的方法。

第一,你可以通过事件过滤器下拉菜单来选择系统或者用户自定义的条件过滤器来过滤众多事件(图 31);

图 31. 事件过滤菜单

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

第二,你可以通过事件列表中的搜索功能用关键字查找特定事件(图 32);

图 32. 事件列表搜索

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

此外,你也可以通过在浏览资源中的特定系统或组上面点击右键,从右键菜单中选择 系统状态和运行状况 -> 事件日志 (System Status and Health -> Event Log) 来查看和该系统或组相关的所有事件 ( 图 33)。

图 33. 系统事件日志

使用 IBM Systems Director 6.1 帮你实时监控硬件环境 

自定义事件过滤器 , 关注特定事件告警

事件过滤器指定了一个或多个你想要 Director 6.1 自动化计划 (Automation Plan) 处理的事件。通过使用事件过滤器,你可以让 Director 6.1 服务器忽略所有不符合过滤器中定义的事件,而只关注在过滤器中定义了的特定事件。

你可以通过点击自动化计划导航栏中的事件过滤器链接来进入事件过滤器管理页面,如图 34 所示。

图 34. 事件过滤器

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

在 IBM System Director 服务器上,有一些系统定义好了的过滤器,如图 35 所示。

图 35. 预定义事件过滤器

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

通常,这些过滤器已经能很好地处理该 Director 6.1 服务器所管理的系统环境中所有的事件信息。但你可以通过自定义过滤器来进一步关注特定的事件。例如,当环境中的某一台系统起着非常重要的作用,如 IBM POWER 系统,它的健康状态自然就需要管理员特殊的关照。此时你可以通过为其定义一个定制的过滤器,来捕获该台系统发来的符合过滤条件的单个或多个事件,比如磁盘操作错误(DISK OPERATION ERROR)。有了事件过滤器的帮助,你还可以通过自动化管理器设置对应的事件响应动作,从而对管理环境中的系统事件作出及时响应。

为更好地定义过滤器,以下是几个在此之前你需要考虑的问题。

是否所有目标系统都能产生所有你想要过滤的事件?

是否能用同一个事件响应动作来处理所有产生该事件的目标系统?

是否除了事件类型的其它过滤器选项对所有目标系统都适用?

在定义过滤器的时候,有四种类型供你选择。它们分别是简单事件过滤器 (Simple event filter),重复事件过滤器 (Duplication event filter),排除事件过滤器 (Exclusion event filter),和阈值事件过滤器 (Threshold event filter),如图 36 所示。

图 36. 创建过滤器

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

简单事件过滤器:这是 Director 6.1 中通用的过滤器,大多数事件自动化计划使用的就是简单事件过滤器。Director 6.1 服务器中预定义的那些过滤器就是简单事件过滤器。在图 37 所示的构建器中,你可以设置你想要过滤的事件类型,以及其它一些参数,如严重性、类别等。

图 37. 新建简单事件过滤器

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

重复事件过滤器:在简单事件过滤器的基础上,重复事件过滤器可以根据设置来忽略符合过滤条件的重复的事件,如图 38 所示。这在处理一些会频繁产生的事件时尤其有用,例如离线事件 (offline event)。根据设定,Director 6.1 服务器可以在对第一个事件做出响应动作后,忽略所有之后符合过滤条件的同类事件,直至设定的计数器或时间间隔。

图 38. 创建重复事件过滤器

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

这个间隔可以是时间间隔,也可以是定量的计数,还可以是两者的组合。

时间间隔 (Interval) 是一个时间段,符合过滤器条件的第一个事件触发对应的事件响应动作后启动这个时间间隔的倒计时功能,在这个时间段内发来的同样的事件都不会触发对应的事件响应动作。例如,设置该时间间隔为 2 分钟,其意思是当收到第一个符合过滤器设置条件的事件时,一个时长为 2 分钟的计时器就被启动,在这段时间内,Director 6.1 服务器会忽略符合过滤条件的所有事件。2 分钟到了之后,系统再收到一个符合条件的事件后,又会触发对应的响应动作,重置该计时器并开始计时。

事件计数器 (Event count) 是另一个用来控制重复事件过滤的方式。你在事件计数器中指定的数字就是 Director 6.1 服务器忽略自第一个事件触发响应动作后的同样事件的次数。例如,设置计数器为 3,其意思是当收到第一个符合过滤器设置条件的事件时,该计数器被触发,使得 Director 6.1 服务器忽略其后收到的 3 个符合过滤条件的事件,而在收到第 5 个该事件时,重置该计数器并忽略接下来的 3 个该事件,以此往复。

至于两者的结合,则以其中第一个完成倒计时 / 数为条件重置时间间隔和事件计数器。例如,设置一个重复事件过滤器的频率为 2 分钟 3 次,其意思是当该过滤器被触发后,当时间过了 2 分钟或者又收到了 3 个同样的事件,系统就重置该过滤器的两项值,开始新一轮过滤。

排除事件过滤器:在简单事件过滤器的基础上,排除事件过滤器可以根据设置来忽略特定的事件。当你想创建基于事件严重性或者事件类别但又想同时排除一些特定事件类型的过滤器的时候,排除事件过滤器就是一个好帮手。有了它,你就不用为所想要关注的事件一个个创建单独的简单事件过滤器了,而是可以在一个过滤器中便捷地完成过滤事件的添加和移除。如图 39 所示,你可以在想要排除的事件类型中选择特定的事件,这样当 Director 6.1 服务器收到这些事件,它就不会触发对应的响应动作。

图 39. 创建排除事件过滤器

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

阈值事件过滤器:这个过滤器是用来处理一个在指定时间段内出现了指定次数的事件,如图 40 所示。例如,你可以定义一个阈值事件过滤器来监视登录失败的事件并执行一个事件动作,在这个过滤器中,设置时间间隔为 2 分钟,事件计数器为 3。那么,在 2 分钟内,如果 Director 服务器收到 2 个登录失败事件,系统都不会有任何动作产生;但是,当在任意一个 2 分钟内,系统收到的 3 个登录失败事件,预先在自动化计划中定义好的事件动作就会被执行,同时,计数器和时间间隔被重置。要再调用事件动作,那就需要再有一次在 2 分钟内系统收到 3 个登录失败事件。不然,该过滤器中的计数器和时间间隔每隔 2 分钟重置一次。

图 40. 创建阈值事件过滤器

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

是不是觉得重复事件过滤器和阈值事件过滤器很像?是不是觉得两者是重复的?两者是很相像(它们都用时间间隔和计数器来控制事件动作的触发),但用途是不一样的。

前者主要是用于在设置的条件内忽略同种事件,而后者主要是控制特定事件动作的触发条件。

前者是当收到第一个符合过滤器条件的事件时,就触发对应的响应动作,而后者则是在指定的时间间隔内收到符合过滤器条件的事件的次数达到了设定的事件计数器,才触发对应的事件动作。

前者可以单独使用时间间隔,单独使用计数器,或者组合使用,而后者则必须是组合起来一起才能定义一个有效的阈值过滤器。

自定义告警触发事件和相应动作,及时进行初步处理

在创建事件过滤器后,下一步是创建可以与之关联的事件操作。事件操作指定了对特定事件或者一组事件的自动响应,例如在某一系统上启动应用程序,或者将事件信息以特定方式转发以及时通知系统管理员。

Director 6.1 内置了一组预定义的事件操作,这些操作只需简单配置即可使用,此外这些操作也可以作为模板创建自定义事件操作。

图 41. 预定义事件操作

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

以下是几个常用预定义事件操作的简单介绍:

在系统上启动程序 和 在生成该事件的系统上启动程序

在系统上运行一个程序,可运行的程序包括能够开始或停止程序的命令行指令。这里的系统可以是被当前 Director 6.1 服务器管理的任一系统。在生成事件的系统上启动程序这类操作通常被定义成在生成事件的系统上搜集日志,重新启动某些系统服务,或者运行一个脚本完成更复杂的恢复性操作。对于单一系统上的可恢复故障,这些操作足够让系统上的服务或应用恢复正常状态而不用等待管理员手动处理。

静态组:添加或除去系统组成员 和 静态组:添加或除去发生事件的系统

添加或者删除定义好的一个或一组系统到特定的静态组。使用此类事件操作可以初始化一组系统以进行下一步的批量处理,真正的处理动作通常是被另一个事件过滤器中指定的事件来触发。

生成事件的定时警报

生成一个定义好的警报事件,除非在特定的时间段内 Systems Director 没有收到一个期望的事件。这类事件操作在监控功能和服务是否丢失时非常有用,就像是一个心跳监控器。

发送电子邮件(因特网 SMTP)

发送一个 SMTP 邮件。如果终端支持邮件功能,也可以发送给移动电话。比起短消息和报警事件,邮件中可以包含更多故障的详细信息以便于诊断。邮件的标题和内容中都可以包含预定义的变量例如事件类型、严重级别、发生事件的系统的标识、事件发生的时间和日期等。

设置事件系统变量

给一个用户定义的环境变量赋予新的数值或者重置一个已有的系统环境变量。Director 6.1 提供用户定义的环境变量以帮助跟踪资源的状态。只要是可以使用事件数据置换的地方都可以引用系统环境变量的名称和数值。

自动化计划实例:监控潜在的硬件故障并及时通知

当故障发生时通知管理员,这是系统管理方案的一个常见需求,Systems Director 也提供了一个完整的解决方案。此外,Director 6.1 还有对潜在硬件故障的监控支持,即在实际的硬件故障发生之前就告知管理员提前更换即将要失效的硬件组件,以保证整个数据中心的不间断运作。这项功能是通过对 PFA(Predictive Failure Analysis,预测故障分析)和 SMART(Self-Monitoring Analysis and Reporting,自我监测分析及报告)两种技术的事件的监测来实现的。

我们将之前讲述的事件过滤器和事件操作结合在一起,通过向导完成一个完整的自动化计划的配置过程。

点击任务视图中 自动设置 下的 自动化计划 进入自动化计划页面。

点击 创建 启动自动化计划向导。点击 下一步 跳过欢迎页面。

为要创建的自动化计划取一个名字,例如“预测硬件故障通知”,点击 下一步 。

在左侧的目标列表中,点击 按系统类型划分的组 ,之后选择 System x 和 BladeCenter 系统 。点击 添加 ,然后 下一步 。

图 42. 定义自动化计划目标

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

在事件类型下拉菜单选择 高级事件过滤器 ,找到 硬件预测性故障警报事件 ,选中并点击 下一步 。

图 43. 定义事件类型

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

图片看不清楚?请点击这里查看原图(大图)。

在事件操作页面,点击 创建 来创建一个新的事件操作。

选择 发送电子邮件(英特网 SMTP) 作为操作类型,点击 确定 。

配置发送邮件的参数。可以点击 测试 检查邮件发送是否成功,之后点击 确定 。

图 44. 定义事件操作细节

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

在事件操作列表中,选中刚才创建的事件操作以及默认的 添加至事件日志 ,点击 下一步 。

对于时间范围,因为选中的过滤器不支持设定范围,所以采用默认事件范围 全天候(24x7)。

在向导的总结页面点击 完成 结束配置。

图 45. 事件自动化计划一览

使用 IBM Systems Director 6.1 帮你实时监控硬件环境

可以看到这时配置好的自动化计划已经生效,意味着 Director 6.1 开始全天候监控硬件预测性监控报警。一旦有此类报警发生,管理员就可以立即得到通知并及时更换硬件。

对监控时碰到的问题进行进一步的诊断和除错

系统监控是一项长期而复杂的任务,尤其是面对大规模的数据中心和复杂的运行环境时。以硬件事件为例,Director 6.1 的硬件事件是在被管理的系统上产生,由被管理的操作系统处理并经由 TCP/IP 网络发至 Director 6.1 管理服务器,在发现应当接收到的硬件事件没有在事件日志里出现时,就需要检查事件的处理流程,进行进一步的诊断。

定位硬件事件报警功能的故障,需要从硬件事件处理流程开始。在 Director 6.1 中,多数由操作系统发送的硬件事件报警是使用 CIM 指示(CIM Indication)机制和通过 HTTP 方式传送 CIM XML 数据(CIMXML over HTTP)。其中,公共信息模型 CIM(Common Information Model)是系统管理的工业标准。

Director 6.1 管理服务器在发现被管理系统并获取访问权限后,会在被管理系统上向 CIM 对象管理器(CIMOM)管理的每个 CIM 提供者(CIM Provider)的命名空间(Namespace)创建 CIM 订阅(CIM Subscriptions)。在 Windows 上的 CIM 对象管理器是 Windows 管理规范服务(WMI),在 Linux 上的 CIM 对象管理器是 Pegasus 服务。同时创建的还有相应的过滤器(Filter)和处理机(Handler)。不同的 CIM 提供者会通过操作系统相应的驱动程序监控某类型的硬件。当硬件变更发生时,CIM 提供者会从驱动程序中得到事件信息并生成 CIM 指示(CIM Indication),被管理系统的 CIM 对象管理器通过处理机、过滤器和订阅三者的组合来确定 CIM 指示的确切发送目的。

CIM 侦听器服务会将 CIM 指示发送到最终的消费者(End Consumer)。常见的消费者包括 Director 消费者(Director Consume,由 Director 6.1 处理)、SNMP 消费者(SNMP Consumer,发送 SNMP Trap 到 SNMP 服务指定的地址)、日志消费者(Log Consumer,在被管理系统上将此事件写入操作系统日志)等等。CIM 指示在该被管理系统上会被转换成 CIMXML 格式,并被发送到 Director 6.1 管理服务器上的 CIM 侦听服务。

诊断硬件事件报警功能,包括以下一些操作:

检查硬件的固件版本和相关的驱动程序

能够从服务器的所有硬件组件获得事件的前提是在硬件的固件版本和操作系统上的设备驱动程序被当前的代理程序支持。在安装 Director 6.1 时就应该检查是否已经更新固件和设备驱动。

对于 System x 和 BladeCenter 服务器,操作系统必须安装 IMPI 驱动程序。如果有 RSA 和 RAID 卡等其它硬件,需要在代理程序部署前安装相应的驱动程序。详细的信息可以参考 IBM 系统信息中心上的“Systems Director 6.1 硬件与软件需求”页面(英文)(http://publib.boulder.ibm.com/infocenter/systems/topic/director.plan_6.1/fqm0_r_supported_hardware_and_software_requirements.html),以及“管理服务处理器(Service Processor)的准备工作”页面(英文)(http://publib.boulder.ibm.com/infocenter/systems/topic/director.install_6.1/fqm0_t_preparing_to_manage_service_processors.html)。

检查被管理系统上监控相关的系统服务

CIM 对象管理器服务默认使用 TCP 5988 和 5989 端口。如果该平台上的这些端口已被占用(例如 SUSE Linux),会使用 15988 和 15989 端口。CIM 侦听器服务默认使用 TCP 6988 端口。利用 netstat 命令可以快速的检查这些端口是否在正常的侦听状态。

清单 1. 检查 CIM 服务

[root@dtx69 ~]# netstat -apt |grep -i cim[sl] 
tcp 0 0 *:wbem-http *:* LISTEN 3055/cimserver 
tcp 0 0 *:wbem-https *:* LISTEN 3055/cimserver 
tcp 0 0 *:6988 *:* LISTEN 2995/cimlistener 

检查 CIM 订阅

6.1 平台代理或者公共代理的系统上,可以用 cimsubscribe 工具来检查 CIM 订阅的配置。对于 AIX 或者 Linux 平台,cimsubscribe 在 /opt/ibm/icc/cimom/bin 目录下;对于 Windows 平台,默认的路径是 C:\Program Files\Common Files\IBM\icc\cimom\bin 目录。在命令 cimsubscribe –lh 的输出中,含有 CIMListener 的行是我们感兴趣的,它列出了硬件事件的目标地址。在结果列表中,应该包含管理此系统的 Director 6.1 服务器的 IP 地址。如果是被多台 Director 6.1 服务器管理,则应该有多个 IP 地址列出。如果没有相应的 IP 地址,表明该 CIM 订阅没有被正确的配置。快速的解决办法是在 Director 6.1 服务器上将此系统的操作系统资源删除,再重新发现并获取访问权限。

清单 2. 检查 CIM 订阅

[root@dtx69 ~]# /opt/ibm/icc/cimom/bin/cimsubscribe -lh |grep CIMListener 
Destination = http://localhost:6988/CIMListener/SnmpConsumer 
Destination = http://localhost:6988/CIMListener/TivoliConsumer 
Destination = http://localhost:6988/CIMListener/LogConsumer 
Destination = http://localhost:6988/CIMListener/HealthConsumer 
Destination = http://localhost:6988/CIMListener/SMSConsumer 
Destination = http://localhost:6988/CIMListener/PopupConsumer 
Destination = http://9.125.53.165:6989/CIMListener/DirectorConsumer/UID=7fb59282ba1dd6c6 

结束语

IBM Systems Director 6.1 提供了强大的硬件状态监控工具,便捷的使用方法,极大简化了用户对硬件系统的监控。特别是针对大规模的管理系统,Director 6.1 的硬件监控带来很大的方便和灵活性

Tags:使用 IBM Systems

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接