IBM System p5 服务器 HACMP 安装指南
2008-11-11 08:14:36 来源:WEB开发网本文向您详细地描述了 HACMP 在 IBM System p5 系列服务器上的安装过程,一步一步地通过示例向您演示了整个安装步骤,包括系统的准备,关键软件包的安装,安装过程中的各项参数的选择等重要步骤。本教程可以作为一个 HACMP 在 IBM System p5 系列服务器上的安装范例来使用,对于希望安装此产品的读者很有帮助。本教程的所有操作步骤都是由 IBM 工程师和合作伙伴工程师共同在实际环境下进行测试的。
开始之前
了解本教程中包含的内容以及如何最好地利用本教程。
简介
现有的 UNIX 服务器一般都拥有很高的可靠性,在这一点上 IBM 的 P 系列服务器表现尤为突出。但所有 UNIX 服务器均无法达到如 IBM 大型主机 S/390 那样的可靠性级别,这是开放平台服务器的体系结构和应用环境所决定的。 针对这种情况,IBM 提供了一种高可用性集群软件—— HACMP ,可以更好的保护关键业务应用不受故障影响。 HACMP 是 High Availability Cluster Multi-Processing 的缩写。HACMP 是 IBM 公司在 P 系列 AIX/Linux 操作系统上的高可靠集群软件,配置冗余,消除单点故障,保证整个系统连续可用性和安全可靠性。
目标
希望通过本文的学习,可以使读者能够独立的完成 HACMP 在 IBM System p5 系列服务器上的安装过程。
先决条件
在学习本教程之前,您应该具备基本的 AIX 系统的概念,有一定的 AIX 系统的操作能力。
注意
本文的所有操作都会在命令行和 SMIT 上进行,在后面不做特别的指出,请使用具有相应权限的用户进行操作。
系统需求
硬件需求
IBM HACMP 支持所有 IBM System p5 服务器。
软件需求
AIX 与 RSCT 版本要求
AIX 5L Version | RSCT Version | RSCT Filesets |
AIX 5L Version 5.3 TL1 | 2.4.2 | rsct.compat.basic.hacmp 2.4.2.0 rsct.compat.clients.hacmp 2.4.2.0 rsct.core.sec 2.4.2.1 rsct.core.rmc 2.4.2.1 |
AIX 5L Version 5.2 TL5 | 2.3.6 | rsct.compat.basic.hacmp 2.3.6.0 rsct.compat.clients.hacmp 2.3.6.0 rsct.core.sec 2.3.6.1 rsct.core.rmc 2.3.6.1 |
AIX BOS 软件要求
AIX 5L BOS Component | AIX 5L V5.2 TL5 或更新版本 | AIX 5L V5.3 TL1 或更新版本 |
bos.adt.lib | 5.3.0.10 | 5.2.0.10 |
bos.adt.libm | 5.3.0.10 | 5.2.0.13 |
bos.adt.syscalls | 5.3.0.10 | 5.2.0.11 |
bos.net.tcp.client | 5.3.0.10 | 5.2.0.14 |
bos.net.tcp.server | 5.3.0.10 | 5.2.0.14 |
bos.rte.SRC | 5.3.0.10 | 5.2.0.10 |
bos.rte.libc | 5.3.0.10 | 5.2.0.14 |
bos.rte.libcfg | 5.3.0.10 | |
bos.rte.libcur | 5.3.0.10 | 5.2.0.10 |
bos.rte.libptdreads | 5.3.0.10 | 5.2.0.12 |
bos.rte.odm | 5.3.0.10 | 5.2.0.11 |
bos.data (require for cluster.man.en_US.es) | 5.3.0.10 | 5.2.0.10 |
bos.clvm.enh (require for CLVM) | ||
bos.rte.lvm.rte (require for CLVM) |
安装前的准备工作
本安装指南所提及的 node1 和 node2 分别表示安装 HACMP 的两台 p5 服务器,本例中采用 IP 别名方式做心跳,oracle 应用做为上层应用。安装 HACMP 前需完成以下工作 :
配置集群网络
HACMP 集群的 IP 地址分为三大类:Boot ip( 也叫 base ip)、Service ip 和 Heartbeat ip( 使用 IP 做心跳时需要 )。这三种 IP 最好都在不同网段。下面是本文中采用的 IP 分配,仅供参考:
集群网络配置
节点 | IP 类别 | IP 地址 | IP 标签 | 网络接口 |
node1 | Boot ip | 192.168.25.23/16 | ha1_bt1 | en0 |
node1 | Boot ip | 10.0.25.23/16 | ha1_bt2 | en1 |
node2 | Boot ip | 192.168.25.24/16 | ha2_bt1 | en0 |
node2 | Boot ip | 10.0.25.24/16 | ha2_bt2 | en1 |
node1,node2 | Service ip | 10.1.25.1/16 | ha_svc1 | |
node1,node2 | Hearbeat ip offset | 10.2.25.1/16 | ha1_bt1 |
上例子中有 IP 标签的 IP 地址都需加入 /etc/hosts 文件。/etc/hosts 文件内容如下:
127.0.0.1 loopback localhost
192.168.25.23 ha1_bt1
192.168.25.24 ha2_bt1
10.0.25.23 ha1_bt2
10.0.25.24 ha2_bt2
10.1.25.1 ha_svc1
因为 Hearbeat ip offset 是一个地址段,10.2.25.1/16 只是一个起始地址,所以不需要加入到 /etc/hosts 中。
为保证主机名解析正确无误,修改 AIX 解析顺序:# echo “hosts = local, bind” >/etc/netsvc.conf
配置集群共享磁盘
如果采用 EXP24 作为共享存储,需更改 SCSI ID;如果采用 DS4000 系列存储,可跳过此步。EXP24 作共享磁盘需更改服务器端的 SCSI 通道 ID,以免 SCSI ID 冲突。默认 SCSI ID 为 7,可将其中一台服务器的 SCSI ID 改为 6 或者 8。SCSI ID 的值越大,优先级越高,SCSI ID 的范围是 1-15。SCSI ID 的更改可在 SMS 菜单中进行,也可使用以下命令进行更改:
# chdev -a id=6 -l scsi2 -P
其中 scsi2 是服务器与 EXP24 连接的 SCSI 通道。
在 node1 上在创建共享磁盘卷组。使用 smitty _mkovg 创建一个 Original VG。在 VOLUME GROUP name 处输入卷组的名称,并在 PHYSICAL VOLUME names 处选择共享磁盘中的 pv,将 Activate volume group AUTOMATICALLY at system restart 选项由 yes 改为 no。
Add an Original Volume Group
[Entry Fields]
VOLUME GROUP name [datavg]
Physical partition SIZE in megabytes +
* PHYSICAL VOLUME names [hdisk3] +
FORCE the creation of volume group? no +
Activate volume group AUTOMATICALLY no +
at system restart?
Volume group MAJOR NUMBER [] +#
Create VG Concurrent Capable? no +
注意:
需要将卷组设置为系统开机时不自动激活,即将“Activate volume group AUTOMATICALLY at system restart?”的值设为 NO。
如果采用磁盘心跳,需将磁盘心跳所在的磁盘的卷组设为 concurrent 模式的 VG
在 node1 的共享磁盘卷组上创建逻辑卷及文件系统。根据应用的要求创建相应大小的逻辑卷及文件系统。
在 node1 上使用以下命令反激活卷组。
# varyoffvg
添加 tty 设备 ( 串口心跳 )
在 node1 和 node2 上安装串口扩展卡,并用串口线将两个节点相连。
添加串口设备,将波特率设为 9600。使用 smitty maktty 命令添加串口设备,首先选择 rs232 作为终端类型,然后选择相应的异步适配器,最后回车出现以下界面。
Add a TTY
[TOP] [Entry Fields]
TTY type tty
TTY interface rs232
Description Asynchronous Terminal
Parent adapter sa0
* PORT number [0] +
Enable LOGIN disable +
BAUD rate [9600] +
PARITY [none] +
BITS per character [8] +
Number of STOP BITS [1] +
TIME before advancing to next port setting [0] +#
TERMINAL type [dumb]
FLOW CONTROL to be used [xon] +
[MORE...29]
在 PORT number 处选择端口号,在 BAUD rate 处选择波特率为 9600,应保证两节点之间的串口端口的波特率相同。
测试串口是否工作正常。在 node1 节点上进行以下操作:
node1# cat /etc/hosts >/dev/tty0
在 node2 节点上进行以下操作:
node2# cat < /dev/tty0
如果在 node2 上看到文字输入,表示串口工作正常
建立应用启动和停止脚本
分别在两个节点在创建应用启动和停止脚本,并让这两个脚本有执行权限。两个节点的脚本的路径必须一致。
# touch /usr/sbin/start_oracle /usr/sbin/stop_oracle
# chmod +x /usr/sbin/start_oracle /usr/sbin/stop_oracle
安装步骤
安装 HACMP 软件及相应的补丁。本安装指南讲述 HACMP/ES 的安装过程,如果需要使用 HACMP/XD,请参考 IBM 相关资料进行正确安装。将 HACMP V5.4 光盘放入光驱后,请安装以下软件包:
HACMP 软件列表
HACMP Fileset | Description |
cluster.es | HACMP/ES Basic software |
cluster.es.cfs | HACMP/ES Cluster File System Support |
Cluster.es.cspoc | HACMP/ES CSPOC |
Cluster.es.plugins | HACMP/ES plug-in software |
Cluster.license | HACMP Electronic License |
cluster.man.en_US.es | HACMP/ES english man pages |
建立集群:通过以下路径进入添加集群界面,然后输入集群名称。
smitty hacmp->Extended Configuration->Extended Topology Configuration ->Configure an HACMP Cluster->Add/Change/Show an HACMP Cluster
Add/Change/Show an HACMP Cluster
[Entry Fields]
* Cluster Name [ha_cluster]
添加节点:通过以下路径进入添加集群节点界面,输入节点名和此节点的通信接口 ( 这里使用上面提到的 Boot ip)。
smitty hacmp->Extended Configuration->Extended Topology Configuration->Configure HACMP Nodes->Add a Node to the HACMP Cluster
添加节点 1Add a Node to the HACMP Cluster
[Entry Fields]
* Node Name [node1]
Communication Path to Node [ha1_bt1]
以相同方法添加第二个节点。如果有多个节点,以此类推。
添加节点 2Add a Node to the HACMP Cluster
[Entry Fields]
* Node Name [node2]
Communication Path to Node [ha2_bt1]
在两节点上收集 HACMP 相关信息 ( 可选 ):通过以下路径进行集群信息收集。
smitty hacmp->Extended Configuration->Discover HACMP-related Information from Configured Nodes
Extended Configuration
Discover HACMP-related Information from Configured Nodes
Extended Topology Configuration
Extended Resource Configuration
Extended Cluster Service Settings
Extended Event Configuration
Extended Performance Tuning Parameters Configuration
Security and Users Configuration
Snapshot Configuration
Export Definition File for Online Planning Worksheets
Extended Verification and Synchronization
HACMP Cluster Test Tool
添加网络:HACMP 的网络分为 Discovered network 和 Pre-defined network 两种,如果之前有收集 HACMP 的相关信息,可选 Discovered network;否则,选择 Pre-defined network。此处可以根据此集群采用的心跳方式选择相应的网络,包括 ether network、diskhb network 和 rs232 network。本例中我们采用 IP 别名方式做心跳。
smitty hacmp->Extended Configuration->Extended Topology Configuration->Configure HACMP Networks->Add a Network to the HACMP Cluster
我们采用 IP 网络做为心跳网络,在“IP Address Offset for Heartbeating over IP Aliases”处填写心跳起始地址。本例中每个节点有两个网口并且采用 IP 别名方式做心跳,所以心跳 IP 地址会采用 10.2.25.1,10.2.25.2,10.3.25.1,10.3.25.2 这四个 IP 地址。
Add an IP-Based Network to the HACMP Cluster
[Entry Fields]
* Network Name [net_ether_01]
* Network Type ether
* Netmask [255.255.0.0] +
* Enable IP Address Takeover via IP Aliases [Yes] +
IP Address Offset for Heartbeating over IP Aliases [10.2.25.1]
添加通信接口:
smitty hacmp->Extended Configuration->Extended Topology Configuration->Configure HACMP Communication Interfaces/Devices->Add Communication Interfaces/Devices->Add Discovered Communication Interface and Devices->Communication Interfaces->ALL
Select Point-to-Point Pair of Discovered Communication Devices to Add
Move cursor to desired item and press F7.
ONE OR MORE items can be selected.
Press Enter AFTER making all selections.
[MORE…4]
en0 ha1_bt1 192.168.25.23
# net_ether_01 / node1
en1 ha1_bt2 10.0.25.23
# net_ether_01 / node2
en0 ha2_bt1 192.168.25.24
en1 ha2_bt2 10.0.25.24
[BOTTOM]
选择四个网口 (boot ip) 做为通信接口,然后回车。
添加通信设备(用于串口心跳和磁盘心跳),如果采用 IP 网络做心跳可跳过此步骤:此步骤的样例是采用磁盘心跳的方式,如果采用串口心跳的话,选择串口设备即可。
smitty hacmp->Extended Configuration->Extended Topology Configuration->Configure HACMP Communication Interfaces/Devices->Add Communication Interfaces/Devices->Add Discovered Communication Interface and Devices->Communication Devices
Select Point-to-Point Pair of Discovered Communication Devices to Add
Move cursor to desired item and press F7.
ONE OR MORE items can be selected.
Press Enter AFTER making all selections.
# Node Device Pvid
node2 hdisk3 000d3adaf6804f40
node1 hdisk3 000d3adaf6804f40
node1 tmscsi0
node2 tmscsi0
node1 tmscsi1
选择 node1 和 node2 上的 hdisk3,然后回车即可。
添加应用服务器:在 Server Name 处输入应用的名称,在 Start Script 和 Stop Script 处输入应用的启动和停止脚本的路径。
smitty hacmp->Extended Configuration->Extended Resource Configuration->HACMP Extended Resources Configuration->Configure HACMP Applications Servers->Configure HACMP Application Servers->Add an Application Server
Add Application Server
[Entry Fields]
* Server Name [oracle]
* Start Script [/usr/sbin/start_oracl>
* Stop Script [/usr/sbin/stop_oracle]
Application Monitor Name(s) +
此应用服务的启动和停止脚本就是之前在做准备工作时创建的那两个脚本。
添加服务 IP:
smitty hacmp->Extended Configuration->Extended Resource Configuration->HACMP Extended Resources Configuration->Configure HACMP Service IP Labels/Addresses->Add a Service IP Label/Address->Configurable on Multiple Nodes
Add a Service IP Label/Address configurable on Multiple Nodes (extended)
[Entry Fields]
* IP Label/Address ha_svc1 +
* Network Name net_ether_01
Alternate Hardware Address to accompany IP Label/A []
ddress
首先选择此服务 IP 在哪个网络上,我们这里选择 net_ether_01 后,将会出现以上界面。在 IP Label/Address 处选择相应的服务 IP 的 Label。
添加资源组:
smitty hacmp->Extended Configuration->Extended Resource Configuration->HACMP Extended Resource Group Configuration->Add a Resource Group
Add a Resource Group (extended)
[Entry Fields]
* Resource Group Name [oracle_resg]
* Participating Nodes (Default Node Priority) [node1 node2] +
Startup Policy Online On Home Node O>+
Fallover Policy Fallover To Next Prio>+
Fallback Policy Fallback To Higher Pr>+
在 Resource Group Name 处输入资源组的名称,在 Participating Nodes (Default Node Priority) 处选择参与的节点。
更改资源组属性:将服务 IP、应用服务器和卷组都加入到此资源组中
smitty hacmp->Extended Configuration->Extended Resource Configuration->HACMP Extended Resource Group Configuration->Change/Show Resources and Attributes for a Resource Group
Change/Show All Resources and Attributes for a Resource Group
[TOP] [Entry Fields]
Resource Group Name oracle_resg
Participating Nodes (Default Node Priority) node1 node2
Startup Policy Online On Home Node O>
Fallover Policy Fallover To Next Prio>
Fallback Policy Fallback To Higher Pr>
Fallback Timer Policy (empty is immediate) [] +
Service IP Labels/Addresses [ha_svc1] +
Application Servers [oracle] +
Volume Groups [datavg ] +
Use forced varyon of volume groups, if necessary false +
[MORE...20]
选择刚刚创建的资源组后,将会出现以上界面。在 Service IP Labels/Addresses 处选择刚创建的服务 IP,在 Application Servers 处选择刚创建的应用服务,在 Volume Groups 处选择共享 VG。
验证配置并与集群中的其它节点进行同步:必须保证同步的结果是正确,如果有错误出现,请按照错误提示进行相应调试
smitty hacmp->Extended Configuration->Extended Verification and Synchronization
HACMP Verification and Synchronization
[Entry Fields]
* Verify, Synchronize or Both [Both] +
* Automatically correct errors found during [No] +
verification?
* Force synchronization if verification fails? [No] +
* Verify changes only? [No] +
* Logging [Standard] +
按照默认值即可,无须更改。
测试 HACMP 是否正常工作(可选):
smitty hacmp->Extended Configuration->HACMP Cluster Test Tool->Execute Automated Test Procedure
Execute Automated Test Procedure (extended)
[Entry Fields]
Verbose Logging [Yes] +
Cycle Log File [Yes] +
Abort On Error [No] +
按照默认值即可,无须更改。
启动 HACMP:启动 HACMP 可以选择是在两个节点同时启动 HACMP 服务或只有某一节点上启动 HACMP 服务。可将“Startup Cluster Information Daemon”的值设为 true,这样在启动 HACMP 服务的同时会启动集群信息进程。
smitty hacmp->System Management (C-SPOC)->Manage HACMP Services->Start Cluster Services
Start Cluster Services
[Entry Fields]
* Start now, on system restart or both now +
Start Cluster Services on these nodes [node1, node2] +
* Manage Resource Groups Automatically +
BROADCAST message at startup? true +
Startup Cluster Information Daemon? true +
Ignore verification errors? false +
Automatically correct errors found during Interactively +
cluster start?
在 Start Cluster Services on these nodes 处选择要在哪些节点上启动 HACMP Cluster。
查看 HACMP 状态:
smitty hacmp->System Management (C-SPOC)->Manage HACMP Services->Show Cluster Services
Manage HACMP Services
Move cursor to desired item and press Enter.
Start Cluster Services
Stop Cluster Services
Show Cluster Services
选择 Show Cluster Services,然后回车查看 HACMP 当前状态
停止 HACMP:
smitty hacmp->System Management (C-SPOC)->Manage HACMP Services->Stop Cluster Services
Stop Cluster Services
[Entry Fields]
* Stop now, on system restart or both now +
Stop Cluster Services on these nodes [node1,node2] +
BROADCAST cluster shutdown? true +
* Select an Action on Resource Groups Bring Resource Groups>+
在 Stop Cluster Services on these nodes 处选择要停止 HACMP 服务的节点。
安装后的任务以及常见问题
安装后的任务
修改 PATH 环境变量:将 /usr/es/sbin/cluster 和 /usr/es/sbin/cluster/utilities 加入 PATH 环境变量中,这样可以在命令行中使用 HACMP 自带的工具。
使用以下命令追踪 HACMP 实时运行状态:
# tail –f /tmp/hacmp.out
常用命令:clstat,clinfo,clRGinfo,cldisp
常见问题
如果采用磁盘心跳需将共享磁盘所在的卷组设为 concurrent 模式。
当集群中的一个节点重新加入集群时,所有的资源和服务不会自动切换,需在恢复的节点上手动启动 HACMP。
- ››SYSTEM用户删除后怎么重新创建和原来SYSTEM默认一...
- ››System Center 2012 - Unified Installer的系统要...
- ››System.Data.OleDb.OleDbException: Unspecified...
- ››服务器群集:Windows 2000 和 Windows Server 200...
- ››服务器维护经验谈 图解DHCP故障排除
- ››IBM WebSphere常见问题解答
- ››IBM WebSphere Studio V5相关认证资料
- ››IBM WebSphere应用服务器发展趋势
- ››IBM WebSphere Application Server诊断和调优(一...
- ››IBM WebSphere Application Server诊断和调优(二...
- ››IBM WebSphere Performance Pack服务器
- ››IBM WebSphere软件概述
更多精彩
赞助商链接