在 Linux 上利用数据分区功能提高可伸缩性和性能

　2008-09-17 16:31:30　来源：WEB开发网　　　

核心提示：本文首先考察了 DB2 UDB for Linux®、UNIX® 和 Windows® 中的 IBM DB2® Universal Database™ 数据分区功能（Data Partitioning Feature，DPF）在性能和可伸缩性方面的优点，在 Linux 上利用

本文首先考察了 DB2 UDB for Linux®、UNIX® 和 Windows® 中的 IBM DB2® Universal Database™ 数据分区功能（Data Partitioning Feature，DPF）在性能和可伸缩性方面的优点。然后，完成在 SUSE Linux Enterprise Server 上安装和配置具有 DPF 功能的 DB2 的步骤。您还将学习到一些重要的概念和设计方面的考虑，这些将帮助您快速掌握 SUSE Linux Enterprise 环境中 DPF 的安装。

简介

当一个数据库由两个或更多数据库分区组成，并且每个数据库分区存储位于其中的每个表的一部分表数据时，就属于数据库分区的情况。不同分区可以在不同计算机上，也可以在相同的计算机上（即逻辑分区）。在这种类型的数据库中，数据被根据存储位置进行散列，以标识哪个数据库分区将存储数据。一个数据库分区由它自己的数据、索引、配置文件和事务逻辑组成。在更旧版本的 DB2 中，数据库分区被称作节点（node）或数据库节点。但是在本文中我们使用术语分区（partition）。逻辑分区共享它们所在的同一台计算机上的资源。

在分区数据库中，一个表可以分布在一个或多个数据库分区中。分区背后的思想就是将一个表的数据分布在多个分区中，将该表中的一部分行存储在一个分区中，而将其他行存储在其他分区中。数据库管理器（DBM）通过自动地将 SQL 请求分解成子请求，来处理数据的检索和更新。然后，这些子请求就在相应的数据库分区中并行地执行。将表划分到多个分区的这种行为对于用户来说是透明的，这意味着虽然数据在物理上是存储在多个数据库分区上的，但是访问起来就像是在一个地方一样。

图 1 展示了运行在一台机器上的单个分区，这类似于没有使用 DPF：

图 1. 单个机器上的单个分区

在 Linux 上利用数据分区功能提高可伸缩性和性能

接下来的两个图展示了 DPF 真正起作用的情况。图 2 说明了 DPF 被用于三台机器上的情况，其中每台机器上有一个分区。

图 2. 每台机器上一个分区，使用高速通信

在 Linux 上利用数据分区功能提高可伸缩性和性能

注意这里使用的高速通信互连，这可以是各机器之间使用的一个 TCPIP 网络。接下来的图 3 展示了同一台机器上的三个分区。这里，分区间的通信是在内存中实现的，而不是通过一个网络（在所有 Linux 平台上，默认情况下 DB2 _FORCE_FCM_BP 是启用的）。

图 3. 同一台机器上的三个分区，通过内存进行通信

在 Linux 上利用数据分区功能提高可伸缩性和性能

特别要注意，在前面几个图中，对称多处理器（SMP）也可以换成单处理器。但是，在 DPF 环境中 SMP 服务器更为常见。

分区键由表中的一列或多列组成，用于使用户可以选择如何对他们的数据进行分区。用户可以通过使用数据库分区组和表空间，来确定将表数据分布到哪些数据库分区上。

用户交互通过一个数据库分区，即用于该用户的协调分区（coordinator partition）来进行。协调分区与应用程序运行在同一个数据库分区上，或者，对于远程应用程序，协调分区运行在应用程序所连接的那个数据库分区上。任何数据库分区都可以成为协调分区。

理解 DB2 Data Partitioning Feature (DPF)

要对一个数据库进行分区，需要 DB2 的 Database Partitioning Feature (DPF) 功能。这种可选的 Database Partition Feature 许可只对 DB2 Enterprise Server Edition (ESE) 可用，其费用按照分区数据库中所使用的 CPU 的数量来计算。

何时分区，为何分区

具有 DPF 功能的 DB2 UDB ESE 是管理 OLAP、数据仓库和数据挖掘工作负载的理想选择。对于大型 OLTP 工作负载，它也是很好的选择。最常见的分区环境由每个物理系统上的一个数据库分区组成，这些物理系统组成数据库分区集群。每个数据库分区上的数据库管理器使用每个系统上的处理器来管理数据库中属于该分区的那部分数据。

由于数据被划分在多个数据库分区上，因而可以使用多台计算机上的多个处理器的处理能力来满足对信息的请求。数据检索和更新请求被自动分解成一些子请求，然后这些子请求在相应的数据库分区中并行地执行。每多一个服务器，就意味着将有更多的 CPU、内存和更多的磁盘用于分区数据库。

性能的提升源于这样的事实：大量的数据被划分成更小的、更易管理的块，每个分区/系统可以同时运行。如果要处理提取、转换和载入操作（ETL），而批处理窗口又比较小，那么可以考虑使用 DPF。例如，DB2 LOAD 可以在每个分区上同时运行，负载操作可以并行地分摊到多个服务器上。创建索引的性能也将显著提升。而且，通过使用 DPF，可以显著缩短备份和恢复时间，因为每台参与分区的机器需要处理的数据量更小了。

在 SUSE Linux Enterprise Server V9 上安装 DB2 V8.2

下面我们来介绍在 SUSE Server（或多服务器）环境中安装和运行 DB2 DPF 所需的步骤。

步骤 1. 检验其他软件包

DB2 要求在 Linux 系统上安装以下包：

Public domain korn shell (pdksh)

Remote shell (rsh) 或 open source secure shell (OpenSSH)

IBM Java™ 2 Java Run Time

Network File Server (nfs)

使用 rpm 命令来检验这些包是否已安装：

rpm -qa | grep pdksh

rpm -qa | grep rsh 或 rpm -qa | grep openssh

rpm -qa | grep IBMjava

rpm -qa | grep nfs

步骤 2. 检验内核参数

在安装 Linux 之前，请确认目前所推荐的、适合 DB2 的 Linux 版本。链接 “http://www.ibm.com/software/data/db2/linux/validate/” 显示了受支持的 Linux 发行版。确保安装受推荐、受支持版本的 Linux。

在安装 DB2 时，需要注意一些内核参数：

表 1. 对 DB2 有影响的内核参数

内核参数	描述
kernel.shmmax	定义系统范围内允许的最大共享内存段大小，单位为字节
kernel.msgmni	定义在任何时刻系统上允许的最多消息队列标识符个数
fs.file-max	定义 Linux 内核最多分配的文件句柄个数
kernel.sem	定义信号量限制：每个数组的最多信号量个数（semmsl）系统范围内最多允许的信号量个数（semmns）每次 semop 调用的最大操作数（semopm）最多允许的数组个数（semmni） ** 信号量提供了进程间的低级同步，使得只有一个进程可以访问共享段，从而确保共享段的完整性。

在 Kernel 2.4.18 及以后版本中，file-max 参数的默认值是 8192，因此可能不需要修改它。可以使用以下命令来检查 file-max 值：

cat /proc/sys/fs/file-max

使用 lpcs 命令显示当前的 Linux 内核设置：

lpcs -l

从 DB2 UDB Version 8.2 以后，DB2 在启动时将检查 semmni、msgmni 和 shmmax 参数的值，如果当前值不是最佳的，则更新之。DB2 自动将内核参数设置如下：

semmni 被改为 1024。

msgmni 被改为 1024。

shmmax 被改为 268435456 (32-位) 或 1073741824 (64-位)。

注意，系统范围内最多信号量个数（semmns）等于：

数组的最多个数 (semmni) * 每个数组的最多信号量个数 (semmsl)

在安装 DB2 后，还可以通过 db2pd 命令检验 semni、msgmni、shmmax 参数：

db2pd -osinfo

在性能调优时，可能还需要调整其他内核参数。手册上的规程如下：

以具有 root 权限的用户登录。

创建一个 /etc/sysctl.conf 文件，如果还没有该文件的话。

在 /etc/sysctl.conf 文件中添加内核条目。

运行 sysctl -p 从默认文件 /etc/sysctl.conf 装载 sysctl 设置。

添加 sysctl -p 到一个系统初始化文件中，以便在每次重新启动时设置内核参数。

步骤 3. 检验网络

文件 /etc/hosts 包含指定给主机名的地址（包括一个 IP 地址、全限定主机名和主机名）。为了得到最佳性能，应确保所有参与的服务器在 /etc/hosts 文件中都有定义。

步骤 4. 启用远程 shell 实用程序

对于数据分区环境，DB2 需要一个远程 shell 实用程序来在远程分区上执行命令。在 DB2 UDB V8.2.2 之前，rsh 实用程序被默认用作远程 shell 机制，用于分区之间的通信。为了强认证和安全网络通信的需要，DB2 UDB V8.2.2 现在允许在一个名为 DB2RSHCMD 的注册表 profile 变量中指定远程 shell 实用程序的完整路径，从而增加了对备用远程 shell 实用程序的支持。

OpenSSH (Open Source Secure Shell) 用于代替 rsh 实用程序，以便在不安全的通道上提供有安全保障的通信。OpenSSH 支持两种类型的加密，即基于主机的认证和公钥认证。关于在 DB2 中使用 OpenSSH 的详细信息，请参考标题为 “配置 DB2 Universal Database for UNIX 以使用 OpenSSH” 的技术文章，这篇文章解释了如何在 DB2 中启用 OpenSSH。

为支持一个受安全保障的环境，在数据库分区环境中，应该使用 OpenSSH，而不是 rsh。如果选择启用 rsh 服务，那么只需去掉 /etc/inetd.conf 文件中与 in.rshd 服务对应的 "#" 字符。为了重新启动 inetd 服务器，可以输入：

/etc/init.d/inetd restart

步骤 5. 设置 Network File System (NFS)

对于一个数据分区配置，必须有一个可供所有参与分区数据库系统的机器使用的文件系统。这个文件系统将用于 DB2 实例的 home 目录。容纳 DB2 实例的机器称作 instance-owning 机器。为了共享该文件系统，必须配置 Network File System。对于 Linux，可以通过发出以下命令来检验 NFS 服务器是否正在运行：

showmount -e hostname

该命令显示在一个 NFS 服务器中定义的文件系统的一个列表。如果 NFS 不在运行，那么将收到以下消息：

showmount: hostname: RPC: Program not registered

可以通过选择 Misc 和 Installation Server 来使用 YaST 配置 NFS。注意，应该以 root ID 登录。

图 4. YaST Installation Server：选择服务器类型

在 Linux 上利用数据分区功能提高可伸缩性和性能

在 instance-owning 机器上设置 NFS 服务器

您需要导出 instance-owner 目录，该目录将被其他数据库分区服务器共享。

创建 instance-owner 目录，确保该目录被挂载。使用如下命令：

mkdir /db2home

mount /db2home

修改 /etc/fstab 中的文件系统表（fstab），使之包括新的文件系统，以便在启动时挂载新的文件系统。条目格式如下：

您的条目看上去可能类似于：

清单 1. 示例 instance-owning /etc/fstab 清单

/dev/had7 /db2home ext3 defaults 1 2

该条目使用一个 ext3 文件系统，这种文件系统在 2.4.16 版或更高版本的 Linux 内核中均受支持，文件系统检查（fsck）程序的顺序被设为 2。

设置好 instance-owning 文件系统后，通过在 /etc/exports 文件中添加以下条目，可以在启动时通过一个 NFS 服务导出这个文件系统：

清单 2. 示例 /etc/exports 清单

db2home InstanceOwnerServer (rw,sync,no_root_squash) db1(rw,sync,no_root_squash)

其中 InstanceOwnerServer 是 instance-owner 服务器的名称，db1 是另一个数据库服务器的名称。

表 2 中列出了导出文件选项：

表 2. 导出文件选项

选项	描述
rw	使用读写权限来导出文件系统
sync	服务器必须等文件被写入到磁盘后才能开始下一次读操作
no_root_squash	使 root 权限有效

执行 exportfs 命令，使将挂载的 NFS 客户机能使用 instance-owner 目录

/usr/sbin/exportfs -a

其中选项 a 用于导出 /etc/exports 文件中列出的所有目录。

设置参与机器上的 NFS 客户机

instance-owner 目录可用之后，便可以将该目录导入其他数据库分区服务器。

用以下命令在其他服务器中创建共享目录：

mkdir /db2home

添加一个条目到 /etc/fstab 文件，使 NFS 在启动时自动挂载文件系统：

清单 3. 参与机器的 /etc/fstab 示例

server1:/db2home /db2home nfs rw,timeo=300,retrans=5,hard,intr,bg,suid

其中 server1 是 instance-owner 服务器名称，下表列出了其他一些选项：

表 3. NFS 挂载选项

选项	描述
rw	使用读写权限来导出文件系统。
timeo	这个值的单位是十分之一秒，表示 RPC 超时后进行第一次重传之前所需等待的时间。默认值是7/10。
retrans	在重大操作被中止或者控制台上显示 “server not responding” 消息之前必须重传的次数。
hard	如果 NFS 文件操作超时较多，则在控制台上报告 “server not responding”，并一直重新尝试。这是默认情况。
intr	如果 NFS 文件操作超时较多，并且是硬（hard）挂载，那么允许由信号中断文件操作，使操作中断。
bg	如果第一次 NFS 挂载尝试超时，则在后台重试挂载。
suid	这个值允许 set-user-identifier 位 (SUID) 或 set group-identifier 位 (SGID) 生效。

用以下命令在其他数据库分区服务器上挂载导出的文件系统：

mount server1:/db2home /db2home

检验 NFS 锁监控程序

DB2 需要一个 NFS 锁监控程序来在集群中所有参与机器之间共享 instance-owner 目录。可以通过使用 chkconfig 命令来检验 NFS 锁监控程序是否已启用：

chkconfig nfslock

可以通过以下命令启用 NFS 锁监控程序和重新启动 nfslock：

chkconfig nfslock on

/etc/rc.d/nfslock restart

检验 NFS 锁和 NSM (Network Status Monitor) 服务

NSM 服务 rpc.statd 实现了一个重启通知服务，NFS 文件锁服务（rpc.lockd）将用到这个服务。可以使用以下命令检验这些服务的状态：

ps -ef | grep rpc.statd

ps -ef| grep rps.lockd

步骤 6. 创建所需的组和用户

在数据库分区环境中，需要为 DB2 创建三个组和用户 ID，如下表所示：

表 4. 所需的 DB2 组和用户

用户 ID	组 ID	描述
db2inst1	db2iadm1	DB2 实例用户 ID 和组 ID
db2fenc1	db2fadm1	DB2 fenced 用户 ID 和组 ID
dasusr1	dasadm1	DB2 Administration Server 用户 ID 和组 ID

在所有参与机器上的 DB2 instance owner ID 和密码应该是一致的，而且，它的 home 目录应该在 NFS 共享目录中。fenced ID 应该配置为与 DB2 instance owner ID 相同。DAS 用户 ID 和密码在所有参与机器上可以各不相同；但是，为了简化配置和维护，可能需要使 DAS 用户 ID 和密码一致。

例如，您可以用以下命令在所有机器上创建 DB2 组，创建 DB2 用户 ID 以及设置初始密码：

groupadd -g 999 db2iadm1

groupadd -g 998 db2fadm1

groupadd -g 997 dasadm1

useradd -u 1100 -g db2iadm1 -m -d /db2home/db2inst1 db2inst1 -p password1

useradd -u 1101 -g db2fadm1 -m -d /db2home/db22fenc1 db2fenc1 -p password2

useradd -u 1102 -g dasadm1 -m -d /home/dasadm1 dasusr1 -p password3

passwd db2inst1

passwd db2fenc1

passwd dasusr1

步骤 7. 在 instance-owning 机器和所有参与机器上安装 DB2 UDB

可以使用 db2_install 脚本通过 RPM 安装实用程序在 Linux 系统上安装所有的 DB2 ESE 包。您可以使用该脚本首先在 instance-owning 机器上安装 DB2，然后在参与机器上安装 DB2。

由于必须在每个参与机器上安装 DB2，所以最好将安装代码放在一个共享的盘（例如在我们这个例子中是 /db2home）上。也可以将您的设置记录到一个响应文件中，然后使用该文件来配置其他的机器。

首先，为了安装 DB2，必须以 root 用户登录：

输入 db2_install 命令启动 db2_install 脚本，该脚本存放在 CD-ROM 的根目录下。

当 db2_install 提示输入产品关键字时，输入 DB2.ESE。

步骤 8. instance-owning 机器的配置

这台机器将被视作 instance-owning 机器，因为它存储和共享 instance owner 的 home 目录。sqllib 目录正是位于这个目录中，此外在此目录中的还有 Database Manager Configuration 文件 (DBM CFG)、Instance Profile Registry、Node 目录和 System Database 目录。由于这些文件是共享的，所以对任何一个文件的更新在所有参与机器上都可以看到。为了配置 instance-owning 机器，需要执行以下步骤：

创建一个 DB2 实例

您应该使用 DB2 instance owner ID 登录到系统，然后在 /opt/IBM/db2/V8.2/instance 下执行 db2icrt 创建一个供所有机器共享的 DB2 实例：

cd /opt/IBM/db2/V8.1/instance

./db2icrt -u db2fenc1 db2inst1

其中 -u 指定 fenced ID。

需要注意的是，一个 DPF Instance 实际上存在于每个参与机器上，它们都使用相同的实例名、密码和共享 home 目录。当使用 DPF 时，被分区的是数据库，而不是实例。

启用 FCM

所有参与机器必须通过一个通信设施互连，例如一个高速 TCPIP 网络。Fast Communications Manager (FCM) 被设计用来处理数据库分区服务器之间的通信。为了启用 FCM，在所有参与机器上的 /etc/services 文件中必须预留一个端口范围。DB2 提供在 /etc/services 文件中已经被预留的一个默认的端口范围；默认情况下，DB2 会修改 /etc/services 文件，以便将端口 60000-60003 用于分区之间的通信，端口 50000 用于应用程序通信。DB2 在创建实例时会为此预留一些端口。每个逻辑分区需要一个端口，并且每台机器需要预留相同的端口。每个条目包含一个端口名和端口号。

除了基本的配置外，FCM 端口看上去应该如下所示：

清单 4. /etc/services 中的 FCM 端口

DB2c_db2inst1　　　　　　　 50000/tcp #Add FCM port information # DB2_db2inst1　　　　　 60000/tcp DB2_db2inst1_1　　　　 60001/tcp DB2_db2inst1_2　　　　 60002/tcp DB2_db2inst1_END　　　 60003/tcp

从清单 4 中可以看出，端口名是由实例名加上前缀 "DB2_" 得到的。最后一个端口名由实例名加上前缀 "DB2_" 和后缀 "_END" 得到。第一个端口名与最后一个端口名之间的端口名以 "_<序列号>" 为后缀。端口号后面必须跟上 "/tcp"。

更新 DB2 实例参数

使用 instance owner ID 登录到机器，并指定 DB2 将使用哪些协议。为了初始化协议，需要使用以下命令更新 DB2COMM profile 注册表变量：

db2set DB2COMM=TCPIP

此外，需要在数据库管理器（DBM）配置参数中更新服务名，以指示哪些端口名将用于与 DB2 服务器和远程客户机的通信。这可以通过使用以下命令来完成：

db2 update dbm cfg using SVCENAME db2c_db2inst1

创建 DB2 Administration Server (DAS)

如果要使用诸如 Configuration Assistant、Control Center、Replication Center 或 Development Centermust 之类的 GUI 工具，则必须让 DAS 处于运行状态。您可以作为 DAS 用户登录，然后使用以下命令创建一个 DAS 服务器：

cd /opt/IBM/db2/V8.1/instance

./dascrt -u dasusr1

其中选项 -u 指定 DAS 的用户 ID。

可以用 DAS 管理用户 ID 登录，并执行命令 db2admin start 来启动 DAS 服务器。若要自动启动 DAS 服务器，则需要使用 DAS 管理用户 ID 并执行以下命令：

cd /opt/IBM/db2/V8.1/instance

./dasauto -on

为了显示 autostart 状态，可以执行：

./dasauto ?

更新 db2nodes.cfg 文件

最后，需要更新 $HOME/sqllib/db2nodes.cfg 文件。db2nodes.cfg 文件包含配置信息，告诉 DB2 哪个服务器上的哪个分区参与了该实例。该文件有四列：

数据库分区号

服务器主机名

逻辑端口号

用于分区之间通信的网络接口（可选）

每个条目表示一个特定服务器上的一个数据库分区，该分区参与了该实例的数据库分区。例如，下面的 db2nodes.cfg 文件定义了四个数据分区。数据分区 0 和 1 在 server1 上，数据分区 2 和 3 在 server2 上。每个服务器有两个逻辑端口（每个逻辑分区对应一个），即端口 0 和 1。

清单 5. 示例 db2nodes.cfg

0　　 server1　　 0 1　　 server1　　 1 2　　 server2　　 0 3　　 server2　　 1

更新 .rhosts 文件以允许远程命令

为了允许执行远程命令，每个数据库分区必须有在所有其他参与服务器上执行远程命令的权限。因此，必须在 /db2home/db2inst1/.rhosts 文件中为每个服务器提供一个条目。.rhosts 文件应该有两列，分别为主机名和 instance owner ID。例如， .rhosts 文件中的下列条目表示参与一个实例的两个服务器。

清单 6. 示例 .rhosts

server1 db2inst1 server2 db2inst1

应该使用以下命令来确保只有 root 拥有读和写的访问权：

chmod 600 /db2home/db2inst1/.rhosts

步骤 9. 参与机器上的配置

为了配置参与机器，需要执行以下步骤：

启用 FCM

必须作为 root 用户登录到每台参与机器上，并将用于 FCM 定义的相同的端口名和端口号添加到 /etc/services 文件中。

创建 DB2 Administration Server

必须在所有参与机器上安装 DAS。关于详细信息，请参考在配置 instance-owning 机器时创建 DB2 Administration Server 的方法。

步骤 10. 检验

完成所有更新后，可能需要重新启动服务器，并在所有参与服务器上执行命令 db2_all date 来确保成功完成。

重要概念

下面是关于具有 DPF 功能的 DB2 的一些重要的概念，您应该清楚这些概念。

编目分区

DB2 编目是由数据库管理器维护的一组表和视图。这些表和视图包含元数据，也就是关于数据库和它的对象的信息，例如对表、视图和索引的描述和关于用户在这些对象上所拥有的权限的安全信息。

编目分区是存放数据库编目表的数据库分区。在分区数据库环境中，每个数据库可以在一个不同的数据库分区服务器上有它的编目分区。数据库的编目分区是在运行 CREATE DATABASE 命令的数据库分区服务器上自动创建的。

协调分区

用户与分区数据库的交互是通过一个数据库分区，即用于那个用户的协调分区创建的。协调分区与应用程序运行在同一个数据库分区上，或者，对于远程应用程序，协调分区运行在应用程序所连接的那个数据库分区上。任何数据库分区都可以用作协调节点，或者被变成协调节点。

协调分区之所以被这样称呼，是因为运行在它上面的、与应用程序通信的协调代理。您可以控制将哪个分区用作协调分区。例如，为了连接到分区 3，可以发出：

set client connect_dbpartitionnum 3

connect to SAMPLE

数据库分区组

数据库分区组是由一个或多个数据库分区组成的一个组。在为数据库创建表之前，首先创建用于存储表空间的数据库分区组，然后创建用于存储表的表空间。

可以在一个数据库中定义包含一个或多个数据库分区的有名称的子集。每个子集称作一个数据库分区组。每个包含不止一个数据库分区的子集称作多分区数据库分区组。多分区数据库分区组只能用属于相同实例的数据库分区来定义。一个数据库分区可以属于不止一个分区组。

例如，图 5 展示了一个由 5 个分区组成的数据库分区组：

图 5. 3 个示例数据库分区组

在 Linux 上利用数据分区功能提高可伸缩性和性能

在这种情况下，Database Partition Group 1 横跨除一个数据库分区外的所有数据库分区。它还包含一个名为 'Database Partition Group 2' 的单分区数据库分区组。另外，'Database Partition Group 3' 也与 Database Partition Group 1 共享了一个数据库分区。

可以用 CREATE DATABASE PARTITION GROUP 语句创建新的数据库分区，用 ALTER DATABASE PARTITION GROUP 语句修改数据库分区。

数据被划分到一个数据库分区组中的所有分区上，可以为数据库分区组添加一个或多个数据库分区，或者从中去掉数据库分区。属于数据库系统配置一部分的每个数据库分区都必须在一个名为 db2nodes.cfg 的分区配置文件中定义。一个数据库分区组最多可以包含为数据库系统定义的所有数据库分区。

当创建或修改一个数据库分区组时，就会有一个与之关联的分区映射。数据库管理器可以通过将分区映射与分区键和散列算法相结合，来确定数据库分区组中的哪些数据库分区将存储给定的数据行。在一个非分区数据库中，不需要分区键或分区映射。过一会儿我们将详细讨论这些概念。

一个数据库分区是数据库的一部分，其中具有用户数据、索引、配置文件和事务日志。有一些默认的数据库分区组是在数据库创建时被创建的：

IBMCATGROUP - 用于包含系统编目的表空间的默认数据库分区组。

IBMTEMPGROUP - 用于系统临时表空间的默认数据库分区组。

IBMDEFAULTGROUP - 用于包含用户表的表空间的默认数据库分区组。

用于已声明的临时表的用户临时表空间可以在 IBMDEFAULTGROUP 或任何用户创建的数据库分区组中创建，但不能在 IBMTEMPGROUP 中创建。

为了创建一个新的由 db2nodes.cfg 中所有分区组成的分区组，可以发出以下命令：

create database partition group ALLPART on all dbpartitionnums

如果您想创建一个新的分区组，且这个分区组只包含分区 1 和 2，可以发出如下命令：

create database partition group PART12 on dbpartitionnums (1,2)

分区兼容性

可对分区键的对应列的基本数据类型进行比较，并可将它们声明为是分区兼容的（partition compatible）。分区兼容的数据类型具有如下属性：具有相同值但有不同类型的两个变量会按相同的分区算法映射至同一个分区号。分区兼容性具有下列特征：

基本数据类型与另一个相同的基本数据类型兼容。

内部格式用于 DATE、TIME 和 TIMESTAMP 数据类型。它们彼此都不兼容，且都不与 CHAR 兼容。

分区兼容性不受带有 NOT NULL 或 FOR BIT DATA 定义的列的影响。

对兼容数据类型的 NULL 值的处理是完全相同的；对不兼容数据类型的 NULL 值的处理可能不相同。

用户定义的类型的基本数据类型用于分析分区兼容性。

对分区键中相同值的小数的处理是完全相同的，即使它们的标度和精度不同。

字符串中（CHAR、VARCHAR GRAPHIC 或 VARGRAPHIC）的尾部空格会被散列算法忽略。

BIGINT、SMALLINT 和 INTEGER 是兼容的数据类型。

REAL 和 FLOAT 是兼容的数据类型。

不同长度的 CHAR 和 VARCHAR 是兼容的数据类型。

GRAPHIC 和 VARGRAPHIC 是兼容的数据类型。

分区兼容性不适用于 LONG VARCHAR、LONG VARGRAPHIC、CLOB、DBCLOB 和 BLOB 数据类型，因为它们不能作为分区键。

并置

并置（collocation）是安置同一个数据库分区中包含相关数据的不同表中的行。并置的表使 DB2 可以更有效地使用连接策略。

您可能会发现，作为对特定查询的响应，两个或多个表频繁地提供数据。在此情况下，您会希望这样的表中的相关数据的位置尽可能地靠近。在数据库被物理地划分为两个或多个数据库分区的环境中，必须有一种方法可将划分的表的相关碎片尽可能地靠近。完成此过程的功能称为表并置。

当存取用于连接或子查询的多个表时，DB2(R) 通用数据库（DB2 UDB）能够识别要连接的数据是否位于相同数据库分区上。于是 DB2 就可以在存储数据的数据库分区上执行连接或子查询，而不必在数据库分区之间移动数据。这种局部地执行连接或子查询的能力具有显著的性能优点。

要发生并置，表必须：

在相同数据库分区组中，且这个数据库分区组不能处在再分配期间。（在再分配期间，数据库分区组中的表可能使用不同的分区映射 —— 它们不是并置的。）

有包含相同数量的列的分区键。

分区键的相应列是分区兼容的。

如果一个表在一个单分区数据库分区组中，且该分区组是在另一个表所在的同一个分区上定义的，那么也可以发生并置。

缓冲池

缓冲池是处理期间用于存放数据页和从中读取、修改数据页的一个内存区域。默认情况下，当创建一个缓冲池时，在每个分区上都会创建这样的缓冲池。为了容易管理，通常最好的做法是使每个分区上的缓冲池大小一致。但是，也可以改变特定分区上的缓冲池大小。例如，若要将分区 4 的 'BUF8K' 缓冲池改为 400MB，可以发出命令：

alter bufferpool BUF8K dbpartitionnum 4 size 51200

还可以通过指定一个数据库分区组来选择在哪几个分区上创建缓冲池，在此情况下，只有在数据库分区组中的那些分区上才会创建缓冲池。

表空间

表空间是存储数据库对象的容器集合的抽象。表空间在数据库与存储在数据库中的表之间提供了一个间接层。对于每个表空间，在存储设备上都有一个空间与之对应。一个表中的数据、索引、long 字段和 LOB 部分可以存储在相同的表空间中，也可以分别放到不同的表空间中，以提高性能。

数据库分区表达式

当定义一个横跨同一台机器上多个逻辑数据库分区的表空间的容器时，为了避免一个以上的逻辑分区具有相同的路径/设备名称，通常使用数据库分区表达式（Database Partition Expression）。通过使用数据库分区号作为容器名称的一部分，可以确保容器名称在各分区当中是惟一的。这可以作为手动地为每个分区指定位置的替代方法。

可以使用参数 " $N" ([blank]$N) 来表示一个数据库分区表达式，它可以用在容器名称的任何地方，而且可以指定多个数据库分区表达式。数据库分区表达式以一个空格字符结束；数据库分区表达式计算完毕后，空格后的内容附在容器名称的后面。如果容器名称中在数据库分区表达式后面没有空格字符，则认为剩下的字符串是表达式的一部分。

参数的使用只能以如下一种格式出现（在这个例子中，假设分区号是 5）：

表 5. 常见数据库分区表达式

语法	例子	值
[blank]$N	" $N"	5
[blank]$N+[number]	" $N+1011"	1016
[blank]$N%[number]	" $N%3" （% 是模块）	2
[blank]$N+[number]%[number]	" $N+12%13"	4
[blank]$N%[number]+[number]	" $N%3+20"	22

如果使用类似于上面的字符串，并且分区号仍然是 5，那么将看到：

表 6. 数据库分区表达式的使用

例子	容器名称
'/dbdir/node $N /cont1'	'/dbdir/node5/cont1'
'/ $N+1000 /file1'	'/1005/file1'
' $N%10 /container'	'5/container'
'/dir/ $N%5+2000 /dmscont'	'/dir/2000/dmscont'

如果在一个由两个分区组成的数据库上发出以下语句：

CREATE TABLESPACE TBSP1 MANAGED BY DATABASE USING (device '/dev/container $N' 10000)

那么将看到下列容器被创建：

/dev/container0 - on DATABASE PARTITION 0

/dev/container1 - on DATABASE PARTITION 1

分区键

分区键是用于确定特定一行数据存储在哪个分区的一个列（或一组列）。

分区键是在一个表上用 CREATE TABLE 语句定义的。如果没有提供分区键，则默认地从主键的第一个列创建分区键。如果没有主键，则默认的分区键是表上第一个非 long/非 LOB 型的列。如果没有列能满足作为默认分区键的条件，则表在创建后就没有分区键，也就意味着这个表不能横跨一个以上的分区。

在选择分区键时，应该注意以下几点：

表是如何被访问的。

查询工作负载的性质。

数据库系统所采用的连接策略。

如果不需要特别考虑并置，那么能使数据均匀地散布在数据库分区组中所有数据库分区上的分区键就是好的分区键。在与一个数据库分区组相关联的表空间中，每个表的分区键可以确定表是否是并置的。

不恰当的分区键可能导致数据分布不均匀。具有分布不均匀的数据的列和具有少量 distinct 值的列都不应该被选作分区键。distinct 值的数量必须多到足以确保数据行均匀地分布在数据库分区组中的所有数据库分区上。应用分区散列算法的代价与分区键的规模成比例。分区键不能多于 16 个列，列数越少导致的性能就越好。分区键中不应该包括不必要的列。

在定义分区键时，应考虑以下几点：

只包含 long 数据类型（LONG VARCHAR、 LONG VARGRAPHIC、BLOB、CLOB 或 DBCLOB）的多分区的表的创建是不受支持的。

分区键的定义不能修改。

分区键应该包括最频繁参与连接的列。

分区键应该由经常出现在 GROUP 子句中的列组成。

任何惟一键或主键都必须包含分区键中的所有列。

在在线事务处理（OLTP）环境中，分区键中的所有列出现在事务中时应该使用等号（=）加常量或主机变量。例如，假设在事务中经常用到雇员号 emp_no：

UPDATE emp_table SET ... WHERE emp_no = host-variable

在此情况下，EMP_NO 列可以作为 EMP_TABLE 的由单列组成的分区键。

散列分区是用于确定每一行在分区表中的位置的方法。该方法工作原理如下：

散列算法应用于分区键的值，产生 0 到 4095 之间的一个分区号。

当创建数据库分区组时，同时会创建分区映射。每个分区号按循环的方式顺序地填充分区映射。

分区号用作分区映射的索引。分区映射中的号码就是表所在的数据库分区的分区号。

分区映射

在分区数据库环境中，数据库管理器必须有方法知道表的哪些行存储在哪个数据库分区上，以便发现它需要的数据。数据库管理器使用一个称作分区映射的映射来发现数据。

分区映射是内部生成的数组，对于多分区的数据库分区组，这个数组包含 4,096 个条目，对于单分区的数据库分区组，这个数组只包含一个条目。

对于单分区的数据库分区组，分区映射只有一个条目，其中包含数据库表中所有的行所在的数据库分区的分区号。对于多分区数据库分区组，数据库分区组中的分区号是以循环的方式指定的。就像城市地图按网格分成一些区一样，数据库管理器使用分区键来确定数据所存储在的位置（数据库分区）。

例如，假设您在 5 个数据库分区（分区号为 0－4）上有一个数据库。那么，这个数据库的 IBMDEFAULTGROUP 数据库分区组的分区映射为：

0 1 2 3 4 0 1 2 3 4 0 1 2...

如果在使用数据库分区 1 和 2 的数据库中创建了一个数据库分区组，那么这个数据库分区组的分区映射为：

1 2 1 2 1 2 1 2...

如果数据库中所装载的表的分区键是 1 到 500,000 之间的整数，则分区键被散列到 0 到 4 095 之间的一个分区号。这个号码将用于作为分区映射的一个索引，以选择那一行所在的数据库分区。

分区映射是在分区数据库中控制数据存储位置的一种灵活的方式。另外还有一种再分配（redistribution）实用程序，通过它可以改变数据在数据库中的数据库分区上的分布（使之平衡或偏斜），不过这超出了本文的范围。

DB2NODE 环境变量

DB2NODE 环境变量用于指定想要连接到的目标逻辑分区。如果没有设置该变量，那么它将默认地等于用机器上的端口 0 定义的那个分区（在 db2nodes.cfg 文件中）。

如果要连接到逻辑分区 2，那么可以输入以下命令：

DB2NODE=2

export DB2NODE

db2 terminate

为了确保更改生效，必须用 terminate 命令。

为了识别当前活动逻辑节点，可以发出以下命令：

db2 "values (current dbpartitionnum)"

发出横跨多个机器和分区的命令

这两个工具使跨所有机器或所有分区执行命令变得容易。两个工具使用相同的一组有用的选项，这些选项可以在 DB2 Command Window 中通过 "rah ?" 或 "db2_all ?" 命令显示出来。

db2_all

db2_all 用于在所有指定的分区上运行命令。

db2_all ";db2 update db cfg for SAMPLE using NEWLOGPATH /db2_db/logs"

分号用于作为一个前缀，表明该命令将在各分区上并发地运行。

rah

rah 用于在组成分区环境的所有机器上运行一个命令。

数据库备份

当执行离线数据库备份时，需要单独备份编目分区。但是，在线备份时就不需要这样，因为日志是包括在备份镜像中的。例如，我们有一个名为 sample 的数据库和一个 /dev/backup 目录，从所有分区那里都可以访问这个目录。

首先需要备份位于分区 0 上的编目分区，这里只需指定 "<<+0<"" （在这个例子中）

db2_all '<<+0< db2 BACKUP DATABASE sample TO /dev/backup'

接着备份其他分区（除了分区 0），方法是指定 "<<-0<"：

db2_all '|<<-0< db2 BACKUP DATABASE sample TO /dev/backup'

注意，前缀 "|" 将导致依次运行 BACKUP 命令。现在，在 /dev/backup 目录中可以找到每个分区的备份镜像。

表中行的分布

DBPARTITIONNUM 函数可用于确定一个行所在的分区。例如，如果用在一个 SELECT 子句中，那么该函数将返回表中组成 SELECT 语句结果的每一行的分区号。

该函数的参数必须是一个表中某一列的全限定或非限定列名。结果的数据类型是 INTEGER，并且不会为 null。由于只返回行这一级的信息，所以不管指定表的哪一列，结果总是相同的。如果没有 db2nodes.cfg 文件，则结果为 0。

例如：

select lastname, dbpartitionnum(lastname) as part_num from employee order by 1

清单 7. 使用 dbpartitionnum 函数的结果集

LASTNAME　　　　PART_NUM --------------- ----------- ADAMSON　　　　　　　　　 0 BROWN　　　　　　　　　　 2 GEYER　　　　　　　　　　 1 GOUNOT　　　　　　　　　　1 HAAS　　　　　　　　　　　1 HENDERSON　　　　　　　　 0 JEFFERSON　　　　　　　　 1 JOHNSON　　　　　　　　　 1 JONES　　　　　　　　　　 3

节点和数据库目录

节点（node）目录包含在建立从客户机工作站到所有合适的数据库服务器的通信时所需的信息。

数据库（database）目录包含客户机所连接到的所有数据库的数据库访问信息。

设计上的考虑

DB2 Design Advisor 是获得有效的分区建议的最直接的工具，可以通过 Control Center GUI 或 db2advis 命令行工具来使用它。通过一个可更新的分区映射，结合一个散列算法，可以指定分区键与数据库分区的映射，这个映射可用于确定每个数据行的位置和检索。

于是，对于大型的表，工作负载可以分布在多个分区上，而更小的表也可以存储在一个或多个数据库分区上。由于每个数据库分区都有它的数据上的本地索引，因此提高了本地数据访问的性能。

DB2 还支持部分分块（de-clustering），在此情况下，表和表空间可以分布在可用分区的一个子集上。取决于数据库分区的数量，您可以有一个或多个单分区的数据库分区组，以及一个或多个多分区的数据库分区组。每个分区必须使用一个惟一的分区号，而同一个数据库分区可以属于一个或多个数据库分区组中。

为了确保包含系统编目表的分区能够快速恢复，应避免将用户表也放在那个数据库分区上。为此，可以将用户表放在不包括 IBMCATGROUP 数据库分区组中的数据库分区的数据库分区组中。

除非想要利用与更大的表的并置，否则应该将小型的表放在单分区的数据库分区组中。应避免使中等规模的表横跨太多的数据库分区。例如，对于一个 100 MB 的表，将它放在包含 16 个分区的数据库分区组上可能比将它放在包含 32 个分区的数据库分区组上得到的性能要好。

您可以使用数据库分区组来将在线事务处理（OLTP）表与决策支持（DSS）表隔离开来，以确保 OLTP 事务的性能不受负面影响。

在多分区数据库分区组中，如果索引是分区键的超集，那么只能创建一个惟一的索引。

在创建数据库时，应确保在用于数据库位置的 "ON" 子句中指定一个本地（非共享）目录。例如，

CREATE DATABASE SAMPLE ON /db2_db

其中 /db2_db is 是一个预先存在的本地目录。

在默认情况下，数据库管理器配置中的默认数据库路径（DBTDBPATH）参数是 instance owner（被 NFS 共享）的 home 目录的位置。如果在不指定数据库位置的情况下创建数据库，那么将使用 DBTDBPATH 创建数据库，这里 DBTDBPATH 指向共享的 instance-owner 目录。这样将降低性能。

创建数据库之后，应该确保每个数据分区还有它自己的日志本地目录。您可以使用以下命令：

db2_all ";db2 update db cfg for SAMPLE using NEWLOGPATH /db2_db/logs"

节点号被自动附加在路径的后面。这样做是为了维护多逻辑节点配置中路径的惟一性。

结束语

本文讲解了在 DB2 UDB 中使用 Data Partitioning Feature (DPF) 的理论基础，详细解释了 DPF 的安装过程和一些重要概念，并且谈到在 SUSE Linux Enterprise 环境中启用 DPF 时在设计上的一些考虑。更好地理解了 SUSE Linux 环境中的 DB2 DPF 之后，就可以很快地掌握如何在 SUSE Linux 环境中启用 DPF。