在Linux上利用数据分区功能提高可伸缩性和性能

　2009-12-23 15:00:13　来源：WEB开发网　　　

核心提示：特别要注意，在前面几个图中，在Linux上利用数据分区功能提高可伸缩性和性能(2)，对称多处理器（SMP）也可以换成单处理器，但是，可以显著缩短备份和恢复时间，因为每台参与分区的机器需要处理的数据量更小了，在 DPF 环境中 SMP 服务器更为常见，分区键由表中的一列或多列组成

特别要注意，在前面几个图中，对称多处理器（SMP）也可以换成单处理器。但是，在 DPF 环境中 SMP 服务器更为常见。

分区键由表中的一列或多列组成，用于使用户可以选择如何对他们的数据进行分区。用户可以通过使用数据库分区组和表空间，来确定将表数据分布到哪些数据库分区上。

用户交互通过一个数据库分区，即用于该用户的协调分区（coordinator partition）来进行。协调分区与应用程序运行在同一个数据库分区上，或者，对于远程应用程序，协调分区运行在应用程序所连接的那个数据库分区上。任何数据库分区都可以成为协调分区。

理解 DB2 Data Partitioning Feature (DPF)

要对一个数据库进行分区，需要 DB2 的 Database Partitioning Feature (DPF) 功能。这种可选的 Database Partition Feature 许可只对 DB2 Enterprise Server Edition (ESE) 可用，其费用按照分区数据库中所使用的 CPU 的数量来计算。

何时分区，为何分区

具有 DPF 功能的 DB2 UDB ESE 是管理 OLAP、数据仓库和数据挖掘工作负载的理想选择。对于大型 OLTP 工作负载，它也是很好的选择。最常见的分区环境由每个物理系统上的一个数据库分区组成，这些物理系统组成数据库分区集群。每个数据库分区上的数据库管理器使用每个系统上的处理器来管理数据库中属于该分区的那部分数据。

由于数据被划分在多个数据库分区上，因而可以使用多台计算机上的多个处理器的处理能力来满足对信息的请求。数据检索和更新请求被自动分解成一些子请求，然后这些子请求在相应的数据库分区中并行地执行。每多一个服务器，就意味着将有更多的 CPU、内存和更多的磁盘用于分区数据库。

性能的提升源于这样的事实：大量的数据被划分成更小的、更易管理的块，每个分区/系统可以同时运行。如果要处理提取、转换和载入操作（ETL），而批处理窗口又比较小，那么可以考虑使用 DPF。例如，DB2 LOAD 可以在每个分区上同时运行，负载操作可以并行地分摊到多个服务器上。创建索引的性能也将显著提升。而且，通过使用 DPF，可以显著缩短备份和恢复时间，因为每台参与分区的机器需要处理的数据量更小了。

在 SUSE Linux Enterprise Server V9 上安装 DB2 V8.2

下面我们来介绍在 SUSE Server（或多服务器）环境中安装和运行 DB2 DPF 所需的步骤。

步骤 1. 检验其他软件包

DB2 要求在 Linux 系统上安装以下包：

Public domain korn shell (pdksh)

Remote shell (rsh) 或 open source secure shell (OpenSSH)

IBM Java™ 2 Java Run Time

Network File Server (nfs)

使用 rpm 命令来检验这些包是否已安装：

rpm -qa | grep pdksh

rpm -qa | grep rsh 或 rpm -qa | grep openssh

rpm -qa | grep IBMjava