Linux的集群系统关键技术分析

　2008-11-26 10:58:40　来源：WEB开发网　　　

核心提示： 尽管进程迁移已经在实验环境中成功地实现了，但是它还没有被广泛地接受，Linux的集群系统关键技术分析(4)，一个原因是占主流的平台如MSDOS、 Microsoft Windows以及许多种类的UNIX操作系统都没有对进程迁移的支持，另一个原因是因为进程迁移开销可能比不迁移进程时的开销还要

尽管进程迁移已经在实验环境中成功地实现了，但是它还没有被广泛地接受。一个原因是占主流的平台如MSDOS、 Microsoft Windows以及许多种类的UNIX操作系统都没有对进程迁移的支持。另一个原因是因为进程迁移开销可能比不迁移进程时的开销还要大。但是当前，两种新的计算领域又促进了进程迁移的发展，一个是移动计算，另一个是广域计算。移动计算指的是那些便携式的小型计算机的计算问题。而广域计算是指广域网中的机器的计算问题。

进程迁移将一个正在执行的进程从一个节点迁移到通过网络连接的另一个节点上（也就是说，不使用本地共享内存机制）。进程所在的原始节点上的操作系统应该将进程的所有状态都包装起来，这样目的机就可以继续执行此进程。

要完成进程迁移需要迁移进程的状态，尤其是进程的地址空间，对其它进程的访问（如套接口、管道等），代码（可以组成地址空间的一部分）以及执行状态（寄存器、堆栈等）。除了这些，还需要将那些对原始的进程所有访问都重新链接到新的进程拷贝上，不然迁移就不是无缝的，就会导致错误。整个进程迁移操作必须是原子操作，这样才能避免进程的丢失或者是有两个拷贝。

为了进行进程迁移需要再进行以下的修改：

必须对文件系统进行一定的修改使每个机器看到相同的名字空间。

必须传送足够的状态从而确保正常的核心调用能够在远端机器上正常执行。

一些特殊的核心系统调用如gettimeofday 、getpgrp应该发回到原始节点执行。

下面通过一个异构进程迁移的例子来说明进程迁移的整个过程。图1-3说明了进程是如何在Tui进程迁移系统中从一个机器上迁移到另一个机器上的。

首先是对一个程序进行编译，针对Tui支持的四种体系结构，将程序分别编译四次。

程序在原始机上以普通方式执行。（如命令行方式）

当选定一个迁移的进程时，migrout程序首先为进程设置检查点，然后挂起进程，然后进行内存映像，接着扫描全局变量、堆栈和堆来定位所有的数据。再把所有的这些都转化为一种中介的格式传送给目标机。最后，杀死原始机器上的进程。

在目标机上，migrin程序取得中介值并创建新的进程，由于程序已经根据目标机的体系结构进行了编译，因此正文段的信息和数据报的类型信息都是可用的。然后通过重新创建全局变量、堆和堆栈，程序从检查点处继续执行。

经过统计，选择空闲主机并且开始一个新的进程需要0.1秒的时间，平均迁移时间是330毫秒。通过进程迁移可以将性能提高近5倍。

Linux的集群系统关键技术分析