用 xCAT 和 TORQUE 进行动态服务器供应
2010-05-13 00:00:00 来源:WEB开发网本文将探讨如何使用 Extreme Cloud Administration Toolkit (xCAT) 和 Tera-scale Open-source Resource and QUEue Manager (TORQUE) 开源包构建一个动态供应的高性能计算(HPC)集群系统。xCAT 是针对动态供应计算、存储以及网络资源的一种领先解决方案。TORQUE 是一种工作负载和资源管理系统,可用于管理批量作业和计算节点并调度这些作业的执行。
常用缩略语
DHCP:动态主机配置协议(Dynamic Host Configuration Protocol)
DNS:域名系统(Domain Name System)
IP:互联网协议(Internet Protocol)
ISO:国际标准组织(International Standards Organization)
MAC:介质访问控制(Media access control)
NFS:网络文件系统(Network File System)
RPM:RPM 包管理器(之前的 Red Hat Package Manager)
TFTP:简单文件传输协议(Trivial File Transfer Protocol)
yum:Yellow dog Updater Modified
我们所构建的这个集群,其中的节点由 xCAT 供应,并且其上的批量作业由 TORQUE 管理和执行。在 xCAT 和 TORQUE 之上,我们构建了一个供应代理来使此集群成为自适应 的,即集群的计算节点按作业要求的执行环境动态供应。
自适应集群的架构
我们所构建的这个动态集群的架构如 图 1 所示,其中的 xCAT 集群包括了一个管理节点 和几个计算节点。计算节点是由运行在管理节点上的 xCAT 服务器供应的。管理节点还运行了 TORQUE 服务器和调度器守护程序,以及用 xCAT 管理计算节点所需的几个服务,包括 DNS、DHCP、TFTP 和 NFS。
若计算节点运行 TORQUE 服务器分派的作业,运行在每个计算节点上的 TORQUE 作业执行守护程序就会启动。供应代理检查工作负载和节点配置并决定为了提供作业所需的执行环境需要供应哪些节点。
更多精彩
赞助商链接