湘潭大学如何建构服务器群
2007-09-17 10:52:05 来源:WEB开发网湘潭大学是一所综合性全国重点大学,是全国首批具有硕士学位授予权的单位,教育部本科教学工作水平评估优秀学校。目前信工院、物理学院、土力学院、数学学院、化学学院都涉及到高性能计算机的应用。为了学校各个研究领域突飞猛进的发展科学研究,计划对高性能计算系统实施改造,以更加稳定高效的网络系统来协助各学院应用软件顺利高效的运行。该系统主要是由学校多个学院共同使用,应用于多个研究领域,涉及图像分析与处理、海量数据挖掘、材料设计、材料结构与性能分析、并行算法研究等。
在原有的基础之上设计、完善高性能计算系统是一件复杂的系统工程,涉及从软件到硬件的各个层面,而且每一个环节都相互关联。湘潭大学此次项目的重要负责人阐述到:希望采用目前最先进的系统架构及技术代替原有的技术,借以提高整个科研的发展速度和各种资源的完美整合。高性能计算系统是一个对于计算稳定性要求极高的系统,因此系统的建设不仅要体现出在各个节点机的稳定运行和网络系统的正常工作,还要具备非常完善的整合能力,能够及时发现和解决问题。由于三院共享这套高性能计算系统,用户的管理将非常重要。随着今后对数据精度和运算速度要求的不断提高,整个系统必然面临扩容的需求,那就需要这个系统必须具备很好的扩展能力并具备良好的向前兼容能力。
考虑到目前湘潭大学学院高性能计算系统的应用现状,湘潭大学最后决定采用基于机群架构的设计思想:高性能节点机的倾力打造与机柜子系统的搭建。该系统共采用68个节点,其中64个参与运算作为计算节点,其它四个节点分别承担I/O吞吐服务、用户登录服务、整个机群系统的管理、监控服务。在高性能计算领域里,计算节点是高性能计算系统中的单个计算机系统,它的计算能力是关系到整个系统性能的最主要因素,是整个高性能计算系统的基础,湘潭大学选择曙光公司2U机架式的服务器节点机——曙光天阔A620r-E作为计算节点。天阔A620r-E能稳定运行多种32位和64位主流操作系统,采用了基于Opteron 64位处理器的架构,配置两颗AMD Opteron 270处理器,在单处理器上显示了强大的解决问题的能力,在多处理器系统上体现了近乎线性的性能加速比。在湘潭大学的高性能计算系统的搭建中,各院系的应用对于节点机的结构有着很高的要求,同时要考虑到应用的粒度、应用的计算特性、应用时效性等方面的因素。尤其是物理系,要保证所使用的商业软件能正常运行,这就要求能够运行64位程序的同时向下兼容32位应用,同时对CUP的浮点运算能力要求较高,需具有很高的系统峰值。曙光天阔A620r-E作为计算节点搭建的机群系统,其理论峰值运算能力达到1024 Gflops,Linpack 效率可达70%,实际运算能力可达716.8 Gflops,很好的解决了湘潭大学一直以来服务器处理能力不足,计算规模小的问题。曙光天阔A620r-E具有处理速度快、可用性强、易管理、可伸缩和噪音低等方面的强大优势,全面提高了湘潭大学网络系统效能。
在系统搭建以及优化过程中,由于机柜子系统是整个系统的承载部件,机群的主要子系统都安装在机柜系统中,同时其还承担了整个系统的供电和监控功能,于是在实际考察后,系统配置了一个曙光TC4000L主机机柜,三个扩展机柜,用以安装所有设备和相应的联结系统。曙光4000L独有SKVM网络、管理网络技术,大大减少节点机之间的连线,提高了系统的稳定性和可靠性。而机柜中机群电源系统、主干交换机、内置控制台等设备均采用了精心设计的内部网络和电源布线,同时做到近插接,构造了整洁的机柜内部环境,极大地方便了用户设备调试和问题分析,满足了各院系的整体应用需求。
此外,考虑到高性能计算对于网络性能的较高需求,湘潭大学的高性能计算系统采用了Myrinet 高速的通信网络,从而实现了高速度、低延迟、点对点的通讯能力。此项设计在解决数学的实际应用中尤为突出,数学系主要使用该系统作为并行程序设计应用,对一些算法的设计和优化进行操作,为其他学院提供一些程序设计的支持,对系统的通讯与交换能力有很高的要求。同时,在网络搭建中还采用千兆的无阻塞、全互连的快速网络,用以实现I/O吞吐,并通过网卡邦定技术,增加带宽,做到资源的充分利用。在高性能计算环境的实现同时,由于三院共享这套高性能计算系统,用户的管理则显得非常重要,为了更好的方便用户使用,工程师又通过曙光4000L机群操作系统软件(DCOS)对湘潭大学进行了高性能计算系统的管理优化,曙光4000L机群管理软件大大提高了机器的使用率,减少了不必要的用户资源冲突,同时兼顾资源的共享和资源的合理应用。DCOS管理系统是一套多功能、易使用、可扩展的实用化机群管理工具,包含几个模块(DCMS、Mterm、DCIS、DCMM),完全符合SUMA标准,即具有可扩展性、可用性、可管理性和可靠性四个方面的特性。通过曙光的机群操作系统工具,可以实现对整个系统所有节点的全面整合,曙光的机群操作系统支持各种异构平台,在使用上更加方便。最后,本方案采用高可靠性、高可管理性、高性价比的全光纤磁盘阵列系统,保证了数据吞吐的高效性和可靠性,有助于满足用户的今天的各种存储需求,而且为满足未来存储需求的持续增长奠定了良好基础。
更多精彩
赞助商链接