浪潮刘军:深度计算5大挑战 探索生命的奥秘
2009-09-21 00:00:00 来源:WEB开发网生命的奥秘是无穷的,在探索生命的过程中,强大的高性能计算机(HPC)也是必不可少的。随着基于基因、蛋白质和DNA的微观生命科学研究越深入、应用面越广,计算机和信息技术的作用也越大,许多最大规模的超级计算机和集群系统都应用于这一领域。从亲子鉴定到药物筛选再到H1N1流感疫苗研制等等,都离不开生命科学和背后的超级计算机。
据统计,生命科学领域的数据量平均每12个月就增加一倍,比摩尔定律,即计算性能每18个月增长一倍,还要快很多,这些数据量动辄都以TB来衡量。要处理如此海量的数据,往往需要动用每秒10万亿次乃至百万亿次的超级计算机集群,以及几十TB、甚至上千TB的存储系统。
更具挑战性的是,和天气预报、石油勘探等只有几种软件不同,生命科学的计算软件非常多,以中科院北京基因组研究所为例,就拥有100多种软件,这些软件对于计算机系统的要求各不相同,有的属于计算密集型、有的需要大内存,有的则需要进行频繁的磁盘读写或网络IO通信。用户又不可能为每一种软件去定制一套集群系统,现实情况往往要求集群系统可以同时能够支持多种计算软件。
浪潮集团高性能事业部总经理刘军谈到,生命科学计算独特的应用需求决定了,在该领域用户在进行高性能计算集群方案选型与测试、系统扩展、海量数据存储管理、大规模系统和作业管理、应用优化等方面面临诸多挑战。
挑战1:应用繁杂多样 哪种系统最适用?
由于软件众多,应用不一,因此需要根据用户主流应用软件的特征进行量身定制高性能计算系统架构和配置,而不是简单地采用通用的集群系统。中科院北京基因组研究所胡松年博士谈到,选择高性能计算机其实比选基因测序仪要复杂得多。北京基因组研究所每月单纯的数据产量会超过1TB,目前还无法保存图像文件,海量数据存储一直是难题,而且是软件多达100多种,加上很多用户自编的程序,对存储、IO、内存、并行化等方面都有不同的要求。
更多精彩
赞助商链接