WEB开发网
开发学院服务器云计算 云计算七问七答 阅读

云计算七问七答

 2009-04-01 00:00:00 来源:WEB开发网   
核心提示: 如果不想用GAE还有其它选择吗?有,Hadoop是Aapche基金会里一个基于Java的主要计划,云计算七问七答(4),基本上可视为开源版的GAE(很多关键技术是依据Google开放的学术论文来实现的,例如Map Reduce、分布式文件系统等),我倾向认为MapReduce与分布式文件系统是云

如果不想用GAE还有其它选择吗?

有,Hadoop是Aapche基金会里一个基于Java的主要计划,基本上可视为开源版的GAE(很多关键技术是依据Google开放的学术论文来实现的,例如Map Reduce、分布式文件系统等),目前最力挺的开发者是Yahoo,用于该公司的搜索引擎上,而Hadoop的创始者目前也在Yahoo上班(今年红利会不会很伤?:P),这里有一篇iThome的中文报道值得一看。

Hadoop主要由下列三者组成(其它详细说明请看官网):

Hadoop Core:主要就是实现MapReduce;

HDFS(Hadoop Distributed File System):参考GFS而来的分布式文件系统;

HBase:基于HDFS的分布式资料库(功能等同于Google Bigtable)。

Hadoop/GAE与EC2是互斥的吗?

不见得,要看比较的面向为何?但实际上它们是可能合作的,其中最著名的例子是纽约时报在EC2上用Hadoop转了4TB的PDF(这篇文章超级精彩不看可惜)。

故事大略是这样:

NYT有一大票1851-1922年间扫描的一千一百万份文章要从TIFF图档格式转换为PDF,由于数量实在太庞大,转换起来不但耗时甚久,也需要极大数量的机器,就算有钱如NYT也不想当凯子爷投资这么多啊~~~(而且因为转换时间太久,也不太可能跑去BestBuy刷它个几千台PC回来,然后速速转完就退回去;P)

最后NYT的工程师将所有档案传到S3放着,然后到EC2开了100个Instance,再装个Hadoop利用这100台电脑跑分布运算,结果是只花了24小时和大约3000美金就搞定(由于处理速度实在太快,他们实际上还跑了两次吶……)

这个例子也正好带出下一个主题。

EC2到底是不是云?

这要看你怎么定义云这个字,以我而言,我倾向认为MapReduce与分布式文件系统是云计算的主要特色,因此在这个定义之上,EC2并不符合首要条件。

上一页  1 2 3 4 5 6  下一页

Tags:计算

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接