用 Big Data 挖掘新的业务洞察

　2010-07-27 00:00:00　来源：WEB开发网　　　

核心提示：市场动力最近几年中，web 和企业已经见证了数据膨胀，用 Big Data 挖掘新的业务洞察，这一现象有很多种原因，例如，棒球迷想要了解在过去 100 中每场比赛的细节（球员详情、比赛得分、比赛场地），如果要在同一时段为所有气象站联合数据集与共享位置值，便宜的 terabyte 量级的存储硬件的商品化，随着时间的推移已

市场动力

最近几年中，web 和企业已经见证了数据膨胀。这一现象有很多种原因，例如，便宜的 terabyte 量级的存储硬件的商品化，随着时间的推移已接近临界规模的企业数据，以及允许轻松进行信息供应和交换的标准。

从企业的角度来说，日益增长的信息已经很难存储在标准关系型数据库甚至数据仓库中。这些问题提到了一些在实践中已存在多年的难题。例如：怎样查询一个十亿行的表？怎样跨越数据中心所有服务器上的所有日志来运行一个查询？更为复杂的问题是，大量需要处理的数据是非结构化或者半结构化的，这就更难查询了。

当数据以这种数量存在时，一个处理局限是要花费很多的时间来移动数据，Apache Hadoop 的出现解决了这些问题，用其独一无二的方法将工作移到数据，而不是相反的移动。Hadoop 是一个集群技术，由两个独立但整合在一起的运行时组成：分布式文件系统（Hadoop Distributed File System，HDFS），提供数据冗余存储；map/reduce，允许并行运行用户提交的作业，处理存储在 HDFS 中的数据。尽管 Hadoop 并不是对每个场景都适合，但是它提供了良好的性能效益。使用 Hadoop 时，社区发现它不仅仅可用于数据处理，也打开了各种有趣的数据分析的大门。

借助 Hadoop，我们可以线性扩展运行在商品硬件上的集群来集成更大更丰富的数据集。这些数据集提供新的透视图，首先，在之前没有整合的异构数据源上运行分析，然后在同样的数据上有规模地运行分析。这个结构有点类似于范式转换（paradigm shift），正如 Flip Kromer（InfoChimps 创办人之一）所描述的：“web 从一个对每件事都了解一点的场所发展成为对一件事了解其全部的场所”。Kromer 继续以这个场景为例，有朝一日，棒球迷想要了解在过去 100 中每场比赛的细节（球员详情、比赛得分、比赛场地）。如果要在同一时段为所有气象站联合数据集与共享位置值，就可以预测一个 38 岁的投手在 90 度的高温的情况下、在 Wrigley Field 赛场的表现如何。

1 2 3 4 下一页