用 Big Data 挖掘新的业务洞察

　2010-07-27 00:00:00　来源：WEB开发网　　　

核心提示： 所有这些方法都利用扩展，通常称为用户自定义函数或宏，用 Big Data 挖掘新的业务洞察(4)，获取用户输入的数据并将一个测量结构注入其中（语义上的或明确的），使得信息能够以一种类似于传统分析方法的方式被处理和查询，想要循序渐进地了解数据分析，请试用 Apache Pig，分析工具和导出工具

所有这些方法都利用扩展，通常称为用户自定义函数或宏，获取用户输入的数据并将一个测量结构注入其中（语义上的或明确的），使得信息能够以一种类似于传统分析方法的方式被处理和查询。分析工具和导出工具就像是连体婴儿，在您进行数据分析时，后者实际上本身就可以做一些对数据分析有帮助的事。

导出工具

当您询问一个 Big Data 问题（您的分析）时，通常会得到一个 Big Data 答案（生成的数据集）。经常会出现这种情况：答案太大，以至于人类无法阅读和理解。如果这样的话，提供可视的结果将是一个解决方案。例如，一个标记能够过滤一大部分结果，使人们立即可以识别出某些区域的数据值。另一个方法是将数据以特定的格式输出，例如 SON、CSV、TSV 或 ATOM，使其可以为一个应用程序所使用。有趣的可视化比较常见，但是它们通常不能插入现有的 Hadoop 相关工具。这是一个新兴空间，关于这方面，在未来的几个月我们将能看到一些创新。

Apache Hadoop

Apache Hadoop 是生态系统的核心。这是所有数据驻留的地方。这个生态系统的惟一约束是 Big Data 喜欢处于静止状态这个事实。这个约束可能会给移动大量数据的计算操作带来严重的延迟，这就是为什么 map/reduce 如此高效的原因，因为它将工作移向数据。由于 Hadoop 可以横向和纵向扩展，因此它也是云中的一个可行选择，人们可以提供 Hadoop 集群、复制数据、运行作业、检索输出，以及在作业完成时解散集群。对于间歇运行的作业，这可以极大地节省购买和维护硬件的成本。

IBM 和 Apache Hadoop

IBM 对 Apache Hadoopis 的前景感到兴奋，并洞察到它可能是极其宝贵的。IBM 已经致力于 Hadoop 研究，有两个技术预览，可以在 Apache Hadoop 之上提供社区感兴趣的附加特性。

Apache Hadoop 的 IBM 发行版

Apache Hadoop 的 IBM 发行版绑定了 IBM Java 技术，并针对 IBM Java 和 IBM 平台进行测试。它包含一个基于 Web 的安装向导，使安装和配置 Hadoop 集群更为容易。这个向导使安装和运行 Hadoop 需要花费的时间大大减少，能够帮助那些在 Hadoop 之上构建解决方案和工具，以及直接使用 Hadoop、map/reduce 和 HDFS API 的开发人员。

BigSheets

对于分析感兴趣的非程序设计人员，InfoSphere BigInsights 是一个新的 IBM 产品组合，其中包含一个称为 BigSheets 的技术预览。BigSheets 提供一个引人注目的可视化界面来聚集、分析和探索数据。BigSheets 是一个功能相当齐全的工具，它在 Apache Hadoop 之上提供了易配置的加载、分析和导出工具。

结束语

我们已经看到了目前的海量数据，以及开源社区是如何使用 Apache Hadoop 项目来处理这些问题的。我们还检查了令人兴奋的使用 Big Data 挖掘新洞察的机遇，以及这个生态系统中在 Apache Hadoop 周围迅速崛起的一些开放源码和专有工具。

想要对 Hadoop 有一个更为详细的了解，不要错过 “使用 Linux 和 Hadoop 的分布式计算”并体验 WordCount 示例（相当于 map/reduce 的 Hello World），在 Apache Hadoop 项目 Wiki 中有详细的描述。

想要循序渐进地了解数据分析，请试用 Apache Pig，并逐一浏览项目 wiki 中的教程。

上一页 1 2 3 4