用 Big Data 挖掘新的业务洞察

　2010-07-27 00:00:00　来源：WEB开发网　　　

核心提示： 典型 Big Data 分析用例通常涉及同时查询多个数据集，数据集来自不同的源，用 Big Data 挖掘新的业务洞察(3)，通常是企业（内部）已有数据和从 web（外部）获得的数据的混合，一个内部信息的例子可能是数据中心的日志文件，另一个更针对业务分析师的方法是 IBM® BigShe

典型 Big Data 分析用例通常涉及同时查询多个数据集。数据集来自不同的源，通常是企业（内部）已有数据和从 web（外部）获得的数据的混合。一个内部信息的例子可能是数据中心的日志文件，外部信息可能是一些抓取的网站或从数据目录下载的数据集。

数据目录

数据目录实现了用户搜索数据集所必须的功能。除非您已经尝试过，否则您不会意识到寻找大型数据集是多么地困难，特别是适合您正在运行的特定分析场景的数据集。通常，用户被迫抓取 web 或者挖掘社会媒体网站来建立他们自己的大型数据集。如果您很容易就能找到并下载您所感兴趣的现存结构化数据集，将会节省许多时间。InfoChimps 这类公司提供一个目录，在其中您可以根据类型或通过检索找到特定数据集。另一个数据目录的示例是 Amazon Public Data SetsIt。

分析工具

如果您要只使用 Hadoop 来分析 HDFS 上存储的数据，那么通常需要开发人员的技术来使用 Java 语言和 Hadoop map/reduce API 编写作业。对于那些直接使用 API 的人员，您可以使用 Eclipse 中的 KarmaSphere这类工具来利用从特定于 Hadoop 的 IDE 获取的生产力。有一些替代方法支持联合使用其他语言与 Hadoop Streaming 和 Hadoop Pipes，但仍然需要开发人员的技术。这为创建复杂度较低的定义和运行 map/reduce 作业的方法提供了机会。

那些熟悉的 shell 脚本和 UNIX® Pipes 的人可以考虑查看 WuKong，它允许您使用 Ruby 和 shell 脚本构建和运行作业。Apache Pig 和 Hive是两个数据分析师感兴趣的技术，因为它们提供一个类似于 SQL 语句的查询界面，在其中用户可以使用高级语言表述如何构建和运行一个给定作业的分析。另一个更针对业务分析师的方法是 IBM® BigSheets，它提供一个基于浏览器的类似电子表格的可视呈现，用于定义、运行和可视化分析作业。