WEB开发网
开发学院软件开发Java 用 Big Data 挖掘新的业务洞察 阅读

用 Big Data 挖掘新的业务洞察

 2010-07-27 00:00:00 来源:WEB开发网   
核心提示: Big Data 生态系统需要指出的重要一点是:Big Data 空间仍然相对较新,要利用这些机会,用 Big Data 挖掘新的业务洞察(2),仍然有一些技术障碍,正如上面所提到的,网页内容对于任何您想要使用的分析工具都是可用的, 实时数据是另一个潜在的信息源,数据在 Hadoop 中以 &l

Big Data 生态系统

需要指出的重要一点是:Big Data 空间仍然相对较新,要利用这些机会,仍然有一些技术障碍。正如上面所提到的,数据在 Hadoop 中以 “作业” 形式处理,这些作业是使用一个名为 map/reduce 的范式、通过 Java™ 编程语言编写的。尽管开展了一些工作来促进 Hadoop 允许使用其他语言,但正确地理解如何分析业务问题,并将其分解成可以作为 map/reduce 作业运行的解决方案,仍然不是一个简单的过程。

要真正利用 Hadoop 周围的机会,就需要大量的支持技术来将 Hadoop 移出开发人员的视野,使其接近更广泛的观众。

图 1. Big Data 生态系统概述

用 Big Data 挖掘新的业务洞察

一个生态系统的出现提供了围绕 Hadoop 的工具和支持。每个组件同其他组件一起提供很多方法(如下所示)来实现大多数用户场景。

加载工具

为了使用 Hadoop 来分析您的数据,您必须将数据放在 HDFS 上。为了做到这一点,您需要加载工具。Hadoop 本身也提供将文件从文件系统复制到 HDFS 的功能,反之也可以。对于更复杂的场景,您可以利用像 Sqoop这类工具,这是一个 SQL-to-HDFS 数据库导入工具。另一种形式的加载工具是网络爬虫,例如 Apache Nutch,它抓取特定网站并将网页存储在 HDFS 上,这样,网页内容对于任何您想要使用的分析工具都是可用的。

实时数据是另一个潜在的信息源。您可以使用 Twitter4J 这类技术来连接 Twitter Streaming API 并直接将 tweets 以 JSON 格式持久存储在 HDFS 上。

上一页  1 2 3 4  下一页

Tags:Big Data 挖掘

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接