用 Big Data 挖掘新的业务洞察
2010-07-27 00:00:00 来源:WEB开发网核心提示: Big Data 生态系统需要指出的重要一点是:Big Data 空间仍然相对较新,要利用这些机会,用 Big Data 挖掘新的业务洞察(2),仍然有一些技术障碍,正如上面所提到的,网页内容对于任何您想要使用的分析工具都是可用的, 实时数据是另一个潜在的信息源,数据在 Hadoop 中以 &l
Big Data 生态系统
需要指出的重要一点是:Big Data 空间仍然相对较新,要利用这些机会,仍然有一些技术障碍。正如上面所提到的,数据在 Hadoop 中以 “作业” 形式处理,这些作业是使用一个名为 map/reduce 的范式、通过 Java™ 编程语言编写的。尽管开展了一些工作来促进 Hadoop 允许使用其他语言,但正确地理解如何分析业务问题,并将其分解成可以作为 map/reduce 作业运行的解决方案,仍然不是一个简单的过程。
要真正利用 Hadoop 周围的机会,就需要大量的支持技术来将 Hadoop 移出开发人员的视野,使其接近更广泛的观众。
图 1. Big Data 生态系统概述
一个生态系统的出现提供了围绕 Hadoop 的工具和支持。每个组件同其他组件一起提供很多方法(如下所示)来实现大多数用户场景。
加载工具
为了使用 Hadoop 来分析您的数据,您必须将数据放在 HDFS 上。为了做到这一点,您需要加载工具。Hadoop 本身也提供将文件从文件系统复制到 HDFS 的功能,反之也可以。对于更复杂的场景,您可以利用像 Sqoop这类工具,这是一个 SQL-to-HDFS 数据库导入工具。另一种形式的加载工具是网络爬虫,例如 Apache Nutch,它抓取特定网站并将网页存储在 HDFS 上,这样,网页内容对于任何您想要使用的分析工具都是可用的。
实时数据是另一个潜在的信息源。您可以使用 Twitter4J 这类技术来连接 Twitter Streaming API 并直接将 tweets 以 JSON 格式持久存储在 HDFS 上。
- ››DataGrid中CheckBox绑定bool属性来进行选中判断
- ››data/data/目录下的私有数据
- ››挖掘网站长尾关键词的几个方法
- ››Data Web Services:访问IBM数据库服务器的新方式...
- ››datagridview checkbox控件
- ››DataGridView表尾统计控件3
- ››DataReader与DataSet的区别
- ››挖掘Windows Vista强大的网络功能
- ››data/tmp等文件夹777检测属性不通过的解决方法
- ››挖掘Windows Server 2008网络功能 让上网更高效
- ››DataSet导出到Excel比较完整的解决方案(一)--客...
- ››DataSet导出到Excel比较完整的解决方案(二)--服...
更多精彩
赞助商链接