WEB开发网
开发学院数据库DB2 更智慧...: 向无结构世界添加结构 阅读

更智慧...: 向无结构世界添加结构

 2010-06-16 00:00:00 来源:WEB开发网   
核心提示:数据管理员从结构化信息中创造了大量的价值,现在的挑战在于,更智慧...: 向无结构世界添加结构,如何将数据从无结构世界中拉出并将其与内部数据存储库混合,以获取新视野,“我们现在能够使用原来在无结构世界中丢失的信息,将其与我们已经拥有的信息进行比较和对比,查找要分析的无结构数据没有问题:IBM 新兴技术的首席

数据管理员从结构化信息中创造了大量的价值。现在的挑战在于,如何将数据从无结构世界中拉出并将其与内部数据存储库混合,以获取新视野。查找要分析的无结构数据没有问题:IBM 新兴技术的首席技术官 David Boloker 估计,目前全世界每天要创造 15 PB 的数据,80% 都来自无结构源。

“该挑战最令人畏惧的部分不是收集无结构数据,而是从中获取价值”,Boloker 说,“以生产临床试验药物的制药公司为例。许多临床数据都是无结构的,病人记录都是手写的,然后再数据化。如果有一种方式可以快速将该数据提炼为更有结构的形式,则公司可以更加便捷地确认药物的好处,或者定位以其他方式可能会错失的一些微小问题。”

英国国家图书馆就面临着这样的挑战。面对归档所有出版物信息的任务,员工需要一种方法将网站和其他无结构源的大量数据转变为可用的资源。通过与 IBM 合作,图书馆成功地实现了名为 IBM BigSheets 的原型分析技术。

更智慧...: 向无结构世界添加结构

使用 IBM BigSheets 软件,用户能够访问大量数据归档,提交轻松搜索数据的查询,以组织化的方式(如电子表格)分析数据,并以其他类似的可视上下文格式进行探索。例如,用户可以在饼图中查看搜索结果,并在标签云中查看数据。“作为一名数据管理员,我的问题是‘如何让所有无结构数据变得对组织有用?’现在我知道答案了”,Boloker 说。

在底层,BigSheets 构建在 Apache Hadoop 开源框架之上,可以在计算群集上进行大型数据集合并行处理,它使用 Hadoop Distributed File System (HDFS) 对应用程序数据进行高流量访问。BigSheets 软件从各种源应用程序中收集信息,提取数据,使用标记注解,并充实它以进行显示。

BigSheets 已经可以支持英国国家图书馆从无结构数据中提取大量价值。但是 Boloker 期望该技术对科学、学术界和私人部门能产生广泛的影响。“业务云可以匹配给定 zip 代码中的无结构数据与内部销售数据,并查看引起向上和向下的趋势”,他解释道,“我们现在能够使用原来在无结构世界中丢失的信息,将其与我们已经拥有的信息进行比较和对比。这对于数据管理员及其客户而言真是一个新世界。”

Tags:智慧 结构 世界

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接