数据集成的挑战
2009-04-17 10:26:34 来源:WEB开发网在单一层面来看,数据集成问题在我们的现实场景中非常简单,即从多种源获取数据,清理和转换数据,然后将数据加载到适当的数据存储区中以用于分析和报告。遗憾的是,对于一个典型的数据仓库或商业智能项目,企业需要在其数据集成阶段花费 60~80 %的可用资源。为什么会如此艰难呢?
技术挑战
技术挑战首先来自于源系统。我们正在从收集交易(如客户承诺获取、购买或以其他方式获得东西)数据向收集预交易(如网页点击或通过 RFID 标记追踪客户意图的机制)数据转变。现在不仅可以通过传统的源和格式(如数据库和文本文件)获取数据,而且正日益可以以各种不同的格式(从专有文件到 Microsoft Office 文档以及基于 XML 的文件)和基于 Internet 的源(如 Web 服务和 RSS 流)获取数据。最具针对性的挑战是:
◆多种源与多种不同的格式。
◆结构化、半结构化和非结构化数据。
◆在不同时间从源系统获得的数据信息。
◆庞大的数据量。
在理想情况下,即使您能够设法以某种方式在一个位置获得所需的所有数据,也会面临新的挑战,包括:
◆数据质量。
◆不同数据格式的识别。
◆数据格式转换(转换为业务分析可用的格式)。
假设您能够通过某种方式获得所需的所有数据,并且可以清理、转换数据以及将数据映射成为一种有用的格式。即便如此,您仍然可以不使用传统的数据移动和集成方式。更确切的说,可以从一种固定的、长期的、面向成批数据的方式向不固定的、短期的、基于需求的方式转变。大多数组织在“停机时间”使用一种面向成批数据的处理方式,因为在这段时间内用户不会在系统上发出大量请求。这种方式通常会在夜间、使用一个预先定义的处理时长为 6~8 小时的批处理窗口来执行,因为此时办公室里应该没有任何人。但随着每种大小和类型的业务的日益全球化,实际的情况已并非如此。现在从全世界的企业来看,它们只有很少(如果有)的停机时间,而且无论何时总是有人会呆在办公室的某个地方。
更多精彩
赞助商链接