IBM DB2 Universal Database 的 ETL 解决方案
2008-12-10 16:33:45 来源:WEB开发网简介
在有效地使用数据资料库之前,通常需要从很多数据源创建或者更新资料库。最常见的情况是,在外部系统上累积数据(供以后更新资料库使用),这些数据的格式也与资料库的要求有所不同。获得这些数据并将其转化成有用、一致、准确的数据的过程通常称为 ETL,其中的三个字母分别代表提取(Extraction)、转换(Transformation)和加载(Load)。
提取就是从源系统中获取数据(无论是何种格式)。这个过程可能很简单,只需要从数据库或者电子表格转储文本文件(flat file);也可能很复杂,需要建立与外部系统的联系,然后控制数据到目标系统的传输。
转换通常不仅仅是数据格式的转换(虽然这是将数据导入系统的关键一步)。外部系统中的数据可能包含不一致或者不正确的信息,这取决于外部系统上实施的检查和平衡。转换步骤的一部分是"净化"或"拒绝"不符合条件的数据。这个阶段常用的技术包括字符检查(拒绝包含字符的数值性数据)和范围检查(拒绝超出可接受范围的数据)。被拒绝的记录通常存放在单独的文件中,然后使用更复杂的工具处理,或者手工改正问题。然后将这些数据合并到已转换集合中。
加载阶段将获取并转换的数据存放到新的数据存储中(数据仓库、数据集市等)。对于 DB2 UDB,该过程可以用 SQL 命令(IMPORT)、工具(LOAD)或集成工具(Data Warehouse Manager 和 Information Integrator)来完成。另外,整个 ETL 过程也可使用第三方应用程序来完成,这样做通常可以减少编程,或者不需要自己编程。
ETL 过程可能非常简单,只需要将一些数据从一个表传递到相同系统中的另一个表。也可能非常复杂,需要从数千英里之外的完全不同的系统获取数据,然后重新安排和重新格式化,使其符合完全不同的系统。下面将描述完整的 ETL 到 DB2 UDB 的方法(但不一定没有遗漏)。只要有可能,我会提供有关该方法的详细信息的链接。
- ››DB2 最佳实践: 使用 DB2 pureXML 管理 XML 数据的...
- ››DB2 9.5 SQL Procedure Developer 认证考试 735 准...
- ››DB2 9.5 SQL Procedure Developer 认证考试 735 准...
- ››DB2 9.5 SQL Procedure Developer 认证考试 735 准...
- ››DB2 基础: 表空间和缓冲池
- ››DB2 XML 编程,第 1 部分: 理解 XML 数据模型
- ››DB2 pureScale 实战
- ››IBM WebSphere常见问题解答
- ››IBM WebSphere Studio V5相关认证资料
- ››IBM WebSphere应用服务器发展趋势
- ››IBM WebSphere Application Server诊断和调优(一...
- ››IBM WebSphere Application Server诊断和调优(二...
更多精彩
赞助商链接