WEB开发网
开发学院数据库DB2 IBM DB2 Universal Database 的 ETL 解决方案 阅读

IBM DB2 Universal Database 的 ETL 解决方案

 2008-12-10 16:33:45 来源:WEB开发网   
核心提示:简介在有效地使用数据资料库之前,通常需要从很多数据源创建或者更新资料库,IBM DB2 Universal Database 的 ETL 解决方案,最常见的情况是,在外部系统上累积数据(供以后更新资料库使用),下面将描述完整的 ETL 到 DB2 UDB 的方法(但不一定没有遗漏),只要有可能,这些数据的格式也与资料库

简介

在有效地使用数据资料库之前,通常需要从很多数据源创建或者更新资料库。最常见的情况是,在外部系统上累积数据(供以后更新资料库使用),这些数据的格式也与资料库的要求有所不同。获得这些数据并将其转化成有用、一致、准确的数据的过程通常称为 ETL,其中的三个字母分别代表提取(Extraction)、转换(Transformation)和加载(Load)。

提取就是从源系统中获取数据(无论是何种格式)。这个过程可能很简单,只需要从数据库或者电子表格转储文本文件(flat file);也可能很复杂,需要建立与外部系统的联系,然后控制数据到目标系统的传输。

转换通常不仅仅是数据格式的转换(虽然这是将数据导入系统的关键一步)。外部系统中的数据可能包含不一致或者不正确的信息,这取决于外部系统上实施的检查和平衡。转换步骤的一部分是"净化"或"拒绝"不符合条件的数据。这个阶段常用的技术包括字符检查(拒绝包含字符的数值性数据)和范围检查(拒绝超出可接受范围的数据)。被拒绝的记录通常存放在单独的文件中,然后使用更复杂的工具处理,或者手工改正问题。然后将这些数据合并到已转换集合中。

加载阶段将获取并转换的数据存放到新的数据存储中(数据仓库、数据集市等)。对于 DB2 UDB,该过程可以用 SQL 命令(IMPORT)、工具(LOAD)或集成工具(Data Warehouse Manager 和 Information Integrator)来完成。另外,整个 ETL 过程也可使用第三方应用程序来完成,这样做通常可以减少编程,或者不需要自己编程。

ETL 过程可能非常简单,只需要将一些数据从一个表传递到相同系统中的另一个表。也可能非常复杂,需要从数千英里之外的完全不同的系统获取数据,然后重新安排和重新格式化,使其符合完全不同的系统。下面将描述完整的 ETL 到 DB2 UDB 的方法(但不一定没有遗漏)。只要有可能,我会提供有关该方法的详细信息的链接。

1 2 3 4 5 6  下一页

Tags:IBM DB Universal

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接