WEB开发网
开发学院数据库DB2 灵活有效的数据仓库解决方案,第3部分:设计并实现... 阅读

灵活有效的数据仓库解决方案,第3部分:设计并实现仓库ETL过程

 2010-05-14 15:00:27 来源:WEB开发网   
核心提示:数据集成数据集成是将多个数据源联合成一个统一数据接口来进行数据分析的过程,数据集成是仓库数据转换过程中最重要的步骤,灵活有效的数据仓库解决方案,第3部分:设计并实现仓库ETL过程(10),也是数据仓库设计中的关键概念,数据集成可能极其复杂,不管是成功还是失败,都将开始另一个步骤如果您安排一个过程,在该模块中,可以应用数

数据集成

数据集成是将多个数据源联合成一个统一数据接口来进行数据分析的过程。数据集成是仓库数据转换过程中最重要的步骤,也是数据仓库设计中的关键概念。

数据集成可能极其复杂。在该模块中,可以应用数据集成业务规则以及数据转换逻辑和算法。集成过程的源数据可以来自两个或更多数据源;它通常包含不同的连接操作。源数据还可能来自单个数据源;该类型的数据集成通常包含域值的合并和转换。集成结果通常生成新的数据实体或属性,易于终端用户进行访问和理解。

数据聚集

数据聚集是收集并以总结形式表达信息的过程。数据聚集通常是数据仓库需求的一部分,它通常是以业务报表的形式出现的。

在多维模型中,数据聚集路径是维度表设计中的重要部分。在数据存储库或数据仓库中,数据聚集的级别是逐个(case-by-case)确定的。因为数据仓库几乎仍然都是关系数据模型类型的,所以最好是建议您的客户从数据集市构建业务报表。但是,某些客户喜欢直接从数据仓库构建报表。本例中,将考虑在仓库数据模型中进行数据聚集。请确保数据聚集表与其余的仓库数据模式相对分隔,因此,报表的业务需求修改将不影响基本的数据仓库数据结构。

将数据装入仓库目标表

将数据移至中心数据仓库中的目标表通常是 ETL 过程的最后步骤。装入数据的最佳方法取决于所执行操作的类型以及需要装入多少数据。您可以通过两种基本方法在数据库表中插入和修改数据:

SQL insert/update/delete(IUD)

成批 load 实用程序

大多数应用程序使用 SQL IUD 操作,因为它们进行了日志记录并且是可恢复的。但是,成批加载操作易于使用,并且在装入大量数据时速度极快。使用哪种数据装入方法取决于业务环境;应在 ETL 设计文档中指定装入方法。

ETL 数据拒绝的处理

如何处理拒绝的业务数据是 ETL 设计中的重要问题。当业务数据违背下列条件时将遭到拒绝:

业务数据质量假设。

数据参照完整性。

ETL 过程中所实现的业务数据集成规则。

您应在数据仓库开发人员/管理员和终端用户都同意的地方存储遭拒绝的业务数据。被拒绝的业务数据中的问题的解决是数据仓库维护中的一部分;它通常是属于客户的职责。因为处理这类问题需要域知识和数据库技能,所以数据库管理员和终端用户都应该参与该工作。修复的业务数据最终将重新进入 ETL 周期,从而流入数据仓库。

ETL 过程和步骤的执行次序

执行次序是另一个重要的 ETL 设计问题。尽管从数据仓库服务器执行了越来越多的并行处理,但是并非所有的 ETL 过程都可以并发执行。有许多影响执行次序的因素:

实体依赖性:参照完整性的实施决定了表和对象的依赖性。例如,父实体表需要在子数据或关系表之前进行装入。

属性依赖性:属性依赖性通常意味着属性值是基于一个或多个属性的一个或多个值进行计算的。

ETL 逻辑模块:ETL 模块设计次序通常决定了 ETL 过程中 ETL 步骤的执行次序。在数据集成步骤之前,需要验证并清理数据是很易于理解的。

数据集成依赖性:数据集成业务规则通常包含对象和数据依赖性。

在仓库过程中,执行次序是在设计阶段使用 图 7 所示的仓库链接工具进行定义的。您可以定义仓库过程中步骤之间的捷径,以控制过程的执行次序。

运行仓库 ETL 步骤

您可以随需应变地运行步骤,或者按照下列方法来安排将运行的步骤:

在指定的时间

只有一次

重复地,例如每个星期五

依次,在一个步骤结束时,下一个步骤才开始运行

在完成时,不管是成功还是失败,都将开始另一个步骤

如果您安排一个过程,该过程中的第一个步骤就会在安排的时运行。

图 11. DB2 Warehouse Work in Progress 窗口

上一页  5 6 7 8 9 10 11 12 13 14  下一页

Tags:灵活 有效 数据

编辑录入:爽爽 [复制链接] [打 印]
赞助商链接