灵活有效的数据仓库解决方案,第3部分:设计并实现仓库ETL过程
2010-05-14 15:00:27 来源:WEB开发网您可以组合这些方法来运行一个过程中的步骤。您可以安排第一个步骤在指定的日期和时间运行。当该步骤处于生产模式时,这些时间表和级联(cascade)就是活动的。在安排好第一个步骤之后,您可以指定另一步骤在第一个步骤运行之后开始,并指定第三个步骤在第二个步骤运行之后开始,等等。
您可以安排过程和步骤,并指定一个过程在另一个过程运行之后开始。您必须小心地将步骤组合成有意义的过程,以便可以正确地调度和指定过程的任务流。通过 Scheduler 记事本的 Process Task Flow 页面,您可以基于一个过程的完成来启动另一个过程。
Work in Progress 窗口允许您监控 Data Warehouse Center 中所有运行或计划运行的步骤和过程的进度。Work in Progress 窗口为正在运行的步骤或过程显示了一个条目,其中包含 Populating 状态。如果处理失败,可以使用 Show Log 动作找到问题所在。
管理 ETL 元数据
元数据管理对于 ETL 的有效开发和操作至关重要。ETL 元数据包括 ETL 过程设计、ETL 过程执行历史、被拒绝的数据过程记录、调度信息、数据增长和存储管理记录,以及用户数据访问记录中所涉及的所有东西。
您可以导出 Data Warehouse Center 中所存储的元数据,并且还可以从另一元数据源导入元数据。
导出元数据
您可以使用 Data Warehouse Center 导出功能来导出主题、过程、源、目标和用户定义的程序定义。在导出对象时,所有的隶属对象在默认情况下都将导出到标记语言文件或 XML 文件中。您可以导出下列类型的元数据:
标记语言(XML 格式)
公共仓库元模型(Common Warehouse Meta-model)元数据
DB2 OLAP Integration Server 元数据(仅在 Windows 上)
默认情况下,导出包括所选择的对象和所有选择对象引用的对象。例如,如果您选择导出一个过程,那么就包括了步骤所使用的源和目标、隶属的步骤和隶属的过程。
在将元数据导出到标记语言时,您可以通过取消 Export dependent source properties 选项,在导出中排除源定义。如果这样做,则必须在导入该标记文件之前在目标系统中定义源,以避免错误。
您可以限制导出对象的数目,减小标记文件的大小。默认情况下,导出操作包含具有数据依赖性的步骤。例如,考虑下列场景:过程 P1 包含用于填充 T1 的步骤 S1,而过程 P2 包含步骤 S2,而 S2 包含作为源的 T1,因此可以建立下列依赖性:S1 –> T1 –> S2 –> T3。如果您仅导出过程 P2,那么 P1 也将导出到标记文件中,因为 S2 依赖于 S1 的数据。数据依赖性反向也成立。因此,即使您仅导出 P2,P1 也会包含在标记文件中。分开导出 P1 和 P2 不会有什么帮助,因此最佳方法就是将其一起导出。当将元数据导出到标记文件时,您可以启用选项 Do not export dependent steps from unselected process 来排除相依赖的步骤。
除了数据依赖性,您还必须考虑级联(cascading)。可以考虑过程 P5 中的一个步骤,它包含到过程 P6 中某一个步骤的捷径。如果导出 P5,那么 P6 也会被导出。本例中,导出通过捷径级联向下转到下一步骤。默认情况下,导出操作包括级联操作和过程,无论在导出到标记文件时是否提供一个机会,使之不包括级联步骤和过程。
图 12. 仓库元数据导出
更多精彩
赞助商链接