结合使用 IBM InfoSphere Warehouse Design Studio 和 pureXML 数据,第 2 部分: 为涉及 XML 的多个 ETL 作业设计控制流
2010-06-24 00:00:00 来源:WEB开发网简介
结合使用 IBM InfoSphere Warehouse Design Studio 和 pureXML 数据,第 1 部分:创建用于填充混合型数据仓库的 ETL 数据流 解释了如何使用 InfoSphere Warehouse Design Studio 构建和执行数据流,使用 DB2 pureXML 操作型数据作为数据仓库中关系或 XML 结构的输入。本文是本系列的第二篇,解释如何构建一个调用多个数据流的控制流,以特定的次序提取、转换和装载 XML 数据。通过使用控制流,可以渐进方式开发、测试和执行需要特定执行次序的复杂操作。
本文描述的场景使用与本系列 结合使用 IBM InfoSphere Warehouse Design Studio 和 pureXML 数据,第 1 部分:创建用于填充混合型数据仓库的 ETL 数据流 相同的开发和运行时环境。这个场景基于 DB2 9.7 Enterprise Server Edition 和 IBM InfoSphere Warehouse Design Studio 9.7,它们可以安装在同一个 Windows® 系统上。
源表和 XML 操作型数据也与 结合使用 IBM InfoSphere Warehouse Design Studio 和 pureXML 数据,第 1 部分:创建用于填充混合型数据仓库的 ETL 数据流 中讨论的相同。操作型数据包括关于财务账户和投资组合的信息。这些数据取自开放源码 Transaction Processing over XML(TPoX)基准中用来填充客户账户记录的信息的子集。目标数据仓库也差不多完全相同,只是现在在数据库设计中包含一个引用完整性约束。
清单 1 定义修改后的数据仓库表。新的主键和外键约束是大写的。
清单 1. 目标数据仓库表的定义
-- DWADMIN.ACCT contains general information about accounts.
create table dwadmin.acct (
id int PRIMARY KEY NOT NULL,
title varchar(100),
currency char(3),
workingbalance int,
officer varchar(50),
datechanged date,
timechanged time,
totalholdings int,
holdingtypes int,
fullrecord xml
)
-- DWADMIN.HOLDINGS tracks specific investments (holdings) for a given account
create table dwadmin.holdings (
id int REFERENCES DWADMIN.ACCT ON DELETE CASCADE,
symbol varchar(10),
type varchar(25),
quantity decimal(12,3)
)
更多精彩
赞助商链接