为 InfoSphere Warehouse 提供实时数据的高效解决方案
2010-07-23 00:00:00 来源:WEB开发网支持广泛的数据源。DataStage 几乎支持所有的主流的数据库、企业级应用程序、文件作为数据源进行读取或写入数据。例如:DB2、Oracle、SQL Server、UniData、Informix、PeopleSoft、SAP、Siebel、顺序文件(如 CSV)、XML 文件等等。它也支持以多种常用的方式进行数据读取和写入,例如 FTP、SFTP、JMS 等等。
强大的并行处理能力,能够对数据通过分割、管道等方式进行处理,提高硬件的使用效率,从而提高作业的性能。
支持对数据进行批量和实时处理操作。
InfoSphere Replication Server 和 InfoSphere DataStage 的整合
DataStage 可以读取在不同数据库中数据,但是没有能力通过读取可恢复日志只捕获较上次更新的数据;另一方面,Replication Server 有能力捕获更新的数据却没有类似 DataStage 转换数据的功能,并且不像 DataStage, 支持对如此多的数据库,企业级应用程序和文件进行读写。所以本文将结合两者的优势,为 Warehouse 提供实时高效的数据,
整合原理
首先,利用 Replication Server 的 Event Publisher(EP),Q capture 从可恢复日志中捕获更新的数据,并且把数据变化写到 MQ 队列中;接着,MQ 消息通过 MQ 触发器触发了 DataStage 作业;最后,DataStage 的作业从 MQ 队列里直接读取数据进行处理。
EP 支持两种类型的 MQ 消息:XML 和 CSV,XML 格式有好的移植性和灵活性而 CSV 有很好的性能,在这里我们将以 CSV 作为样例。DataStage 可以通过使用 MQ Connector stage 读取队列中的消息,然后基于所选的消息格式来解析消息,最后完成必要的转换。
具体的架构图如图 4 所示:
图 4. 总体架构图
Tags:InfoSphere Warehouse 提供
编辑录入:爽爽 [复制链接] [打 印]更多精彩
赞助商链接