为 InfoSphere Warehouse 提供实时数据的高效解决方案
2010-07-23 00:00:00 来源:WEB开发网核心提示:简介信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础,为 InfoSphere Warehouse 提供实时数据的高效解决方案,于是企业如何通过各种技术手段,并把数据转换为信息、知识,并实现汇总,装载(Load):加载经转换和汇总的数据到目标数据仓库中,已经成了提高其核心竞争力的主要瓶颈,而 ETL 则是一
简介
信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础,于是企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而 ETL 则是一个主要的技术手段。ETL(数据的提取、转换和加载)过程的设计和实现是数据仓库解决方案中极其重要的一部分。由于传统的 ETL 过程中数据抽取是需要加载所有源数据库中的数据,这样对于需要经常进行数据集中的案例,将带来无可忍受的低效率。例如一个有 50G 数据量的数据库, 如果只有 0.01%(也就是大约 50M)的数据较上次加载有更新,但是为了抽取这部分数据,仍然需要抽取所有 50G 的数据,这将是非常低效的。在这篇文章中,我们将介绍通过结合 InfoSphere Replication Server 和 InfoSphere DataStage, 实现数据仓库的实时更新,并且仅仅需要抽取更新了的数据。
ETL 过程简介
ETL 过程就是数据流动的过程,从不同的数据源流向不同的目标数据集中地。它是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗 , 最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中。它包涵三个阶段:E(Extract),T(Transform)和 L(Load)。
提取(Extract):从不同的数据库(DB2,oracle,flat file 等)中读取源数据。通过接口提取源数据,例如 ODBC、专用数据库接口和平面文件提取器,并参照元数据来决定数据的提取及其提取方式。
转换(Transform):开发者将提取的数据,按照业务需要转换为目标数据结构,并实现汇总。
装载(Load):加载经转换和汇总的数据到目标数据仓库中,可实现 SQL 或批量加载。
Tags:InfoSphere Warehouse 提供
编辑录入:爽爽 [复制链接] [打 印]更多精彩
赞助商链接