数据集成的挑战

　2009-04-17 10:26:34　来源：WEB开发网　闂傚倸鍊搁崐鎼佸磹妞嬪孩顐芥慨姗嗗厳缂傛氨鎲稿鍫罕闂備礁婀遍搹搴ㄥ窗閺嶎偆涓嶆い鏍仦閻撱儵鏌ｉ弴鐐测偓鍦偓姘炬嫹

闂傚倸鍊搁崐鎼佸磹妞嬪海鐭嗗〒姘ｅ亾妤犵偛顦甸弫鎾绘偐閹绘帞鈧參姊哄Ч鍥х仼闁诲繑鑹鹃悾鐑藉蓟閵夛妇鍘甸梺瑙勵問閸犳牠銆傛總鍛婄厱閹艰揪绱曟牎闂侀潧娲ょ€氫即鐛幒妤€绠ｆ繝闈涘暙娴滈箖鏌ｉ姀鈶跺湱澹曟繝姘厵闁绘劦鍓氶悘杈ㄤ繆閹绘帞澧涚紒缁樼洴瀹曞崬螖閸愬啠鍓濈换娑樼暆婵犱胶鏁栫紓浣介哺閹瑰洤鐣烽幒鎴僵闁瑰吀鐒﹂悗鎼佹⒒娴ｇ儤鍤€闁搞倖鐗犻獮蹇涙晸閿燂拷

濠电姷鏁告慨鐑藉极閸涘﹥鍙忔い鎾卞灩缁狀垶鏌涢幇闈涙灈鐎瑰憡绻冮妵鍕箻鐎靛摜鐣奸梺纭咁潐濞茬喎顫忕紒妯肩懝闁逞屽墮宀ｈ儻顦查悡銈夋煏閸繃鍋繛宸簻鎯熼梺瀹犳〃閼冲爼宕濋敃鈧—鍐Χ閸℃鐟愰梺鐓庡暱閻栧ジ宕烘繝鍥у嵆闁靛骏绱曢崢顏堟⒑閹肩偛鍔楅柡鍛⊕缁傛帟顦寸紒杈ㄥ笚濞煎繘鍩℃担閿嬵潟闂備浇妗ㄩ悞锕傚箲閸ヮ剙鏋侀柟鍓х帛閺呮悂鏌ㄩ悤鍌涘闂傚倸鍊搁崐鎼佸磹妞嬪孩顐芥慨姗嗗厳缂傛氨鎲稿鍫罕闂備礁婀遍搹搴ㄥ窗閺嶎偆涓嶆い鏍仦閻撱儵鏌ｉ弴鐐测偓鍦偓姘炬嫹　　闂傚倸鍊搁崐鎼佸磹閻戣姤鍤勯柤鍝ユ暩娴犳氨绱撻崒娆掑厡缂侇噮鍨堕妴鍐川閺夋垹鍘洪悗骞垮劚椤︻垶宕￠幎鑺ョ厪闊洦娲栨牎闂佽瀵掗崜鐔奉潖閾忓湱纾兼俊顖氭惈椤矂姊洪崷顓涙嫛闁稿妫濋幆鈧い蹇撴祩濡嫰姊洪崫鍕拱婵炲弶岣块幑銏犫攽婵犲嫮鏉搁梺鍝勬川婵兘鎮伴妷鈺傗拻濞达絽鎼敮璺侯熆閻熷府鏀荤紒鍌氱Т楗即宕煎锝呬壕闁哄啫鐗嗙粈鍐┿亜韫囧海顦﹀ù婊堢畺閺屻劌鈹戦崱娑扁偓妤€顭胯閸犳牠婀侀梺缁樕戦悷銉р偓姘煎枤缁粯銈ｉ崘鈺冨幈濡炪倖鍔戦崐鏇㈠几鎼淬劍鐓熼煫鍥ь儏閸旀粓鏌曢崶褍顏€殿喗娼欒灒闁告繂瀚濠碉紕鍋戦崐鎴﹀垂濞差亝鍋￠柍鍝勬噹缁犳牠鏌嶉埡浣告殲闁稿海鍠栭弻鏇㈠炊瑜嶇花濠氭煙閸戙倖瀚�

核心提示：在单一层面来看，数据集成问题在我们的现实场景中非常简单，数据集成的挑战，即从多种源获取数据，清理和转换数据，现在从全世界的企业来看，它们只有很少（如果有）的停机时间，然后将数据加载到适当的数据存储区中以用于分析和报告，遗憾的是

在单一层面来看，数据集成问题在我们的现实场景中非常简单，即从多种源获取数据，清理和转换数据，然后将数据加载到适当的数据存储区中以用于分析和报告。遗憾的是，对于一个典型的数据仓库或商业智能项目，企业需要在其数据集成阶段花费 60~80 ％的可用资源。为什么会如此艰难呢？

技术挑战

技术挑战首先来自于源系统。我们正在从收集交易（如客户承诺获取、购买或以其他方式获得东西）数据向收集预交易（如网页点击或通过 RFID 标记追踪客户意图的机制）数据转变。现在不仅可以通过传统的源和格式（如数据库和文本文件）获取数据，而且正日益可以以各种不同的格式（从专有文件到 Microsoft Office 文档以及基于 XML 的文件）和基于 Internet 的源（如 Web 服务和 RSS 流）获取数据。最具针对性的挑战是：

◆多种源与多种不同的格式。

◆结构化、半结构化和非结构化数据。

◆在不同时间从源系统获得的数据信息。

◆庞大的数据量。

在理想情况下，即使您能够设法以某种方式在一个位置获得所需的所有数据，也会面临新的挑战，包括：

◆数据质量。

◆不同数据格式的识别。

◆数据格式转换（转换为业务分析可用的格式）。

假设您能够通过某种方式获得所需的所有数据，并且可以清理、转换数据以及将数据映射成为一种有用的格式。即便如此，您仍然可以不使用传统的数据移动和集成方式。更确切的说，可以从一种固定的、长期的、面向成批数据的方式向不固定的、短期的、基于需求的方式转变。大多数组织在“停机时间”使用一种面向成批数据的处理方式，因为在这段时间内用户不会在系统上发出大量请求。这种方式通常会在夜间、使用一个预先定义的处理时长为 6~8 小时的批处理窗口来执行，因为此时办公室里应该没有任何人。但随着每种大小和类型的业务的日益全球化，实际的情况已并非如此。现在从全世界的企业来看，它们只有很少（如果有）的停机时间，而且无论何时总是有人会呆在办公室的某个地方。

1 2 3 下一页