数据架构师: 您要治理什么?
2010-09-16 00:00:00 来源:WEB开发网核心提示: 这是一个很不错的说词,但在加入您的事业之前,数据架构师: 您要治理什么?(2),我想看看 “蓝色巨人” 是如何吃 “垃圾食品” 的,Adler 问我是否了解 IBM 的产品目录,这是因为对于不同的业务线,相同术语的含义不同,我确实了解 &mdash
这是一个很不错的说词。但在加入您的事业之前,我想看看 “蓝色巨人” 是如何吃 “垃圾食品” 的。Adler 问我是否了解 IBM 的产品目录。我确实了解 — 毕竟我为 IBM 工作了 17 年。IBM 有大量信息,有多达 1.2 亿条记录。显然,这些记录中很大一部分包含错误的信息:错误、缺失和未及时发布的数据。在 255 个 IBM 产品公告中,只有 5 个完全没有错误。这真是让人震撼的统计数字。
为了找出数据质量问题的来源,团队在通向生产数据库的数据流中不同的位置上设置 “捕捉器”。捕捉器帮助团队发现在特定条件下可能发生的错误。找出问题的原因之后,团队就可以设计和实现基于过程和基于技术的解决方案,从而消除不准确的信息的来源。
不是我的问题(也许是?)
我想,只要消除可能导致数据质量问题的条件就行了,所以由您负责。我希望您成功。不需要围着我和 DBA 照管的数据库打转 — 它们很可靠。有多可靠?精确度至少有 99.9%。我谈论的数据库有多少数据记录?生产数据库可能有超过 10 亿条记录。是的,由于数据库规模如此之大,尽管错误率非常低,错误数量仍然相当大。好吧,您说的有道理。在数据库内部和周围放上一些捕捉器可能是好主意。
Adler 说,但是不要就此止步,因为数据质量问题不仅仅是数据记录不准确。有时候,急迫的问题是必须处理数据分类。例如,一个组织通过并购形成了更大的规模,最终通过多个业务线为更大型的企业客户提供服务。客户公司之一抱怨说,当他们通过不同业务线的代表向服务提供组织提出同一个问题时,却得到了不同的回答。这是因为对于不同的业务线,相同术语的含义不同。这是数据定义问题 — 数据治理要通过有效的主数据管理 (MDM) 消除此类问题。
更多精彩
赞助商链接