灵活有效的数据仓库解决方案:第1部分:客户互动和项目计划
2010-05-14 15:00:32 来源:WEB开发网理解数据环境
理解客户的数据环境是数据仓库项目中最重要的任务之一。它是下列工作的基础:
构造现实的项目建议和合同。
设计并实现数据采集。
设计数据仓库和数据集市。
设计数据验证和清理。
将该任务分配给有经验的数据仓库专业人士,他们理解业务分析、数据分析和建模。他们需要与客户的 IT 人员和终端用户进行合作。
为了识别将支持仓库数据模型和业务需求的数据源(业务内部和外部的),您需要记录所有的数据源。描述其位置、系统、访问方法、源数据流通和更新频率、数据安全性和数据质量。
数据质量是识别数据源中的重要问题之一。不仅要确定业务数据是否可用,而且还要确定所有数据源的数据质量是否足够支持业务需求。如果存在数据质量问题,您和您的客户就都需要尽快知道。
数据问题可能在客户的操作数据源中存在多年。在很多情形下,问题是在源数据的早期分析中或稍后在数据转换过程的设计和实现中发现的。请确保通知您的客户,以便他们可以准备处理计划。
检查数据质量并非是一项普通工作;它同时需要数据建模和商业领域的知识。最可能的是,您将需要一些终端用户参与该任务。在某些情况下,您可能无法访问敏感的业务数据。如果是这样,您应尽力获得一些随机的业务数据样品,并允许客户修改一些数据值,且不影响数据质量。
您需要尽可能多地知道项目有关数据的情况。下面是您需要详细回答的问题(不仅是在高层次上):
有多少数据源与项目相关,它们位于何处?
数据仓库是否直接访问数据源?支持何种类型的数据连接?
数据仓库是否需要客户企业网(intranet)外部的数据?如何可以访问哪些数据?
所有数据源中每天生成多少新数据?
数据仓库中数据更新的期望频率是多少?
是否有共享数据?如果有,哪一个是主数据源呢?
数据质量如何?如果可能,您应该检查所有可用的数据字段。
如果有丢失数据或脏(dirty)数据,您的客户是否可以在数据源中进行纠正呢?
客户是否可以保证将来已纠正数据字段的数据质量呢?如果不能,谁将负责进行数据清理?
如果无法在客户的数据源中纠正丢失的数据或脏数据,什么业务规则将用于纠正数据呢?
差异分析
在收集业务需求并研究业务和数据环境之后,您就可以执行差异分析了。差异分析将检查您所具有的信息,并确定需要哪些资源和工作来满足客户要求。差异分析的目的是:
理解客户的业务难题。
理解客户问题的主题领域。
向客户给予他们将需要提供的资源或支持的评估,以及为了根据客户需求交付解决方案您这一方所需要的开发工作的评估。
帮助指定用于项目的技术和工具。
差异分析十分重要,因为它是您数据仓库项目建议和设计的基础。
需求分析
取决于您用于多少时间和资源,您可以决定将需求分析放在业务级上进行。这意味着您将生成关于您理解客户业务难题、业务领域、报表定义和性能度量的完整报告。
使用需求分析技术,您可以构建初始的仓库数据模型,以表示您非正式所捕获的终端用户需求。需求分析产生信息分析员可以直接解释的模型的图表(schematic)表示。在需求分析的结果通过需求验证阶段之后,将成为数据仓库建模的主要输入。
识别业务难题
当您具有完整的项目业务需求集时,与项目相关的业务难题将很容易识别。您或许必须回到客户那里,并询问更多问题,以便发现和优先考虑他们所有的业务难题。在数据仓库项目中,您通常通过部门、需要回答的业务问题以及业务问题的紧急性来划分业务难题。在识别业务难题的过程中,您可以发现潜在的新项目,以觉察到所有的新机会。
识别业务主题领域
主题领域大致通过对业务感兴趣的主题进行划分。为了提取潜在的主题领域列表,您应该首先考虑客户的商业利益(例如:客户、利润、销售、组织或产品)。为了帮助确定主题领域,要考虑与商业利益相关的“何时、何处、谁、什么、为何以及如何”等问题。例如,对于“谁”问题的可能回答包括客户、雇员、经理、供应商、业务合作伙伴和竞争者。在识别所有候选主题领域列表之后,您可以更清晰地分解、重新排列、选择和重新定义它们,从而产生最能表示您客户组织的主题领域列表。确定主题领域的层次结构或其他分组以提供它们是什么以及如何相互关联的清晰定义。
一旦开发了主题领域列表,您就需要定义它们之间的业务关系。关系是确定维量数据仓库模型中可能使用的维数的良好起点,因为主题领域是关于您所感兴趣的业务的全貌。根据客户的业务难题优先考虑一些主题领域,并将项目建议基于这些优先权是十分重要的。
更多精彩
赞助商链接