数据质量体系结构介绍
数据质量管理过程是一个没有终点的过程,也没有统一架构原则。这里提供的是一种针对数据仓库项目可以简单实现的、可扩展的、一种相对比较完善的捕捉数据质量事件,同时对其进行量度和控制的方法。
从上面我们可以看到,在这个药店,需要一些资金用于修改数据数据录入系统,为采购助理提供一些录入时的选择和上下文提示。公司的管理层也需要明确地强调采购助理工作的重要性,指明采购助理的工作是公司各个层面决策正确、有效性的基础。采购助理的辛勤工作应该受到来自管理层的公开的表彰,并进行奖励。从而达到实现团队的end-to-end互相了解和欣赏。
在执行层的支持和组织框架就需之后,就需要选用特定的技术方案。后面,我们将讨论如何选择、使用恰当的技术来支持数据质量目标。这些技术目标包括:
● 早期的诊断和治疗数据质量问题
● 明确对源系统的需求,集中力量提供更高质量的数据
● 明确地描述在抽取、转换和加载过程中遇到的数据的错误问题
● 提供捕捉数据质量问题的框架
● 提供精确的度量数据质量的框架
● 为最终的数据提供质量信心度量
2. 数据质量探查的角色
数据质量探查是一种描述数据上下文、一致性、数据结构的分析技术。某种意义上说,当使用SELECT DISTINCT对某些字段数据查询时,就在完成一个数据质量探查的工作。现在,已经有很多功能强大的工具可以帮助完成数据质量探查的工作。一般来说这些工具已经提供了非常方便的接口来帮助用户了解数据和数据间的关系。在数据仓库项目中,数据质量探查可以同时在战略和战术的的层面上扮演重要角色。在DW项目开始时,一个数据源确定之后,就需要首先对它进行一次快速的数据质量探查过程来评估数据质量,为是否才用其作为有效的数据源作为策依据。理想的情况下,这种战略性的评估应该在1,2天内完成。早期的了解数据、揭示数据的问题是一个负责任的步骤。几个月后才进行这项工作,对项目的目标有可能会是致命的。
从战略的角度决定将这个数据源纳入到项目中后,还需要有一个详细的战术性的数据质量探查来尽可能揭示更多的数据问题。在这个阶段揭示的问题最终需要呈现在详细的规格说明中来处理,处理的方式包括:1) 将这些数据反馈给源系统,提请修正这些问题;或2) 将这些问题数据的处理融合到ETL过程中。我们相信绝大多数的数据问题都可以在这两个过程中揭示出来,并得到解决。
3. 质量Screen
质量Screen是数据仓库ETL架构的心脏,在数据流图中它担负着数据质量医生的作用。质量Screen简化了在ETL或数据迁移过程中测试工作实践。如果测试通过,一般不需要记录任何事情;但是如果测试失败,Screen必须要完成:
● 将错误事件记录到错误事件主题中,并
● 选择中止处理过程,将用于恢复的数据放到的临时存储中或者仅仅标记错误的数据
所有的质量Screen在架构上是相似的,参照Jack Olson的分类方式,分为三个简单类型:列Screen、结构Screen和业务规则Screen。
列Screen用于测试单一列中的数据。列Screen过程通常比较简单,进行一些比较明显的测试,如:某个列包含不希望的NULL,列值超过了定义的列的精度,或列值不满足格式的要求。
结构Screens测试跨列的数据间关系。例如:列间的层次关系、一对多的关系。结构Screens包括测试两个表域间的主外键关系, 也包括对邮政地址的整个数据块的测试。
业务规则Screens实现更加复杂的、不适合列和结构Screens的测试。例如:客户的Profile可以进行依赖时间的业务规则进行测试。如:白金卡的常旅客要求至少5年,并每年至少2万公里的飞行距离。业务规则测试也可以进行聚合规则的阕值的测试等。

