[ 登录 ][ 注册 ] 天极传媒: 比特网 | 天极网 | IT专家网 | IT商网 | 52PK游戏网 | 手机天极 | IT分众 |

数据仓库及其体系结构建设

作者: 徐海深;张献华,  出处:国土资源部信息中心, 责任编辑: 李书琴, 
2007-10-26 10:56
  本文从数据仓库的概念,数据仓库的产生,数据仓库的概念模型与功能,数据仓库的相关技术四个方面对数据仓库及其体系结构建设做了全面介绍。

  1 数据仓库的概念

  数据仓库( Data Warehousing )的概念最早出现于 20 世纪 80 年代。而直到 1993 年,号称“数据仓库之父”的 William H . Inmon 在其论著《Building the Data warehouse》一书中,首次系统地阐述了数据仓库的思想和相关理论,为数据仓库的发展奠定了基石。他将数据仓库定义为:“一个面向主题的、集成的、反映历史变化的、相对稳定的数据集合,用于支持管理决策”。与传统的事物处理系统有不同的是,数据仓库是一种过程,它是对分布在组织或企业内部各处的业务数据进行整合、加工和分析的过程。而不是一种可以购买的产品。

  1.1 面向主题( Subject-oriented )

  “主题”是一个较为抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面。从信息管理的角度看,主题是在一个较高的管理层次上对数据进行综合、归类所形成的分析对象;从数据组织的角度看,主题就是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据本身,还涉及到数据之间的关系。

  “面向主题”则表明了数据仓库中数据组织的基本原则,是指数据仓库内的信息是按主题进行组织的,而不像传统事物处理系统那样单一地按照业务功能及性能要求进行组织。

  1.2 集成( Integrated )

  “集成”是指数据仓库中的信息并不是对各个数据源简单的选择、抽取,而是首先进行一系列的加工、整理和转换等来消除源数据中的不一致;同时按照本行业的逻辑模型设计便于查询及分析的数据仓库。然后按照组织或企业的需求,针对不同的主题对数据进行某种程度的综合、概括和聚集,将源数据加载进数据仓库。经过这样的处理,数据就具有了集成性,可以用于决策分析。

  1.3 反映历史变化( Time-variant )

  “反映历史变化”是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。而信息本身相对稳定,是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作。

  1.4 相对稳定( Non-volatile )

  “相对稳定”是指数据一旦进入数据仓库,一般情况下会被长期保留,所涉及的数据操作也主要是查询、分析,很少会被修改或删除,通常也只需要定期地加载和刷新。相对稳定性保证了数据仓库中的数据能够真实地反映历史变化。

  2 数据仓库的产生

  数据仓库是在数据库基础上发展而来的,通常包含三个部分内容:数据仓库、联机分析处理( 0-LAP-On-Line Transaction Process)、数据挖掘 ( Data Mining )。从数据库到数据仓库的源驱动力来自组织或企业的业务发展需求。

  早期的数据库系统主要应用于日常事务的操作性处理,即 OLTP ,重点在于完成事务处理,在短时间内给予用户响应,服务于操作型业务需求,可以称之为“操作型数据库”。

  随着业务应用不断拓展,以及市场竞争不断加剧,数据分析师和企业家们发现仅仅依靠联机事务处理系统 OLTP 已经不足以获得市场竞争的优势,希望能够从庞大的日常业务数据以及历史归档数据中,分析发掘出潜在的、规律性的、更有价值的信息。用于对企业的业务运作以及市场的行业态势进行分析判断,从而做出正确的决策。这就推动了数据仓库的产生,即服务于分析型业务需求的系统,可以称之为“分析型数据库”。

  将操作型(事务处理)数据库系统与分析型(决策支持)数据库系统分离,主要有以下五个原因:

  ( 1 )业务应用的响应时间不同

  在操作型(事务处理)计算环境中,其业务应用的处理特点是数据的存取操作频率高,而每次操作处理的时间短。因此,用户的业务请求往往在很短时间内即可完成,使得系统在多用户并发访问的情况下,也可以保持较高的实时响应速度。

  在分析型(决策支持)计算环境中,其决策分析问题的解决,往往需要遍历数据库中的大部分数据,不仅需要消耗大量的系统资源,还可能导致长达数小时的运行。因此,用户的业务请求并不要求瞬间响应,只要在允许的时间里给予响应即可。

  ( 2 )数据需求的集成要求不同

  在操作型数据库中,数据往往是分散而非集成的。主要原因有操作型(事务处理)应用分散的问题、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据等问题。

  在分析型数据库中,首先需要解决的就是“数据集成”的问题。只有全面、广泛、准确、相关的数据收集和有效集成,才有可能得到可信的分析结果。

共4页。 1 2 3 4 :
  • 本文关键词:

网友评论

笔名 
请您注意:遵守国家有关法律、法规,尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任。    IT专家网友拥有管理笔名和留言的一切权利。

邮件订阅