数据仓库系统实现之挖掘Web日志
运用数据仓库技术分析Web日志是目前Web使用挖掘的研究热点。本文从Web日志数据库设计、数据预处理和逻辑建模三个阶段阐述了Web日志数据仓库系统的整体实现。文章详细论述了将Web日志导入数据库中的方法,给出了具体的预处理过程,在此基础上实现了Web日志管理系统,最后提出Web日志数据仓库的逻辑模型……
4.2.2 用户识别
用户识别是将用户和请求的页面相关联的过程。由于用户机器中缓存、防火墙、代理服务器的使用,使Web日志没有精确记录用户的浏览行为。因此从净化日志中识别用户工作相对比较复杂。主要的用户识别方法主要有三种,分别为基于cookie的技术、基于IP地址的用户识别以及基于网络拓扑结构的路径分析。方法一通过在Web日志文件中添加更多的附加信息如用户机器名、内部IP名来标示用户,从而能识别通过同一代理服务器上网的不同用户。方法二是指不同的IP地址代表不同的用户。方法三要求根据网络拓朴结构分析Web日志文件中的用户请求,构造用户浏览网页的路径,通过一些启发式规则来识别用户。由于本文用到的日志属性信息较多,包括浏览器和操作系统属性,所以系统采用基于IP地址和浏览器的方法进行用户识别,即不同的IP地址和浏览器类型代表不同的用户,并在数据库的表UserTbl以及表IDTbl中添加一个域userID,用于存储进行识别后的用户标识。具体的过程如图4所示:

图4 用户识别流程图
4.2.3 会话识别
会话是指用户在访问网站期间从进入网站到离开网站所进行的一系列活动。要构造一个会话就是将每个用户的活动日志按照某种方法映射到会话中的过程。识别会话的方法主要有两种:基于时间的启发式方法和基于引用的启发式方法。前者利用会话的时间特性来构造会话候选集合;后者根据用户浏览特性和网页间链接关系确定用户会话集。
本文采用基于时间的启发式方法进行会话识别,即同一用户依次发出相邻的页面请求之间的时间间隔如不超过时间阈值,那么这两个页面请求属于同一个会话将时间阀值设定为20分钟。在数据库表中添加一个域sessionID,用于存储进行识别后的会话标识。进行会话识别的具体流程如图5所示。
5 Web日志数据仓库逻辑建模
要建立Web日志数据仓库,首先要进行逻辑建模。数据仓库一般有两种逻辑模式:星型模式和雪花模式。
星型模式是一种关系型数据库结构,其典型形式是由中间的一个主表和围绕在其周围的一组小表组成,中间的主表称为“事实表”,外围的小表称为“维度表”。事实表中存储数值型度量指标和连接到维度表的外键,它包含了描述特定商业事件的数据,例如产品销售、网站访问情况等;维度表中存储用于描述事物的文本属性信息及连接到事实表的主键,它包含了用于参考存储在事实表中数据的数据,如时间、地理位置等。雪花模式是星型模式的变种,将一个或多个维表分解成多个表,每个表都有连接到主维度表而不是事实数据表的相关性维度表。

图5 会话识别流程图
- 本文关键词:

