CTOCIO IT专家网

天极传媒 比特网 | 天极网 | IT专家网 | IT商网 | 52PK游戏网 | 手机天极 | IT分众 |
IT专家网搜索

数据库 | Oracle | DB2 | SQL Server | MySQL | 商业智能 | BI | DBA | Sybase| SQL Server 2008

您现在的位置: IT专家网 > 数据库子站 > 数据库技巧

数据仓库系统实现之挖掘Web日志

作者: 小灵,  出处:论坛, 责任编辑: 李书琴, 
2007-09-27 08:10
  运用数据仓库技术分析Web日志是目前Web使用挖掘的研究热点。本文从Web日志数据库设计、数据预处理和逻辑建模三个阶段阐述了Web日志数据仓库系统的整体实现。文章详细论述了将Web日志导入数据库中的方法,给出了具体的预处理过程,在此基础上实现了Web日志管理系统,最后提出Web日志数据仓库的逻辑模型……

  1、引言

  目前已经有很多学者和研究机构意识到网站日志数据巨大的潜在价值,试图通过对Web日志的研究来改善网站设计,理解用户的兴趣和真正动机等。多数现有的Web分析工具提供了用户在服务器上的活动情况及各种形式的过滤数据,使用这类工具可以确定对某个服务器或单个文件的访问次数、访问时间以及用户的域名和URL。但是对于Web日志数据仓库系统进行总体设计上的研究并不多,而这项工作对于研究用户访问模式和提高挖掘的效率是很有意义的。本文以某网站Web日志文件为例,在JAVA平台上对其数据仓库的建构进行了研究。

  2、Web日志数据采集

  服务器日志的格式根据Web服务的应用及安装时的选项而有所不同,一般用两种格式存储:一种是普通日志文件格式;另一种是扩展日志文件格式。普通日志文件存储的是客户端IP、用户名、状态、服务器名、协议版本等客户连接的物理信息。扩展日志文件格式主要支持关于日志文件元信息的指令,如版本号、会话监控开始时间和浏览器类型等。下面是一条典型的日志及其各字段详细解释:

  2004-12-13 0:00:45 172.16.96.22 - 211.66.184.35

  80 GET /~janyst/chat/chatUsers.php - 200 Mozilla/4.0+ (compatible;+MSIE+6.0;+Windows+NT+5.1)

  ● Date and Time:请求的日期、时间;

  ● c_ip:访问用户的 IP 地址或者用户使用的代理服务器 IP 地址;

  ● userName:用户名,由于通常用户没有进行注册,故一般都为占位符所替代;

  ● s_ip:客户端访问网站的IP 地址;

  ● s_port:客户端访问网站的端口号;

  ● cs_method:访问者的请求命令,常见的方法有三种,分别是 GET、POST 和 HEAD;

  ● cs_uri_stem:访问者请求的资源,即相对于服务器上根目录的途径,上例中为/~janyst/chat/chatUsers.php;

  ● query:协议类型,上例中为HTTP/1.1;

  ● Status:服务器返回的状态代码。一般而言,以2开头的状态代码表示成功,以3开头表示由于各种不同的原因用户请求被重定向到了其他位置,以4开头表示用户端存在某种错误,以5开头表示服务器遇到了某个错误;

  ● userAgent:附加信息,包括浏览器类型、操作系统等。

  3、Web日志管理系统架构

  Web日志管理系统功能是完成Web日志的预处理和存储,主要由数据采集模块、数据库创建模块、数据库清除模块和数据集生成模块等组成,图1为系统用户界面。

Web日志管理系统用户界面

 图1 Web日志管理系统用户界面

共4页。 1 2 3 4 :

网友评论

笔名 
请您注意:遵守国家有关法律、法规,尊重网上道德,承担一切因您的行为而直接或间接引起的法律责任。    IT专家网友拥有管理笔名和留言的一切权利。
  • 周排行榜
  • 月排行榜

邮件订阅


    
天极服务 | 关于我们 | 网站律师 | 加入我们 | 联系我们 | 广告业务 | 友情链接 | 我要挑错
All Rights Reserved, Copyright 2004-2008, Ctocio.com.cn
渝ICP证B2-20030003号 如有意见请与我们联系 powered by 天极内容管理平台CMS4i