Web使用挖掘中数据预处理过程研究
2023-11-23
来源:爱go旅游网
维普资讯 http://www.cqvip.com 电子测量技术 第3O卷第3期 2007年3月 ELECTR0NIC MEASUREMENT TECHN0LOGY Web使用挖掘中数据预处理过程研究* 李超锋 杨殿生 许 云 (1.中南民族大学管理学院武汉430074;2.鄂州大学鄂州 436000;3.马鞍山l市农业发展银行马鞍山243011) 摘要:web使用挖掘是将数据挖掘技术应用于用户浏览Web时交互作用的二次数据以发现使用模式,从而达到更 好地理解和服务基于web应用的需要的目的。在将数据挖掘算法应用于从服务器日志收集来的数据之前必须要进 行一些预处理工作。数据预处理就是把源数据转换为下一步应用数据挖掘算法所必须的数据抽象的过程。作为模式 发现的数据源,数据预处理结果的质量直接影响着模式发现的最终结果。本文提出了几种可用于提高数据预处理性 能的技术和方法。实验证明,这些技术和方法是有效的。最后,总结全文并提出了进一步的研究方向。 关键词:Web使用挖掘;Web日志;数据预处理;用户会话 中图分类号:TP393 文献标识码:A Research on process of data preprocessing in Web usage mining Li Chaofeng Yang Dianshengz Xu Yun3 (1.College of Management,South-Centra1 University for Nationalities,Wuhan 430074; 2.Ezhuo University,Ezhuo 436000; 3.Maanshan Branch of Agricultural Development Bank of China,Maanshan 243011) Abstract:Web usage mining is the application of data mining techniques to discover usage patterns from the secondary data derived from the interactions of the users while surfing on the Web,in order to understand and better serve the needs of Web-based applications.There are several preprocessing tasks that must be performed prior to applying data mining algorithms to the data collected from server logs.Data preprocessing is the process to convert the raw data into the data abstraction necessary for the further applying the data mining algorithm.As the data sources of patterns discovery,the results quality of data preprocessing influences the results of patterns discovery directly.This paper presents several data preparation techniques and methods that can be used to improve the performance of data preprocessing in order to identify unique users and user sessions.These techniques and methods have been proved valid and efficient by experiments.Finally,we conclude this paper and propose the future research directions. Keyworfls..Web usage mining;Web log;data preprocessing;user session 0引 言 源位置方面不同,而且在可用数据的种类、被收集的数据 段和它的实现等方面都可能不同嘲,这也就为预处理带来 了相当大的难度。 对数据预处理的研究已经成为目前Web使用挖掘研 究的焦点。本文提出Web使用挖掘中数据预处理的过程。 Web使用挖掘是将数据挖掘技术应用于用户浏览 Web时交互作用的二次数据以发现使用模式,从而达到更 好地理解和服务基于web应用的需要的目的l_1j。 一般来说,Web使用挖掘由3个阶段构成:数据预处 理、模式发现和模式分析。作为模式发现的数据源,数据 1相关研究工作 近年来,越来越多的研究人员关注于Web使用挖掘的 预处理结果的质量直接影响着模式发现的最终结果。一 个好的数据源不仅能够发现高质量的模式而且还能提高 web使用挖掘算法的性能。因此,数据预处理是整个web 研究_1 ]。然而,对Web使用挖掘中数据预处理研究的重 视程度还远远不够。Robert Cooley、Bamshad Mobasher 和Jaidep Srivastava提出了用户识别、会话识别、页面视图 使用挖掘的基础,是Web使用挖掘质量保证的关键。然 而,数据预处理中使用的每一种类型的数据集不仅在数据 识别、路径补充和经历识别的方法_1],他们提出了一些启 *基金项目:湖北省科技攻关项目(2005101C18)、中南民族大学自然科学基金项目 ・ 3 ・ 维普资讯 http://www.cqvip.com 第3O卷 电子测量技术 发式的方法来处理数据预处理期间的难题。Bettina Berendt及其同事针对访问重构比较了基于时间和基于引 用的启发式方法的优缺点[6],发现一种启发式方法的适用 性依赖于Web站点的设计和访问的长度。Doru Tanasa 和Brigitte Trousse提出了用于站点间的高级数据预处理 方法[7],提供了联合分析多Web服务器日志的可能性。然 而,这些方法都只是针对某种特殊的环境解决了数据预处 理过程中的某个阶段的问题。 2 Web使用挖掘中的数据预处理 理想情况下,Web使用挖掘过程的输入是一个用户会 话文件,该文件给出了关于谁访问了Web站点、访问了哪 些页面并且以什么样的顺序访问和每个页面查看了多长 时间的详细账目。一个用户会话是对一个Web站点的一 次独立访问期间所访问的页面集。然而,由于下面将要讨 论的原因,在数据预处理之前包含在原始Web服务器日志 中的信息并不能可靠地表示一个用户会话文件。一般情 况下,预处理期间使用的数据包括日志文件、Web页面内 容、Web页面结构、user profile和注册数据等。完成Web 使用挖掘预处理的任务包括数据清洗、用户识别、会话识 别和路径补充等,如图1所示。 邑;童 一 站点拓扑 用户输入 图1 Web使用挖掘中数据预处理过程 2.1数据清洗 数据清洗的任务是为挖掘过程去除不相关的和冗余 的日志项。有3种类型的不相关或冗余的数据需要清洗: 嵌在HTML文件中的附属资源、robots请求和错误请求。 (1)附属资源。H1vrP协议是一种无连接协议,查看 一个特定页面的用户请求通常会产生几个日志项,因为除 了HTML文件外还会下载一些图片和脚本。由于Web使‘ 用挖掘的主要目的是得到用户行为的信息,因而对那些包 含在非用户显示请求的文件请求没有兴趣。这种不相关 项的去除可以通过检查URL后缀名的方法来实现。比 如,所有文件后缀名为gif、jpeg、GIF、JPEG、JPg、JPG、CSS 和map的日志项都可以清除掉。常用的脚本比如后缀为 “.cgi”的请求文件也可清除掉。 (2)robots请求。Web robots(tg称为spider)是一种 ・ 4・ 扫描Web站点以抽取其内容的软件工具。spider自动地 扫描一个Web页面的所有超链接。搜索引擎比如Google 周期性地使用spider获取一个Web站点的所有页面以更 新其搜索索引[8]。可以通过查找请求页面“robots.txt”的 所有主机去除robots请求。 (3)错误请求。错误请求是带有“error”或“failure”状 态的项,这些请求对挖掘过程是无用的。可以通过检查请 求状态码来去除这种请求。 2.2用户识别 用户是使用客户软件交互式访问Web站点的主体。 本地cache、防火墙和代理服务器的存在使得用户识别问 题变得异常复杂。取得用户的合作是处理这个问题最容 易的方法。然而,由于保密和隐私的问题使得这种方法变 得很困难。在实验中,本文使用下面的启发式方法来识别 用户: (1)每个IP地址表示一个用户; (2)对于具有相同IP地址的多个日志项,浏览器软件 或操作系统不同的IP表示不同的用户; (3)将访问日志、引用日志和站点拓扑联合起来构建 出每个用户的浏览路径。如果一个被请求的页面不能从 用户已经访问过的任何页面的超链接直接到达,那么就存 在另一个具有相同IP地址的用户。 2.3用户会话识别 用户会话是一个跨越一个或多个Web服务器的用户 点击(点击流)的集合。会话识别的目标是将每个用户访 问的页面划分到一个独立的会话中。目前,识别用户会话 的方法主要有时间窗法[9 和最大前向引用法[1 。下面是 在实验中使用的识别用户会话的规则: (1) ̄tl果出现一个新的用户,就产生一个新的会话; (2)在一个用户会话中,如果引用页面为空,则为一个 新的会话; (3)如果被请求的页面之间的时间超过某个上限 (30 min或25 min),就认为开始了一个新的会话。 2.4路径补充 由于本地cache和代理服务器的存在,使得许多重要 的访问并没有记录在访问日志中。路径补充的任务就是 填充这些遗失的页面引用。类似于用户识别使用的方法 也可以用于路径补充。如果一个页面请求不能直接链接 到用户已经请求的最后一个页面,就可以检查引用日志查 看该请求来自于哪个页面。如果该页面在用户的最近请 求历史中,说明用户使用了在大多数浏览器可用的“back” 按钮。如果引用日志不清楚,站点拓扑也可以达到同样的 效果。如果在用户的访问历史中有多个页面包含有到被 请求页面的链接,那么在前面已经请求的页面中最近被请 求的那个页面就是新请求的源。 3实 验 实验的最初数据源是2006年5月21日到2006年5 维普资讯 http://www.cqvip.com 李超锋等:Web使用挖掘中数据预处理过程研究 第3期 口 ] ] ] I一!J 一如。。。40 0oo30 0oo20 0oo1o 0oo}_Ir-0 二一一■-■_■■ 图3用户识别过程 参考文献 JAIDEEP S,I BERT C,M1 I D D.Web usage mining:discovery and applications of usage patterns from web data EJ-].SIGKDD Explorations,2000,1 (2):1-12. 李超锋.web使用挖掘数据源分析[J].中南民族大学 学报:自然科学版,2005(4):82—85. MOBASHER B.Discovery and evaluation of aggregate usage profiles for web personalization[J].Data Mining and Knowledge Discovery,2002,6(1):61—82. SHAHABI C,KASHANI F B A framework for efficient and anonymous Web usage mining based on client-side trackign EJ3.Proc WEBKDD 2001:Mining Web Log Data across AU Customer Touch Points, LNCS 2356,Springer-Verlag,2002:113—144. ] ZHANG F,CHANG H Y.Research an] ] ] d devel]opment in Web usage mining system-key issues and proposed solutions:a survey[J].Machine Learning and Cybernetics,2002(2):986—990. BERENDT I3.The impact of site structure and user environment on session reconstruction in Web usage analysis EJ3.Proc WEBKDD 2002:MinignⅥreb Data ofr Discovery Usage Patterns and Profiles,LNCS 2703,Springer-Verlag,2002:159—179. TANASA D,TROUSSE B Data preprocessign for WUM.Potentials[J].IEEE,20(14(3):22—25. TANASA D, TR0USSE B Advanced data preprocessign for itnersites Web usage mining. Itnelligent Systems EJ3.IEEE,2004(19):59—65. ZHANG H Y,LIANG W A An itnelligent algorithm of data pre-processing in web usage minign[z3 Intelligent Control and Automation,WCICA 2004, Fifth、 rid Congress,4:3119—3123. FANG Y,WANG L J,GE Y.Study on data preprocessing algorithm in Web log mining.Machine Learning and Cybemetics[C].2003 International Conference,2003,1:28—32. 作者简介 李超锋,男,1974年9月出生,中南民 族大学管理学院讲师,主要研究方向为 Web使用挖掘、Web个性化、民族信息资 源管理等。 @126.com ・ 5 ・ ]