Web使用挖掘中数据预处理过程研究

2023-11-23 来源：爱go旅游网

维普资讯 http://www.cqvip.com 电子测量技术　第３Ｏ卷第３期　２００７年３月　ＥＬＥＣＴＲ０ＮＩＣ　ＭＥＡＳＵＲＥＭＥＮＴ　ＴＥＣＨＮ０ＬＯＧＹ　Ｗｅｂ使用挖掘中数据预处理过程研究＊　李超锋　杨殿生　许　云　（１．中南民族大学管理学院武汉４３００７４；２．鄂州大学鄂州　４３６０００；３．马鞍山ｌ市农业发展银行马鞍山２４３０１１）　摘要：ｗｅｂ使用挖掘是将数据挖掘技术应用于用户浏览Ｗｅｂ时交互作用的二次数据以发现使用模式，从而达到更　好地理解和服务基于ｗｅｂ应用的需要的目的。在将数据挖掘算法应用于从服务器日志收集来的数据之前必须要进　行一些预处理工作。数据预处理就是把源数据转换为下一步应用数据挖掘算法所必须的数据抽象的过程。作为模式　发现的数据源，数据预处理结果的质量直接影响着模式发现的最终结果。本文提出了几种可用于提高数据预处理性　能的技术和方法。实验证明，这些技术和方法是有效的。最后，总结全文并提出了进一步的研究方向。　关键词：Ｗｅｂ使用挖掘；Ｗｅｂ日志；数据预处理；用户会话　中图分类号：ＴＰ３９３　文献标识码：Ａ　Ｒｅｓｅａｒｃｈ　ｏｎ　ｐｒｏｃｅｓｓ　ｏｆ　ｄａｔａ　ｐｒｅｐｒｏｃｅｓｓｉｎｇ　ｉｎ　Ｗｅｂ　ｕｓａｇｅ　ｍｉｎｉｎｇ　Ｌｉ　Ｃｈａｏｆｅｎｇ　Ｙａｎｇ　Ｄｉａｎｓｈｅｎｇｚ　Ｘｕ　Ｙｕｎ３　（１．Ｃｏｌｌｅｇｅ　ｏｆ　Ｍａｎａｇｅｍｅｎｔ，Ｓｏｕｔｈ－Ｃｅｎｔｒａ１　Ｕｎｉｖｅｒｓｉｔｙ　ｆｏｒ　Ｎａｔｉｏｎａｌｉｔｉｅｓ，Ｗｕｈａｎ　４３００７４；　２．Ｅｚｈｕｏ　Ｕｎｉｖｅｒｓｉｔｙ，Ｅｚｈｕｏ　４３６０００；　３．Ｍａａｎｓｈａｎ　Ｂｒａｎｃｈ　ｏｆ　Ａｇｒｉｃｕｌｔｕｒａｌ　Ｄｅｖｅｌｏｐｍｅｎｔ　Ｂａｎｋ　ｏｆ　Ｃｈｉｎａ，Ｍａａｎｓｈａｎ　２４３０１１）　Ａｂｓｔｒａｃｔ：Ｗｅｂ　ｕｓａｇｅ　ｍｉｎｉｎｇ　ｉｓ　ｔｈｅ　ａｐｐｌｉｃａｔｉｏｎ　ｏｆ　ｄａｔａ　ｍｉｎｉｎｇ　ｔｅｃｈｎｉｑｕｅｓ　ｔｏ　ｄｉｓｃｏｖｅｒ　ｕｓａｇｅ　ｐａｔｔｅｒｎｓ　ｆｒｏｍ　ｔｈｅ　ｓｅｃｏｎｄａｒｙ　ｄａｔａ　ｄｅｒｉｖｅｄ　ｆｒｏｍ　ｔｈｅ　ｉｎｔｅｒａｃｔｉｏｎｓ　ｏｆ　ｔｈｅ　ｕｓｅｒｓ　ｗｈｉｌｅ　ｓｕｒｆｉｎｇ　ｏｎ　ｔｈｅ　Ｗｅｂ，ｉｎ　ｏｒｄｅｒ　ｔｏ　ｕｎｄｅｒｓｔａｎｄ　ａｎｄ　ｂｅｔｔｅｒ　ｓｅｒｖｅ　ｔｈｅ　ｎｅｅｄｓ　ｏｆ　Ｗｅｂ－ｂａｓｅｄ　ａｐｐｌｉｃａｔｉｏｎｓ．Ｔｈｅｒｅ　ａｒｅ　ｓｅｖｅｒａｌ　ｐｒｅｐｒｏｃｅｓｓｉｎｇ　ｔａｓｋｓ　ｔｈａｔ　ｍｕｓｔ　ｂｅ　ｐｅｒｆｏｒｍｅｄ　ｐｒｉｏｒ　ｔｏ　ａｐｐｌｙｉｎｇ　ｄａｔａ　ｍｉｎｉｎｇ　ａｌｇｏｒｉｔｈｍｓ　ｔｏ　ｔｈｅ　ｄａｔａ　ｃｏｌｌｅｃｔｅｄ　ｆｒｏｍ　ｓｅｒｖｅｒ　ｌｏｇｓ．Ｄａｔａ　ｐｒｅｐｒｏｃｅｓｓｉｎｇ　ｉｓ　ｔｈｅ　ｐｒｏｃｅｓｓ　ｔｏ　ｃｏｎｖｅｒｔ　ｔｈｅ　ｒａｗ　ｄａｔａ　ｉｎｔｏ　ｔｈｅ　ｄａｔａ　ａｂｓｔｒａｃｔｉｏｎ　ｎｅｃｅｓｓａｒｙ　ｆｏｒ　ｔｈｅ　ｆｕｒｔｈｅｒ　ａｐｐｌｙｉｎｇ　ｔｈｅ　ｄａｔａ　ｍｉｎｉｎｇ　ａｌｇｏｒｉｔｈｍ．Ａｓ　ｔｈｅ　ｄａｔａ　ｓｏｕｒｃｅｓ　ｏｆ　ｐａｔｔｅｒｎｓ　ｄｉｓｃｏｖｅｒｙ，ｔｈｅ　ｒｅｓｕｌｔｓ　ｑｕａｌｉｔｙ　ｏｆ　ｄａｔａ　ｐｒｅｐｒｏｃｅｓｓｉｎｇ　ｉｎｆｌｕｅｎｃｅｓ　ｔｈｅ　ｒｅｓｕｌｔｓ　ｏｆ　ｐａｔｔｅｒｎｓ　ｄｉｓｃｏｖｅｒｙ　ｄｉｒｅｃｔｌｙ．Ｔｈｉｓ　ｐａｐｅｒ　ｐｒｅｓｅｎｔｓ　ｓｅｖｅｒａｌ　ｄａｔａ　ｐｒｅｐａｒａｔｉｏｎ　ｔｅｃｈｎｉｑｕｅｓ　ａｎｄ　ｍｅｔｈｏｄｓ　ｔｈａｔ　ｃａｎ　ｂｅ　ｕｓｅｄ　ｔｏ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　ｄａｔａ　ｐｒｅｐｒｏｃｅｓｓｉｎｇ　ｉｎ　ｏｒｄｅｒ　ｔｏ　ｉｄｅｎｔｉｆｙ　ｕｎｉｑｕｅ　ｕｓｅｒｓ　ａｎｄ　ｕｓｅｒ　ｓｅｓｓｉｏｎｓ．Ｔｈｅｓｅ　ｔｅｃｈｎｉｑｕｅｓ　ａｎｄ　ｍｅｔｈｏｄｓ　ｈａｖｅ　ｂｅｅｎ　ｐｒｏｖｅｄ　ｖａｌｉｄ　ａｎｄ　ｅｆｆｉｃｉｅｎｔ　ｂｙ　ｅｘｐｅｒｉｍｅｎｔｓ．Ｆｉｎａｌｌｙ，ｗｅ　ｃｏｎｃｌｕｄｅ　ｔｈｉｓ　ｐａｐｅｒ　ａｎｄ　ｐｒｏｐｏｓｅ　ｔｈｅ　ｆｕｔｕｒｅ　ｒｅｓｅａｒｃｈ　ｄｉｒｅｃｔｉｏｎｓ．　Ｋｅｙｗｏｒｆｌｓ．．Ｗｅｂ　ｕｓａｇｅ　ｍｉｎｉｎｇ；Ｗｅｂ　ｌｏｇ；ｄａｔａ　ｐｒｅｐｒｏｃｅｓｓｉｎｇ；ｕｓｅｒ　ｓｅｓｓｉｏｎ　０引　言　源位置方面不同，而且在可用数据的种类、被收集的数据　段和它的实现等方面都可能不同嘲，这也就为预处理带来　了相当大的难度。　对数据预处理的研究已经成为目前Ｗｅｂ使用挖掘研　究的焦点。本文提出Ｗｅｂ使用挖掘中数据预处理的过程。　Ｗｅｂ使用挖掘是将数据挖掘技术应用于用户浏览　Ｗｅｂ时交互作用的二次数据以发现使用模式，从而达到更　好地理解和服务基于ｗｅｂ应用的需要的目的ｌ＿１ｊ。　一般来说，Ｗｅｂ使用挖掘由３个阶段构成：数据预处　理、模式发现和模式分析。作为模式发现的数据源，数据　１相关研究工作　近年来，越来越多的研究人员关注于Ｗｅｂ使用挖掘的　预处理结果的质量直接影响着模式发现的最终结果。一　个好的数据源不仅能够发现高质量的模式而且还能提高　ｗｅｂ使用挖掘算法的性能。因此，数据预处理是整个ｗｅｂ　研究＿１　］。然而，对Ｗｅｂ使用挖掘中数据预处理研究的重　视程度还远远不够。Ｒｏｂｅｒｔ　Ｃｏｏｌｅｙ、Ｂａｍｓｈａｄ　Ｍｏｂａｓｈｅｒ　和Ｊａｉｄｅｐ　Ｓｒｉｖａｓｔａｖａ提出了用户识别、会话识别、页面视图　使用挖掘的基础，是Ｗｅｂ使用挖掘质量保证的关键。然　而，数据预处理中使用的每一种类型的数据集不仅在数据　识别、路径补充和经历识别的方法＿１］，他们提出了一些启　＊基金项目：湖北省科技攻关项目（２００５１０１Ｃ１８）、中南民族大学自然科学基金项目　・　３　・　维普资讯 http://www.cqvip.com 第３Ｏ卷　电子测量技术　发式的方法来处理数据预处理期间的难题。Ｂｅｔｔｉｎａ　Ｂｅｒｅｎｄｔ及其同事针对访问重构比较了基于时间和基于引　用的启发式方法的优缺点［６］，发现一种启发式方法的适用　性依赖于Ｗｅｂ站点的设计和访问的长度。Ｄｏｒｕ　Ｔａｎａｓａ　和Ｂｒｉｇｉｔｔｅ　Ｔｒｏｕｓｓｅ提出了用于站点间的高级数据预处理　方法［７］，提供了联合分析多Ｗｅｂ服务器日志的可能性。然　而，这些方法都只是针对某种特殊的环境解决了数据预处　理过程中的某个阶段的问题。　２　Ｗｅｂ使用挖掘中的数据预处理　理想情况下，Ｗｅｂ使用挖掘过程的输入是一个用户会　话文件，该文件给出了关于谁访问了Ｗｅｂ站点、访问了哪　些页面并且以什么样的顺序访问和每个页面查看了多长　时间的详细账目。一个用户会话是对一个Ｗｅｂ站点的一　次独立访问期间所访问的页面集。然而，由于下面将要讨　论的原因，在数据预处理之前包含在原始Ｗｅｂ服务器日志　中的信息并不能可靠地表示一个用户会话文件。一般情　况下，预处理期间使用的数据包括日志文件、Ｗｅｂ页面内　容、Ｗｅｂ页面结构、ｕｓｅｒ　ｐｒｏｆｉｌｅ和注册数据等。完成Ｗｅｂ　使用挖掘预处理的任务包括数据清洗、用户识别、会话识　别和路径补充等，如图１所示。　邑；童　一　站点拓扑　用户输入　图１　Ｗｅｂ使用挖掘中数据预处理过程　２．１数据清洗　数据清洗的任务是为挖掘过程去除不相关的和冗余　的日志项。有３种类型的不相关或冗余的数据需要清洗：　嵌在ＨＴＭＬ文件中的附属资源、ｒｏｂｏｔｓ请求和错误请求。　（１）附属资源。Ｈ１ｖｒＰ协议是一种无连接协议，查看　一个特定页面的用户请求通常会产生几个日志项，因为除　了ＨＴＭＬ文件外还会下载一些图片和脚本。由于Ｗｅｂ使‘　用挖掘的主要目的是得到用户行为的信息，因而对那些包　含在非用户显示请求的文件请求没有兴趣。这种不相关　项的去除可以通过检查ＵＲＬ后缀名的方法来实现。比　如，所有文件后缀名为ｇｉｆ、ｊｐｅｇ、ＧＩＦ、ＪＰＥＧ、ＪＰｇ、ＪＰＧ、ＣＳＳ　和ｍａｐ的日志项都可以清除掉。常用的脚本比如后缀为　“．ｃｇｉ”的请求文件也可清除掉。　（２）ｒｏｂｏｔｓ请求。Ｗｅｂ　ｒｏｂｏｔｓ（ｔｇ称为ｓｐｉｄｅｒ）是一种　・　４・　扫描Ｗｅｂ站点以抽取其内容的软件工具。ｓｐｉｄｅｒ自动地　扫描一个Ｗｅｂ页面的所有超链接。搜索引擎比如Ｇｏｏｇｌｅ　周期性地使用ｓｐｉｄｅｒ获取一个Ｗｅｂ站点的所有页面以更　新其搜索索引［８］。可以通过查找请求页面“ｒｏｂｏｔｓ．ｔｘｔ”的　所有主机去除ｒｏｂｏｔｓ请求。　（３）错误请求。错误请求是带有“ｅｒｒｏｒ”或“ｆａｉｌｕｒｅ”状　态的项，这些请求对挖掘过程是无用的。可以通过检查请　求状态码来去除这种请求。　２．２用户识别　用户是使用客户软件交互式访问Ｗｅｂ站点的主体。　本地ｃａｃｈｅ、防火墙和代理服务器的存在使得用户识别问　题变得异常复杂。取得用户的合作是处理这个问题最容　易的方法。然而，由于保密和隐私的问题使得这种方法变　得很困难。在实验中，本文使用下面的启发式方法来识别　用户：　（１）每个ＩＰ地址表示一个用户；　（２）对于具有相同ＩＰ地址的多个日志项，浏览器软件　或操作系统不同的ＩＰ表示不同的用户；　（３）将访问日志、引用日志和站点拓扑联合起来构建　出每个用户的浏览路径。如果一个被请求的页面不能从　用户已经访问过的任何页面的超链接直接到达，那么就存　在另一个具有相同ＩＰ地址的用户。　２．３用户会话识别　用户会话是一个跨越一个或多个Ｗｅｂ服务器的用户　点击（点击流）的集合。会话识别的目标是将每个用户访　问的页面划分到一个独立的会话中。目前，识别用户会话　的方法主要有时间窗法［９　和最大前向引用法［１　。下面是　在实验中使用的识别用户会话的规则：　（１）￣ｔｌ果出现一个新的用户，就产生一个新的会话；　（２）在一个用户会话中，如果引用页面为空，则为一个　新的会话；　（３）如果被请求的页面之间的时间超过某个上限　（３０　ｍｉｎ或２５　ｍｉｎ），就认为开始了一个新的会话。　２．４路径补充　由于本地ｃａｃｈｅ和代理服务器的存在，使得许多重要　的访问并没有记录在访问日志中。路径补充的任务就是　填充这些遗失的页面引用。类似于用户识别使用的方法　也可以用于路径补充。如果一个页面请求不能直接链接　到用户已经请求的最后一个页面，就可以检查引用日志查　看该请求来自于哪个页面。如果该页面在用户的最近请　求历史中，说明用户使用了在大多数浏览器可用的“ｂａｃｋ”　按钮。如果引用日志不清楚，站点拓扑也可以达到同样的　效果。如果在用户的访问历史中有多个页面包含有到被　请求页面的链接，那么在前面已经请求的页面中最近被请　求的那个页面就是新请求的源。　３实　验　实验的最初数据源是２００６年５月２１日到２００６年５　维普资讯 http://www.cqvip.com 李超锋等：Ｗｅｂ使用挖掘中数据预处理过程研究　第３期　口　］　］　］　Ｉ一！Ｊ　　一如。。。４０　０ｏｏ３０　０ｏｏ２０　０ｏｏ１ｏ　０ｏｏ｝＿Ｉｒ－０　　二一一■－■＿■■　图３用户识别过程　参考文献　ＪＡＩＤＥＥＰ　Ｓ，Ｉ　ＢＥＲＴ　Ｃ，Ｍ１　Ｉ　Ｄ　Ｄ．Ｗｅｂ　ｕｓａｇｅ　ｍｉｎｉｎｇ：ｄｉｓｃｏｖｅｒｙ　ａｎｄ　ａｐｐｌｉｃａｔｉｏｎｓ　ｏｆ　ｕｓａｇｅ　ｐａｔｔｅｒｎｓ　ｆｒｏｍ　ｗｅｂ　ｄａｔａ　ＥＪ－］．ＳＩＧＫＤＤ　Ｅｘｐｌｏｒａｔｉｏｎｓ，２０００，１　（２）：１－１２．　李超锋．ｗｅｂ使用挖掘数据源分析［Ｊ］．中南民族大学　学报：自然科学版，２００５（４）：８２—８５．　ＭＯＢＡＳＨＥＲ　Ｂ．Ｄｉｓｃｏｖｅｒｙ　ａｎｄ　ｅｖａｌｕａｔｉｏｎ　ｏｆ　ａｇｇｒｅｇａｔｅ　ｕｓａｇｅ　ｐｒｏｆｉｌｅｓ　ｆｏｒ　ｗｅｂ　ｐｅｒｓｏｎａｌｉｚａｔｉｏｎ［Ｊ］．Ｄａｔａ　Ｍｉｎｉｎｇ　ａｎｄ　Ｋｎｏｗｌｅｄｇｅ　Ｄｉｓｃｏｖｅｒｙ，２００２，６（１）：６１—８２．　ＳＨＡＨＡＢＩ　Ｃ，ＫＡＳＨＡＮＩ　Ｆ　Ｂ　Ａ　ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ｅｆｆｉｃｉｅｎｔ　ａｎｄ　ａｎｏｎｙｍｏｕｓ　Ｗｅｂ　ｕｓａｇｅ　ｍｉｎｉｎｇ　ｂａｓｅｄ　ｏｎ　ｃｌｉｅｎｔ－ｓｉｄｅ　ｔｒａｃｋｉｇｎ　ＥＪ３．Ｐｒｏｃ　ＷＥＢＫＤＤ　２００１：Ｍｉｎｉｎｇ　Ｗｅｂ　Ｌｏｇ　Ｄａｔａ　ａｃｒｏｓｓ　ＡＵ　Ｃｕｓｔｏｍｅｒ　Ｔｏｕｃｈ　Ｐｏｉｎｔｓ，　ＬＮＣＳ　２３５６，Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ，２００２：１１３—１４４．　］　ＺＨＡＮＧ　Ｆ，ＣＨＡＮＧ　Ｈ　Ｙ．Ｒｅｓｅａｒｃｈ　ａｎ］　］　］　ｄ　ｄｅｖｅｌ］ｏｐｍｅｎｔ　　ｉｎ　Ｗｅｂ　ｕｓａｇｅ　ｍｉｎｉｎｇ　ｓｙｓｔｅｍ－ｋｅｙ　ｉｓｓｕｅｓ　ａｎｄ　ｐｒｏｐｏｓｅｄ　ｓｏｌｕｔｉｏｎｓ：ａ　ｓｕｒｖｅｙ［Ｊ］．Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ　ａｎｄ　Ｃｙｂｅｒｎｅｔｉｃｓ，２００２（２）：９８６—９９０．　ＢＥＲＥＮＤＴ　Ｉ３．Ｔｈｅ　ｉｍｐａｃｔ　ｏｆ　ｓｉｔｅ　ｓｔｒｕｃｔｕｒｅ　ａｎｄ　ｕｓｅｒ　ｅｎｖｉｒｏｎｍｅｎｔ　ｏｎ　ｓｅｓｓｉｏｎ　ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ　ｉｎ　Ｗｅｂ　ｕｓａｇｅ　ａｎａｌｙｓｉｓ　ＥＪ３．Ｐｒｏｃ　ＷＥＢＫＤＤ　２００２：ＭｉｎｉｇｎⅥｒｅｂ　Ｄａｔａ　ｏｆｒ　Ｄｉｓｃｏｖｅｒｙ　Ｕｓａｇｅ　Ｐａｔｔｅｒｎｓ　ａｎｄ　Ｐｒｏｆｉｌｅｓ，ＬＮＣＳ　２７０３，Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ，２００２：１５９—１７９．　ＴＡＮＡＳＡ　Ｄ，ＴＲＯＵＳＳＥ　Ｂ　Ｄａｔａ　ｐｒｅｐｒｏｃｅｓｓｉｇｎ　ｆｏｒ　ＷＵＭ．Ｐｏｔｅｎｔｉａｌｓ［Ｊ］．ＩＥＥＥ，２０（１４（３）：２２—２５．　ＴＡＮＡＳＡ　Ｄ，　ＴＲ０ＵＳＳＥ　Ｂ　Ａｄｖａｎｃｅｄ　ｄａｔａ　ｐｒｅｐｒｏｃｅｓｓｉｇｎ　ｆｏｒ　ｉｔｎｅｒｓｉｔｅｓ　Ｗｅｂ　ｕｓａｇｅ　ｍｉｎｉｎｇ．　Ｉｔｎｅｌｌｉｇｅｎｔ　Ｓｙｓｔｅｍｓ　ＥＪ３．ＩＥＥＥ，２００４（１９）：５９—６５．　ＺＨＡＮＧ　Ｈ　Ｙ，ＬＩＡＮＧ　Ｗ　Ａ　Ａｎ　ｉｔｎｅｌｌｉｇｅｎｔ　ａｌｇｏｒｉｔｈｍ　ｏｆ　ｄａｔａ　ｐｒｅ－ｐｒｏｃｅｓｓｉｎｇ　ｉｎ　ｗｅｂ　ｕｓａｇｅ　ｍｉｎｉｇｎ［ｚ３　Ｉｎｔｅｌｌｉｇｅｎｔ　Ｃｏｎｔｒｏｌ　ａｎｄ　Ａｕｔｏｍａｔｉｏｎ，ＷＣＩＣＡ　２００４，　Ｆｉｆｔｈ、　ｒｉｄ　Ｃｏｎｇｒｅｓｓ，４：３１１９—３１２３．　ＦＡＮＧ　Ｙ，ＷＡＮＧ　Ｌ　Ｊ，ＧＥ　Ｙ．Ｓｔｕｄｙ　ｏｎ　ｄａｔａ　ｐｒｅｐｒｏｃｅｓｓｉｎｇ　ａｌｇｏｒｉｔｈｍ　ｉｎ　Ｗｅｂ　ｌｏｇ　ｍｉｎｉｎｇ．Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ　ａｎｄ　Ｃｙｂｅｍｅｔｉｃｓ［Ｃ］．２００３　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ，２００３，１：２８—３２．　作者简介　李超锋，男，１９７４年９月出生，中南民　族大学管理学院讲师，主要研究方向为　Ｗｅｂ使用挖掘、Ｗｅｂ个性化、民族信息资　源管理等。　＠１２６．ｃｏｍ　・　５　・　　］

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

Web使用挖掘中数据预处理过程研究