Apriori算法在发现用户网页浏览模式上的应用
Application of Apriori Algorithm in Finding User’s Webpage Browsing Mode
DOI: 10.12677/SEA.2013.26022, PDF, HTML, 下载: 2,912  浏览: 8,389  科研立项经费支持
作者: 魏 林:北京邮电大学计算机学院,可信分布式计算与服务教育部重点实验室,北京;刘建毅, 王 枞:北京邮电大学软件学院,北京
关键词: Web日志Apriori算法Web日志挖掘会话识别k-项候选集Web Logs; Apriori Algorithm; Data Mining; Session Identification; k-Candidate Set
摘要: web服务器的日志文件记录了大量的用户网页访问信息,如何分析这些数据并从中发现用户的网页浏览模式比如用户感兴趣的页面、最佳的页面组合等从而为商家提供良好的决策支持变得越来越重要。本文用数据挖掘技术中的Apriori算法对记录用户页面访问信息的日志数据进行挖掘从而得到用户浏览网页的模式。本文首先对日志数据进行了预处理,从中提取了用户的一次会话中的页面访问记录,然后用Apriori算法对这些访问记录数据进行挖掘,同时针对这些待挖掘数据上的特点对挖掘算法Apriorik-项候选集与事务的匹配上进行了改进,实验结果表明改进后的算法在处理数据量很大的数据时性能较传统算法有很好的提高。最后本文对挖掘后产生的规则进行了分析,发现了用户对本网站的一些网页的浏览模式,这些浏览模式为商家提供良好的决策支持。
Abstract: The log file of web server which recorded a large number of user’s visiting webpage information, and how to analyze these data and discover the user’s webpage browsing mode such as the webpages which users’ interested in browsing and the best page composition so as to provide a good decision support for merchants has become increasingly important. In this paper, Apriori algorithm was used to mine the log data of recording use’s accessing information for finding the regular pattern of user’s browsing the webpage. Firstly, this paper made data preprocessing to the log data for extracting one session access record of user. Secondly, the Apriori algorithm was used to mine these record data, considering the feature of these data, the paper made litter improvement for the algorithm at the matching of k-candidate set and the transaction. The experimental results showed that the performance of the improved algorithm in handling a large amount of data has a good improvement. Finally, this paper analysed the rules by excavating, and through these rules, some browsing modes were found, which provided decision supports for merchants.

文章引用:魏林, 刘建毅, 王枞. Apriori算法在发现用户网页浏览模式上的应用[J]. 软件工程与应用, 2013, 2(6): 125-130. http://dx.doi.org/10.12677/SEA.2013.26022

参考文献

[1] 朱扬勇, 周欣, 施伯乐 (2000) 规则型数据采掘工具集 AMINER. 高技术通讯, 3, 19-22.
[2] 朱靖君, 吴海燕, 高国柱等 (2010) 一种基于日志分析的 Web负我测试方法. 计算机工程, 23, 25-27.
[3] 季成, 李晓东, 袁坚等 (2010) 基于k-means算法的DNS查询模式分析. 清华大学学报: 自然科学版, 4, 601-604.
[4] 杨文兵 (2010) 基于Rough集理论的入侵检测方法研究. 硕士论文, 南昌大学, 南昌.
[5] 许晓东, 李柯, 朱士瑞 (2010) Web使用挖掘中Apriori算法的改进研究. 计算机工程与设计, 3, 539-541.
[6] 李燕, 冯博琴, 鲁晓锋 (2009) Web日志挖掘中的数据预处理技术. 计算机工程, 22, 44-46.
[7] 周爱武, 程博, 李孙长等 (2010) Web日志挖掘中的会话识别方法. 计算机工程与设计, 5, 936-938.
[8] Hall, M., Frank, E., Holmes, G., et al. (2009) The WEKA data mining software: An update. ACM SIGKDD Explorations Newsletter, 11, 10-18.