基于多种策略与深度学习的反爬虫机制
Deep Learning-Based Multi-Strategy Anti-Crawler Mechanism
摘要: 目前针对网络爬虫的防御机制很多,传统的机制有基于验证码的机制,有基于抓取频率的,还有基于浏览器策略的机制,这些策略通常不能有效解决爬虫问题。在进行了大量的技术调研的基础上,本文提出了一种多策略的反爬虫机制,同时结合深度学习技术,有效提升了系统的反爬效果,进而构建了一个集token技术,前端技术、验证码技术、蜜罐技术、深度学习技术、规则库、黑白名单技术于一体反爬虫系统,该系统通有效地解决了爬虫问题。
Abstract: A variety of defenses against web crawlers have been proposed. Traditional approaches rely on CAPTCHAs, request-frequency limits, or browser-policy enforcement, yet they seldom resolve the crawler problem. Guided by an extensive technical survey, this paper presents a multi-strategy anti-crawler mechanism that integrates deep-learning techniques to markedly improve protection. The resulting system unifies token validation, front-end hardening, CAPTCHA challenges, honeypots, deep-learning analysis, and dynamic black & white-list. Online evaluations demonstrate that the system effectively mitigates crawler abuse.
参考文献
|
[1]
|
中访网. 《2025年Imperva恶意爬虫报告》: AI助推难以检测的爬虫激增, 占据全球网络过半流量[EB/OL]. https://wenshannet.com/company/144244.html, 2025-04-22.
|
|
[2]
|
任爽. 基于Web字体渲染技术的反爬虫应用[J]. 电脑编程与维护, 2024(8): 148-150.
|
|
[3]
|
马军, 王效武, 朱永川, 王海兮. 基于对抗样本生成的验证码反爬虫机制研究[J]. 应用科技, 2021, 48(6): 45-50.
|
|
[4]
|
丁文豪. 恶意爬虫主动防御技术研究与实现[D]: [硕士学位论文]. 北京: 北京邮电大学, 2019.
|
|
[5]
|
周毅, 宁亮, 王鸥, 孙海波, 何金. 基于Python的网络爬虫和反爬虫技术研究[J]. 现代信息科技, 2021, 5(21): 149-151.
|