1. 引言
随着大数据的快速发展,网络爬虫(Web Crawler)作为获取数据的关键技术被广泛应用于各行各业。但该技术在提升数据获取效率的同时,也引发了许多法律争议,尤其是其可能触犯刑事法律的风险日益增加。近几年也已经出现多起因网络爬虫行为涉嫌犯罪的案件,也显现出网络爬虫技术应用中的合法性边界问题。当前我国法律体系对网络爬虫的规制呈现碎片化特征,部分法律法规虽然提供了一些判断依据,但尚未形成统一的违法性认定标准[1]。本文旨在通过解构网络爬虫的技术原理与运行机制,结合典型案例与法律实践对网络爬虫行为的违法性边界进行研究,不仅有助于完善数据治理法律体系,更对规范数字经济发展秩序具有重要的现实意义。
2. 网络爬虫技术原理
在研究网络爬虫相关法律理论之前,首先要厘清网络爬虫到底是什么?具体而言,网络爬虫是一种按照一定的规则动态化抓取大体量的互联网数据的脚本或者程序,通过代码编辑进而可以自动实现对目标基站项下目标数据的批量获取目的,其编程可控性能包括但不限于信息采集、信息提取、数据存储等[2]。其在本质上是一种自动化程序,模拟人类浏览网页的行为,通过网站协议请求网页内容,然后解析并提取有用信息,最后按照预设的规则跟踪链接继续访问其他页面,形成一个自动化的数据采集过程。
爬虫技术的运用有三种基本模式。第一种是爬取数据,网络爬虫会以关键词作为检索定位符号,在此基础上对于网页数据进行抓取,并且以此为中心向外搜索更多的URL1。第二种是反爬取,反爬取措施的产生主要是为了维护网页数据的安全性,最常见的就是爬虫协议,通过明确可以爬取和不能爬取的数据来阻止网络爬虫爬取重要数据[3]。还有一种是对访问主体进行限制,一般通过HTTP服务器请求信息验证2、Cookie验证3以及阈值监测4等方式区分用户与网络爬虫,从而进行访问主体限制。第三种是反反爬措施,之所以会有这项措施,主要原因在于爬虫协议的保护力度不够,搜索引擎不是完全按照爬虫协议的要求进行搜索,有一小部分除外。因此需要采取技术手段阻止破坏反爬取行为,这种措施主要分为四类:第一类是识别机制,即通过验证码、图像识别或数学算法等技术,甄别操作行为的主体,从而区分真实用户与网络爬虫。第二类是操作限制,通过要求用户进行注册、登录或实名认证,必要时限制或封锁账号,并限制用户的操作频率和次数,以削弱爬虫的抓取能力。第三类是欺骗机制,通过在数据库中掺入无效或错误数据,生成大量混淆性无效URL,干扰爬虫分析过程,使其陷入重复抓取陷阱,从而降低其运行效率[4]。第四类是数据保护机制,分为数据加密和数据混淆,使得用户或爬虫可能无法获得加密数据或者获得虚假数据。
网络爬虫技术的核心在于提取数据,并不预设价值取向,既可以用于搜索引擎,也可以用于数据盗取,取决于使用人的目的,因此具备技术中立性5的特征。作为一项中立技术,其当然能够带来一些积极效应,像谷歌等搜索引擎每天处理几十亿次搜索请求,背后是爬虫技术构建的网页索引库在支撑;全球科学开放运动中,网络爬虫爬取的论文,使非洲研究者获取文献的成本大大降低,爬虫技术不仅可以提供丰富的数据资源,而且可以整合获取到的数据,从而提高信息收集和识别的效率。不过因为爬虫高效性与无差别收集特性在带来一些积极效应的同时,也存在一些负面影响,网络爬虫具备高效的自动化数据收集能力,可以在短时间内访问大量网页并抓取数据,但由于其无差别的收集特性,使得即使目标数据中包含涉及国家机密、商业秘密、公民个人隐私等敏感信息,也易被一并获取,而且部分网络爬虫开发者凭借高超的技术手段,能够突破网站所设置的安全防护措施,如身份认证、加密传输、验证码识别、防火墙等[5]。因此爬虫技术使用不当可能会带来刑事违法风险。
3. 网络爬虫所具有的刑事违法风险
(一) 以法益角度分析
1) 侵犯著作权
著作权法的保护对象包括以数据为载体的作品,爬虫技术的不当使用有可能侵犯他人著作权,情节严重有可能构成犯罪。例如网络爬虫技术常被搜索引擎用于抓取网络作品并存储于自身服务器,形成“网页快照”。若未经授权,这种抓取行为侵犯了著作权人的复制权;若进一步擅自传播或提供抓取的网络作品,更会对权利人的网络传播权造成不可逆的侵害,严重损害著作权人的权益。
2) 侵犯个人信息
我国《刑法》第253条规定窃取或以其他方法非法获取公民个人信息的,要受刑事处罚。侵犯此类信息入罪标准较低,普通个人信息(如手机号、邮箱)超过5000条,敏感信息(身份证、行踪轨迹)等超500条就可能构成侵犯公民个人信息罪。如果爬虫未获用户授权而获取个人信息,且数量达到一定标准就有入罪风险。
3) 侵犯商业秘密
商业秘密是指不为公众所知、具商业价值且经权利人采取保密措施保护的技术、经营等信息。自2019年《反不正当竞争法》修订后,商业秘密范畴扩大,刑法规制范畴也应同步扩张。若爬虫行为破坏或绕过企业保密措施,获取具备秘密性、保密性、价值性、合法性的商业信息,情节严重的可能构成侵犯商业秘密罪。例如,某公司通过爬虫获取竞争对手的研发数据或客户名单,这种行为不仅损害了竞争对手的商业利益,也破坏了公平竞争的市场环境[6]。
(二) 以行为角度分析
1) 入侵行为破坏信息数据的风险
网络爬虫要获取数据信息,需先进入计算机信息系统。若按授权正常访问且未造成损害,无犯罪风险。但未经允许强行入侵,破坏或绕过系统保护措施,达到访问目的,便有犯罪风险。这种入侵行为严重威胁计算机信息系统的安全稳定运行,可能导致系统崩溃、数据泄露等严重后果。
2) 抓取行为使秘密数据被知悉的风险
爬虫抓取行为与传统获取不同,其客体是数据,重点在“知悉”。爬虫的非法抓取行为,突破数据所有权人的保护屏障,使原本处于保密状态的数据有机会被公众知晓,改变了数据的保密状态。这一行为不仅侵犯了数据所有权人的权益,也破坏了数据的保密性和安全性,可能引发一系列的法律问题。
3) 爬虫行为引发下游犯罪的风险
网络爬虫作为高效收集和检索数据的工具,亦常被利用作为下游犯罪的实施手段。典型例证如网络诈骗犯罪。依据《最高人民法院、最高人民检察院关于办理电信网络诈骗等刑事案件适用法律若干问题的意见》(法发[2016] 32号),“利用钓鱼网站、木马程序链接等隐秘技术手段实施诈骗的”,属于酌情从重处罚的情节。其中,钓鱼网站与木马程序的核心功能往往依赖网络爬虫技术非法获取海量公民个人信息,并通过数据整合分析实现对特定对象的精准画像。利用爬虫收集的信息(如身份、偏好、社交关系)实施诈骗,极大增强了欺骗性,使被害人难以辨识真伪,严重侵害公民人身、财产权利。此外,网络爬虫技术高效传播数据的特性,易被用于非法获取并传播淫秽物品,进而构成制作、贩卖、传播淫秽物品牟利罪等相关犯罪。由此可见,尽管网络爬虫技术本身具有中立性,但其被用于实施不法行为时,既可直接成立相关罪名(如非法获取计算机信息系统数据罪、侵犯公民个人信息罪),亦可作为工具为下游犯罪(如诈骗、传播淫秽物品)提供关键支持与准备条件[7]。
4. 对网络爬虫行为违法性判断标准的思考
近几年来,关于网络爬虫行为的刑事违法性标准已经展开探索,但实务界理论界标准并不统一,且存在一定局限,不能很好地解决此类违法案件,因此需要在明晰现有判断标准不足的基础上进行反思,合理界定网络爬虫行为的违法性判断标准。
(一) 现有判断标准的不足
1) 对爬虫行为侵害对象的认识不统一
网络爬虫行为的入罪判定,需考察形式与实质双重要件。形式要件体现为对网络服务器数据库的授权搜索与访问许可;实质要件则取决于数据在数据库中的属性及其对外公开的对象范围。实践中,公开数据被用户或竞争对手爬取的情况普遍存在,但其刑事违法性的认定常存争议。有观点认为爬取公开数据仅需承担民事责任,因为将数据公开就意味着允许他人使用这些数据[8]。也有观点认为数据公开不代表允许使用这些数据,因此刑法需要介入。例如,对电影网站内容的转码爬取,或用户个人爬取完整过程数据的行为性质,在学界尚无定论。可见对于爬虫行为的侵害对象目前并没有形成统一认识。
2) 对“入侵”行为的认定标准不统一
目前我国刑事法律尚未将爬虫行为本身直接规定为独立的犯罪构成要件。因此,当前的司法实践与理论研究,主要围绕刑法相关罪名中“其他不正当手段”、“非法获取”等兜底性条款展开解读。然而,现有研究在认定网络爬虫行为不法性时,往往未能深入细分不同技术类型,而是倾向于采用“一刀切”或概括性描述的方法进行判断。这导致robots协议、防抓取措施等技术术语难以精准地与刑法规范用语相衔接,司法实践普遍缺乏对爬虫具体方式(如是否遵守robots.txt、是否规避技术措施、是否造成系统负担等)的细致考察与区分,判决往往直接以“采取技术手段”、“违反国家规定”等笼统理由认定行为的非法性,未能充分论证其行为特征如何实质性地符合特定罪名的构成要件。例如,在“酷米客诉车来了”不正当竞争案(2017)6中,虽然涉及数据抓取,但核心争议在于不正当竞争而非刑事犯罪。法院在认定非法性时,强调了被告抓取数据时绕开了原告设置的防抓取措施(如需要登录或验证码),并破坏了原告的技术保护措施。这在一定程度上体现了对具体技术手段的考察,但刑事判决中类似细致分析仍显不足。
理论界关于网络爬虫刑事规制的研究同样存在概括性过强、适应性不足的问题。部分学者提出的原则性建议(如“审慎介入”、“合理划定法律红线”)虽具有宏观指导价值,但缺乏对现有法律条文如何具体适用的操作性指引。有观点主张网络爬虫必须遵循以“知情同意原则”为基础的合法性原则。然而,数据网站表达“知情同意”的方式极为多样(如robots.txt协议、网站声明、首页提示图片、弹窗协议等),而爬虫程序通常无法全面“解读”这些形式各异的授权信息。若机械适用严格的“知情同意原则”,将可能导致网络爬虫的刑事违法风险被不当扩大。另有学者试图通过解释刑法中“侵入”等关键词语来界定爬虫行为的不法边界(例如,将“侵入”解释为“未经授权或同意,通过技术手段进入计算机信息系统”,或“违背他人意愿进入他人计算机信息系统”)。但绝大多数爬虫行为都未获得数据网站的“积极授权”(如明确书面许可)。若仅以“缺乏积极授权”或“违背意愿”作为认定“侵入”的标准,则几乎所有的网络爬虫都可能被纳入刑法规制范围。
3) 对侵害结果的认定缺乏统一适用标准
刑事违法性的本质是法益侵害,因此网络爬虫行为通常具备实质的法益侵害性才能构成犯罪。而当前损害结果标准并不统一,非法爬取公民个人信息,入罪门槛常设定为500条;非法获取计算机信息系统数据,则可能以10组等为单位认定。这种计量方式与单位的差异,导致对网络爬虫行为侵害结果的评估缺乏统一标准。在定量评估侵害结果时,也存在单纯依赖数据条数或组数的“唯数量论”倾向,容易忽视行为性质、目的、手段及造成的实际危害等综合因素。
(二) 厘清网络爬虫行为刑事违法性的判断标准
1) 网络爬虫爬取对象的入罪标准
对于以国家秘密、商业秘密、私密数据等为抓取对象的爬虫行为达到入罪标准这点争议性不大,主要争议点在于公开数据刑事违法性的认定。从信息论角度看,网络上所谓的“公开数据”实质是指公开的信息。网站呈现给用户的,是经过数字化处理的信息内容,而非底层的编程语言、字符集、AI算法代码等原始数据。用户浏览的“公开数据”仅是一种数字化信息形态,而完整的网络数据应理解为信息与系统数据冗余的总和(即:数据 = 信息 + 数据冗余) [9]。因此,信息的公开性并不等同于授权他人任意爬取网站的所有系统数据。例如,“全国网络爬虫刑事第一案”的上海晟品网络科技有限公司案,法院即认定其行为构成非法获取计算机信息系统数据罪7。数据的“公开性”本身并非非法获取计算机信息系统数据罪的构成要件分析核心。该罪所保护的法益是计算机信息系统安全及数据安全。数据安全包含双重含义:一个是数据本体安全:主要指运用现代密码技术对数据进行主动防护,如保密性、完整性保障及强身份认证;另一个是数据防护安全:主要指运用现代存储技术对数据进行主动防护,如磁盘阵列、数据备份、异地容灾等手段[9]。因此,即使目标数据本身是公开的,若行为人通过爬虫技术以“未经授权侵入”存储该数据的计算机信息系统的方式获取,仍可能构成犯罪。由此可见,网络爬虫行为是否构成犯罪的关键,不在于所爬取数据是否公开。
2) 网络爬虫行为不法的判断方法
依据刑法构成要件理论,网络爬虫行为是否违反刑法,关键在于爬虫技术行为与刑法规范要件的对应关系,即“突破技术保护措施”、“违反Robots协议”、“违反服务协议”等技术行为,能否满足“侵入”、“未经授权”、“违反国家规定”等规范。
首先,突破技术保护措施构成“侵入”,依据《计算机犯罪司法解释》(法释[2011] 19号)第2条:“侵入”指未经授权或同意,通过技术手段规避或突破计算机信息系统安全防护措施,非法进入系统并获取存储、处理、传输数据的行为。其表现为无权进入或超越授权范围入侵特定系统,技术规避行为完全符合该规范,该行为直接侵害《刑法》第285条保护的计算机信息系统安全法益。并且技术保护措施的实施需要网站运营者持续投入较高维护成本,其本质是数据控制者对信息系统及数据资源的积极防卫意思表达。技术措施的复杂程度与法律保护强度呈正相关。措施越完善,越能凸显权益主体对数据安全的保护意愿。因此突破或规避此类技术防护的爬虫行为应被认定为不法。例如王某提供侵入程序案(上海普陀区法院,2024)8,王某破解API加密算法、伪造设备指纹“突破防护措施获取后台加密数据,属于侵入性访问”构成提供侵入计算机信息系统程序罪,从当前的司法裁判规则可以看出:若爬虫仅访问公开界面数据(如商品展示页),未突破技术防护,不构成侵入;若通过破解加密接口、伪造身份凭证等方式获取后台存储/传输的加密数据,则完全符合“侵入”要件。总之,突破技术防护的爬虫行为构成“侵入”,本质是对数据控制者技术自治权的否定。其违法性认定需综合三要素:一是措施有效性,采取的技术防护措施需达到行业标准(如金融业需符合ISO/IEC 27701);二是手段非法性,包含伪造、破解、暴力攻击等主动规避行为;三是数据状态,要求获取的是存储/传输中的加密数据(非前端展示数据)。
其次,违反Robots协议、服务协议等并不一定构成“侵入”。关于违反Robots协议是否构成刑事“侵入”目前有两种观点,一种认为突破Robots协议即满足“未经授权”要件,可成立非法获取计算机信息系统数据罪,部分民事判例类推适用(如百度诉奇虎360案)9。还有一种观点认为Robots协议仅具访问控制功能,规避后抓取前端公开数据不构成刑法侵入[10]。本文赞同第二种观点,因为Robots协议具有单方声明性,缺乏双方合意,其通过网站根目录下的`robots.txt`文件声明爬虫权限范围,并无技术强制力,可被爬虫程序直接绕过,并且Robots协议并非《网安法》第21条规定的技术措施,其属于一种行业惯例。且根据《计算机犯罪司法解释》第2条,“侵入”的成立必须同时满足对象要件,即针对后台存储/传输的加密数据(非前端公开信息),手段要件,即存在技术防护措施的突破(如规避验证码、伪造设备指纹),还有权限要件,要求完全未经授权或超越授权范围(需区别于合同违约)。因此违反可触发《反法》第12条责任,但并不必然触犯刑法。例如得物APP反爬案中,突破API加密接口构成刑事犯罪10,单纯违反Robots协议,像无视Robots协议抓取商品价格(前端公开数据)这种情况仅需承担民事责任。总之,Robots协议是行业自律工具而非刑事授权边界。刑法应严守“技术措施突破 + 后台数据获取”的双重门槛,否则其违反仅触发民事责任。
3) 优化网络爬虫技术侵犯数据结果的入罪标准
在Web 3.0时代,信息数据规模呈指数级增长,其经济价值与社会价值空前提升。非法网络爬虫行为涉及的数据量常达数万至数百万级别,而现行司法解释以“50/500/5000”组数据作为“情节严重”标准、以十倍数量差界定“情节特别严重”的量化标准,已难以有效回应大规模数据爬取行为的危害性,因此需在保证刑法谦抑性,避免刑罚泛化,确保罪责刑相适应以及立足网络爬虫技术特性的前提下优化“情节严重”认定标准。
第一,建立梯次化数量门槛,鉴于网络爬虫的便捷性与规模效应,应设立区别于传统犯罪的特殊量化标准,对于基础阈值应上浮,将“情节严重”的起刑点提升至万级数据量(如5万组公民个人信息或系统数据);同时增设行为频次维度,单次爬取未达5万组且行为次数有限的,可视为情节显著轻微;年度内实施三次以上非法爬取的,即使单次未达门槛,亦因行为人主观恶性而追责。
第二,严格适用数额标准,因为数额标准虽具可操作性,但过度依赖易忽视行为危害本质。若适用数额标准,应与数据数量、行为性质、损害后果等要素结合评价;并且要重点考察对计算机系统安全、个人信息自决权等法益的实质侵害程度。关于违法所得,应认定其不仅包括已变现收益,亦应涵盖未售数据的预期价值(体现对数据权益的前置保护)。
第三,引入举证责任倒置规则,针对涉公民个人信息与系统数据的爬取案件:
若行为人无法证明已获数据主体授权,则直接推定行为非法;若行为人主张“所爬取数据无效”以否定情节严重性的,须主动举证数据真实性及有效性;举证不能时,法院可以以实际查获的数据总量作为量刑依据。这样缓解海量数据真实性核查的司法困境,强化对恶意爬取行为的规制效能。
总之,新型犯罪形态下,“情节严重”的认定标准应依据该犯罪的行为特性予以专门调适。这一差异化量刑路径既是对新型犯罪与传统犯罪本质区别的回应,亦是践行技术中立原则与刑法谦抑性的必然要求。
5. 总结
网络爬虫技术的刑事违法性边界界定,是数字时代平衡技术创新与法律规制的关键命题。本文通过解构爬虫技术原理与行为模式,厘清了其技术中立性背后的刑事风险多元性:一方面,爬虫技术作为高效的数据获取工具,对促进信息共享和数字经济发展具有不可替代的积极作用;另一方面,其滥用可能实质侵害计算机信息系统安全、公民个人信息自决权、商业秘密等核心法益,甚至成为下游犯罪的工具。在违法性认定标准上,需突破“唯数据公开性”或“唯数量论”的片面思维,在行为本质层面,明确“侵入”的刑法内涵需以突破有效技术防护措施为核心要件,而单纯违反Robots协议或服务协议仅触发民事或行政责任;在对象属性层面,强调数据公开性不等同于授权任意爬取,系统后台加密数据的安全性与控制权应优先于前端信息的可访问性;在危害结果层面,主张建立梯次化量化标准与多维评价体系,将行为频次、技术手段恶性、系统稳定性影响等纳入“情节严重”的认定范畴,避免机械适用传统数据阈值。
NOTES
1Uniform Resource Locator,通常简写为URL。URL是互联网上标准资源的地址,可以从互联网上得到的资源的位置和访问方法的表示。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。URL就是Web地址,俗称“网址”。Internet服务器或万维网服务器使用“超文本传输协议(HTTP)”,服务器中目标文件的URL地址通常以地址“http://”开头。而作为初始URL的通常是网站的首页或列表页。基本URL包含模式(或称协议)、服务器名(或IP地址)、路径和文件名。
2HTTP服务器请求信息验证:通过对访问爬虫技术的验证(是否存在相关字段)来识别访问的主体是使用浏览器的用户还是爬取数据的网络爬虫。
3Cookie验证:即在用户向搜索查询的网站发送访问和浏览请求时,服务器会通过访问主体的Cookie值进行判断,将访问用户和网络爬虫技术区分开来。
4阈值监测:在服务器或者是网域访问的过程中,对访问人员的访问频率设定临界点,若网络爬虫访问频率超过网站设定的临界值,就会启动网站相应的保护或者反反爬虫机制。
5技术中立性:源于“工具无罪”理念,即技术本身不具道德属性,其价值由使用者决定。在法律上,典型案例如美国“索尼案”(1984),确立了“实质性非侵权用途”原则。
6广东省深圳市南山区人民法院(2017) 0305刑初153号刑事判决书。
7北京市海淀区人民法院(2017)京0108刑初2384号刑事判决书。
8上海市普陀区人民法院(2024)沪0107刑初501号刑事判决书。
9北京市第一中级人民法院民事判决书(2013)一中民初字第2668号。
10上海市普陀区人民法院(2024)沪0107刑初501号刑事判决书。