1. 问题的提出
近期人工智能产品“Chat-GPT”引发广泛关注。而此类生成式人工智能的发展离不开海量数据的支撑,可见数据这一生产要素的重要价值。数据爬取是获取数据的重要途径,如今在互联网中应用广泛。但相较于美国和欧盟对数据爬取行为做出的引导与规制,我国相关领域仍是一片空白,现行法律并未对数据爬取行为的合法边界作出清晰规定。
在实践中,不同法院对爬取行为的合法性边界认定不一。如在谷米诉元光一案中,法院认为被告未经原告许可即爬取数据,属于不正当竞争行为1。而在微博诉云智联一案中,法院认为原告对被告数据爬取行为有一定容忍义务2。且各地法院在裁判文书中往往利用概括性条款或者一般性原则,未进行细致化论证,难以为数据爬取相关主体提供明确引导。
因此,本文希望基于爬虫软件背后的技术原理并结合目前实务中涉数据爬取行为的主要纠纷,厘清数据爬取行为的合法性边界,保障其在法治轨道上平稳发展。
2. 数据爬取行为的类型划分
界定数据爬取行为合法性的前提是全面了解此类行为的特征。故本部分旨在从司法实践出发,结合技术原理,类型划分数据爬取行为。
2.1. 爬取方爬取数据行为
爬取方爬取数据行为类型主要包括破坏被爬取方信息系统功能的爬取行为和未经许可擅自爬取的行为。
2.1.1. 破坏被爬取方的信息系统功能
对被爬取方信息系统功能造成损害的爬取行为包括以下两种:攻破式爬取行为和平和式爬取行为。攻破式爬取行为是指爬取方在爬取数据时,强行攻击、突破数据持有方设置的技术保护措施,强行爬取数据,手段包括破解验证码3、私自安装软件、插件与程序等4。平和式爬取行为是指爬取方仅单纯进行爬取,而未事先使用任何技术手段为后续的爬取行为驱除障碍。
2.1.2. 未获许可擅自爬取数据
在此类型中,被认定为非法数据爬取的行为方式有两种:一是通过非法手段获取访问权限后进入系统,借助爬虫程序,自动收集相关数据;二是绕开保护措施,直接利用网络爬虫技术,进入被爬取方后台,抓取数据。
第一种行为类型中,爬取方常通过前置性的非法手段获取访问权限,例如撞库5、经用户授权获取其账号及密码后再超越用户的授予权限非法使用6或者勾结被爬取公司内部员工7,以表面上“合法”的途径进入数据控制方的系统爬取数据。
第二种行为类型中,爬取方常利用被爬取方的程序漏洞8,或者部署内含可以避开保护措施的数据爬取程序9,绕过被爬取方设置的保护措施,直接通过爬虫程序进入被爬取方后台爬取相关数据。
2.2. 爬取方使用数据行为
爬取方使用数据行为可分为对一般数据的使用行为和对内容数据的使用行为。
对一般数据的使用行为主要体现在以下两种途径:同质性替代与修改原告数据以获取竞争优势。在同质性替代路径中,爬取方的行为一般表现为单纯搬运原告数据,未进行任何修改或创新性利用;而在修改原告数据以获取竞争优势的路径中,其行为一般表现为“删除原告设置的访问数据前的层层广告”或“为公众免费提供其本来需要在原告平台开通VIP才能获取的资源”。
对内容数据的使用主要是指爬取方对其获取的公民个人信息、知识产权等数据的使用。使用以知识产权为内容的数据常表现为“将抓取的小说数据免费提供给用户阅读”10、“通过插入广告、付费阅读等方式获取经济利益”等11。使用以公民个人信息为内容的数据常表现为“未经许可爬取用户的个人信息后,长期保存”12、“未经网络运营者及用户同意许可,搜集大量公民个人信息并出售”13等。
3. 爬取方数据爬取行为的合法性边界
爬取阶段是数据爬取行为的核心阶段。单纯的爬取行为并不一定违法。数据爬取行为的合法性应结合爬取对象、法律后果等综合判断 [1] 。
首先,若爬取方爬取国家安全、国家尖端技术、国防军事等特殊信息系统,则单纯的爬取行为本身即可构成非法侵入计算机信息系统罪。在客观上,此类特殊信息系统涉及重大国家利益,普通网络用户并不具有访问权限,故爬取行为具有非法性;在主观上,爬取方往往明知其所爬取的网络系统属于上述特殊的信息系统,主观故意明显;针对非法侵入计算机信息系统罪,只要行为人具有侵入行为即可构成此罪。
其次,若爬取方爬取的并非上述特殊信息系统,则应综合考察爬取行为的性状及后果考察爬取行为的合法性。第一,当爬取方采取暴力性技术手段(例如私自安装软件、插件与程序)或在被爬取系统中植入病毒以突破被爬取方的技术限制,造成被爬取系统程序损害,进而破坏了被爬取方的信息系统功能时,其行为可能落入破坏计算机信息系统罪的规制范围。在客观上,一方面此类爬取行为未获得被爬取方许可,具有非法性,另一方面此类爬取行为损害了被爬取方信息系统功能,侵害了破坏计算机信息系统罪所保护的法益;在主观上,爬取方实施此类爬取行为时往往具备故意,主观恶性较为明显。同时在此情形下,如果爬取方复制、保存所爬取的数据并传输到自身信息系统之中,其行为也会构成非法获取计算机信息系统数据罪。第二,当爬取方利用高频、高速的爬取技术爬取数据,超出了被爬取系统的负荷严重影响该系统的正常运行,此时不论其行为是否取得被爬取方许可,都具有违法性。根据《网络安全管理办法》第十六条,爬取方采取自动化手段爬取数据时不得妨碍网站正常运行,且该条并未以“爬取方未经许可”为前提,因此即使被爬取方未对爬取方的爬取行为作出明文限制,爬取方在进行数据爬取时也应根据被爬取网站的承受能力、访问情况等谨慎设置爬虫代码的爬取速度和频率,不能超过网站日均流量的三分之一 [2] ,否则其爬取行为具有违法性。同时此种情形下,若爬取方明知其所采用的爬取技术会阻碍被爬取方的信息系统、业务流程的正常运行,其爬取行为同样也会构成破坏计算机信息系统罪。第三,当爬取方未经许可擅自爬取他人数据,但并未损害被爬取方的信息系统功能时,单纯的爬取行为并不具有违法性,而应该结合后续使用行为综合判断合法性。
如上所述,被爬取方通常通过合约授权与技术措施两种方式限制爬取方爬取数据的范围。有学者引入美国的“代码理论”,指出应采用合同法、侵权责任法等私法规制违背合约授权的爬取行为,以刑法规制爬取方避开或者突破技术限制的爬取行为 [3] 。另有学者认为无论上述哪种形式的授权,都仅是被爬取方的单方意思表示,是其个人私利的体现。而规范标准则要考虑个人、社会乃至国家的多方利益,更具复杂性。而且大型互联网公司设定的爬虫协议普遍仅允许少数大型互联网公司抓取数据,而禁止其他普通用户抓取,具有实质不平等性以及垄断数据资源的倾向。因此不能仅仅根据爬取方突破被爬取方的单方授权这一形式标准来确定其是否构成民事侵权或者刑事违法 [4] 。
尽管从司法实践来看,无论是绕开被爬取方的合约授权还是技术保护措施,都有可能构成不正当竞争乃至于犯罪,但是笔者认为此种情形并不宜触发刑法。刑法是社会的最后一道防线,应当具备谦抑性。如今我国刚刚步入数字经济时代,数据权利主体、权利内容乃至权利边界的划定均未形成共识,不宜匆忙动用刑法规制单纯的数据爬取行为,这不仅可能损害数据流通、经济创新,还可能导致同案不同判、损害法律权威。况且刑法强调罪刑法定,其规范标准的制定需要谨慎衡量各方利益。
4. 爬取方数据使用行为的合法性边界
针对数据爬取后续使用行为之合法性,实践中法院主要以数据性质为划分维度,分析不同类型数据的后续使用行为之合法边界。
依据开放性标准,数据可分为公开数据和非公开数据 [5] 。公开数据一般是指数据所承载的信息内容已经公开且处于可访问的状态 [4] 。而非公开数据一般是指采取了技术保密措施的数据 [6] 。学界一般认为使用非公开数据行为的合法性建立在爬取行为的合法性之上 [7] ,实践中法院也采纳了此种观点14。而针对使用公开数据行为之合法性,学界存在较大争议。因此,本部分将集中讨论使用公开数据行为的风险及防范思路,以期解决现实问题。
结合学界观点,公开数据可以细分为:一、受到法律特别保护的数据,如包含公民个人信息、知识产权内容的公开数据;二、未受到法律特别保护且无明确权利属性的数据,学界一般将其定义为“一般数据”或“普通数据” [8] 。公开数据使用行为合法边界的争议焦点主要集中于是否侵犯公民个人信息的权益、著作权、构成不正当竞争等三方面,因此笔者将聚焦使用此三类公开数据的行为风险,并提出具体的防范思路。
4.1. 受法律特别保护的公开数据:公民个人信息
根据《个人信息保护法》(以下称为《个保法》)第13条,数据的公开性可以成为爬取方爬取个人信息数据的合法性基础。然而这并非意味着公开的个人信息脱离了法律的保护范围。相反,基于《个保法》第27条的规定,信息主体对公开的个人信息仍具有控制权,该控制权主要表现为:有权拒绝爬取方后续使用包含其个人信息的数据;有权要求爬取方在其合理期待的范围内使用数据;有权要求爬取方的使用行为不得损害其重大权益 [9] 。因此,对处于公开状态下的公民个人信息数据,即使爬取行为合法也并不意味着后续的使用行为合法 [10] 。故下文将立足于《个保法》第27条的规定,从个人信息使用之限度、信息主体对使用之限制、信息主体的事前同意三方面具体分析后续使用行为的风险及防范思路。
在展开具体分析之前,笔者在此需要先明确公开数据中公民个人信息之性质。个人信息的关键特征在于可识别性 [11] ,因此,行为人在爬取已公开的个人信息时,《个保法》第27条对其后续使用行为之限制仅限于已识别或具有可识别性的个人信息。
4.1.1. 个人信息使用之限度
《个保法》规定个人信息处理者处理已公开的个人信息,应当符合该个人信息被公开时的用途。由此可知,立法者将个人信息被公开时的目的、用途视为限定对个人信息后续利用范围的重要因素 [9] ,即使用公开个人信息须遵循目的限制原则 [12] 。
在获取包含公民个人信息的公开数据后,爬取方取代被爬取方成为了下一环节的个人信息处理者,因此,爬取方在后续使用数据时,同样需要遵循目的限制原则。遵循目的限制原则的前提是了解公民个人信息公开时的目的和用途。爬取方的后续使用行为应当与公开时的目的相兼容,不得背离信息公开时的最初场景和合理期待 [9] 。针对目的和用途不明的公开数据,爬取方不可随意使用,而应尽到合理、谨慎的义务 [13] ,即理性人在善意情况下所尽到的注意义务和保护义务 [14] 。此外,根据《关于加强网络信息保护的决定》第1条的规定,爬取方对于公民个人信息出售牟利的行为不符合目的限制原则。
因此,爬取方在后续使用过程中若未尽到合理谨慎义务而使用获取的公开数据,将会构成对公民个人信息的侵权,甚至会构成侵犯公民个人信息罪。为避免触犯法律,爬取方应该基于信息公开时的场景、被爬取平台的性质、隐私声明以及被爬取方公开信息后主体的反应行为等因素综合判断个人信息公开时的目的和用途利用此类公开数据,不得通过贩卖或者非法提供给他人的方式获取经济利益。
4.1.2. 信息主体对使用之限制
一方面,依据《个保法》第27条,信息主体拥有对个人信息的自我决定权 [15] ,此种权利也得到了我国司法实践的认可15。自我决定权系指信息主体有权决定他人对个人公开信息的进一步加工,以保证已公开信息之真实。因此,当信息主体发现爬取方对公开个人信息的使用行为侵害其合法权益时,有权向爬取方发出拒绝使用的通知。
另一方面,由于此种个人信息已被公开,故信息主体拒绝爬取方使用的权利并非不受限制 [16] 。有学者指出,当个人明确拒绝行为人使用公开的个人信息时,即便使用行为合理,行为人也应停止 [17] 。但笔者认为,在被爬取方基于合法理由使用公开的个人信息时,信息主体应承担容忍义务。这种义务一方面来自于信息主体选择公开个人信息的必然后果,另一方面则源于促进数据流通的需要。因此即使信息主体明确拒绝,爬取方仍有权在合理范围内使用此类涉及公民个人信息的公开数据。相反,如果爬取方收到明确拒绝使用的通知后仍不停止超出合理范围的使用行为,将会面临侵犯公民个人信息的风险。
因此在接到拒绝使用的通知后,爬取方应合理审查其使用公开数据的行为,若未超出合理范围的话,应向信息主体明确表明;若超出合理范围,应立即停止使用行为,否则将面临违法风险。
4.1.3. 信息主体的事前同意
《个保法》规定处理对个人权益有重大影响的公开个人信息须经信息主体同意,体现了对信息主体的特别保护。“对个人权益有重大影响”是指处理该信息会对信息主体的生命、身体、自由、财产或其他利益造成重大不良影响 [12] ,对个人权益是否造成重大影响是审查使用所获公开数据的行为是否合法的关键。评判是否对个人权益造成重大影响要采取利益衡量的方法,即对爬取方的使用行为所带来的财产利益、社会公共利益与信息主体控制公开数据使用行为产生的个人利益进行衡量 [9] 。根据比例原则,如若保护的个人利益大于所带来的财产利益和社会公共利益,此时使用行为便符合“对个人权益重大影响”这一要素,爬取方应事先征得信息主体和被爬取方的同意。
因此,爬取方在后续使用爬取的涉及公民个人信息之公开数据时,应考察其使用行为是否给信息主体的个人权益造成了重大影响。如果存在上述情形,爬取方应履行告知义务,明确、清晰地告知信息主体其使用的行为内容、公开数据种类、自身名称和联系方式等,以获取信息主体和被爬取方的同意。否则,爬取方的后续使用行为仍然存在侵犯公民个人信息之违法风险。
4.2. 受到法律特别保护的公开数据:著作权
针对享有著作权的公开数据,法院一般认为爬取方未经著作权人同意将作品通过信息网络传播侵犯著作权中的信息网络传播权16。司法实践观点也认为爬取方爬取数据后在自己的网站上公开传播,则可能侵犯信息网络传播权 [18] 。此外,此类使用行为还会被认定为侵犯著作权罪中的“发行”行为。如果爬取方后续使用此类数据并牟利的话,则符合侵犯著作权罪的构成要件 [4] 。
因此,为避免被认定为侵权行为,爬取方在未经著作权人同意的情况下,不得通过信息网络传播获取的作品数据。提供链接服务的搜索引擎企业不应利用转码技术、深度链接技术等技术使用获取的数据 [7] 。同时,若爬取方使用数据后接到权利人关于侵权的投诉和通知时,应当及时进行核实。若确实侵犯他人权利,应立即停止使用,否则爬取方将可能构成侵犯信息网络传播权。
然而,爬取方并非完全不能利用包含作品内容的公开数据。为促进作品的传播,我国著作权法中规定了合理使用原则。根据该原则,若爬取方使用爬取数据是基于内部学习、科学研究、数据分析等合理用途,便不具有违法性。但爬取方在使用过程中仍应保持作品的完整性,如保存权利人的信息、不得对作品进行不当修改等。否则,爬取方将面临侵犯保护作品完整权之风险。
4.3. 未受到法律特别保护且权利属性不明的公开数据
未受到法律特别保护且权利属性不明的数据,包括排除作为商业秘密及作品的商业数据、企业数据等。此类数据所产生的纠纷主要集中在不正当竞争领域,法院主要是从“违反商业道德或诚信原则”、“争夺流量用户”、“造成被爬取方损害”三个要件认定使用行为构成不正当竞争。为贴合司法实践,笔者也将从这三方面分析使用此类数据行为中存在的风险,并提出具体防范思路。
4.3.1. 前提条件:违反商业道德
竞争行为的不正当性源自于其违反了商业道德与伦理 [19] 。目前在司法实践中,法院往往利用商业道德认定爬取方的数据使用行为违法。在目前规制数据爬取行为具体条文出台之前,应当尊重商业道德的约束作用。
而判断是否违反商业道德,同样需要采取利益衡量原则。如在大众点评诉百度案中,法院认为被告全文展示来自原告网站点评信息行为超过了必要限度,其欲实现提升消费者体验与丰富消费者选择的积极效果与给原告所造成的损失不符合利益平衡原则,从而认定原告数据使用行为构成不正当竞争17。诸多学者也均支持应从利益平衡角度出发,综合评价后续使用行为所产生的积极影响和被爬取方利益的损害,合理定性后续使用行为 [20] 。
因此,爬取方使用虽未受到法律特别保护且权利属性不明的数据时,一方面其应评估使用行为所带来的积极效益,如是否提高了社会效率、促进创新;另一方面其应判断该行为是否会对被爬取方带来损害以及损害范围,后将两者进行衡量。在反不正当竞争法的各类意义上,保障经济活动中竞争秩序的公平具有较高的优先级 [21] 。同时,消费者权益作为一种群体性利益,也应优先于经营者的利益。基于此利益位阶,爬取方在后续使用中注重维护竞争秩序和消费者权益。
4.3.2. 行为方式:分流用户、争夺流量
在互联网行业,采用不同技术手段争夺用户注意力已然成为常见的竞争手段 [22] 。爬取方在使用数据过程中常常形成实质性替代,以截取被爬取方的用户,形成自身竞争优势。而此类数据往往包含数据生产企业的实质性投入,如企业对数据的收集、编排,即使此类数据权属尚不明晰,但应当尊重企业利用该类数据获取经济价值的权利 [23] 。当爬取方的实用行为侵犯了其正当利益,该使用行为就构成不正当竞争 [5] 。
因此,爬取方在使用上述数据过程中,应首先查明被爬取方使用公开数据的范围,以此考量其业务是否与被爬取方形成竞争关系。爬取方应避免在与被爬取方形成竞争关系的领域内使用此类数据,挤占其市场份额,分流其用户。如在被爬取方的竞争产品或者服务中发布、使用该等数据。即便在不具有竞争关系的产品和服务中使用,也应说明数据来源。否则,若其使用行为实质性地替代了被爬取方所提供的服务和产品,就可能面临不正当竞争的风险。
4.3.3. 行为结果:造成被爬取方损害
移动互联时代,社交软件和移动应用的产生催生了流量经济。在流量经济下,更多的用户量意味着更多的商业机会和经济价值18。因此,将“用户/流量流失”视为一种新型损害并给予适当救济的正当基础 [18] 。在司法实践中,法院也以“流量/用户损失”为标准认定被爬取方遭受的损害。故爬取方在使用公开数据时应预估其行为是否会造成被爬取方的用户转移或流量损失,如若其后续使用行为攫取被爬取方的用户资源,影响被爬取方在广告运营等方面的收益,其行为就存在被认定为不正当竞争的风险。
5. 结语
数据爬取是数据需求方获取数据的主要方式,而能否爬、如何爬,实际上是数据开放与数据保护边界平衡的子问题,也是迫切需要法律回应的问题。但无论是法律法规还是司法实践,均未对数据爬取的合法性进行明确规定。本文基于司法实践与学界观点,分阶段、分类型讨论数据爬取行为的法律风险,并基于类型化的风险提出相应的防范思路,以期推动数据爬取在法治轨道上运行,进一步促进数据的流通与开放。
致谢
感谢导师对本文的悉心指导与支持,感谢在寒冬与暖春锲而不舍的我们。
NOTES
1深圳市中级人民法院(2017)粤03民初822号民事判决书。
2北京市海淀区人民法院(2017)京0108民初24512号民事判决书。
3北京市朝阳区人民法院(2020)京0105刑初2594号刑事判决书。
4江苏省镇江市京口区人民法院(2020)苏1102刑初322号刑事判决书;扬州经济技术开发区人民法院(2019)苏1091刑初157号刑事判决书。
5浙江省杭州铁路运输法院(2018)浙8601民初956号民事判决书。
6浙江省杭州市西湖区人民法院(2020)浙0106刑初437号刑事判决书;北京市朝阳区人民法院(2019)京0105刑初2788号刑事判决书;四川省峨眉山市人民法院(2020)川1181刑初49号刑事判决书。
7江苏省苏州市相城区人民法院(2018)苏0507刑初239号刑事判决书。
8浙江省杭州市余杭区人民法院(2014)杭余刑初字第1231号刑事判决书。
9浙江省绍兴市越城区人民法院(2019)浙0602刑初636号刑事判决书。
10上海市浦东新区人民法院(2014)浦刑(知)初字第24号刑事判决书;上海市浦东新区人民法院(2015)浦刑(知)初字第12号刑事判决书;上海市杨浦区人民法院(2018)沪0110刑初150号刑事判决书。
11北京市海淀区人民法院(2020)京0108刑初237号刑事判决书。
12浙江省杭州市西湖区人民法院(2020)浙0106刑初437号刑事判决书;北京市朝阳区人民法院(2019)京0105刑初2788号刑事判决书;四川省峨眉山市人民法院(2020)川1181刑初49号刑事判决书。
13湖北省长阳土家族自治县人民法院(2018)鄂0528刑初52号刑事判决书;湖南省沅江市人民法院(2020)湘0981刑初77号刑事判决书。
14北京市海淀区人民法院(2017)京0108民初24512号民事判决书;北京知识产权人民法院(2019)京73民终3789号民事判决书。
15江苏省苏州市中级人民法院(2019)苏05民终4745号民事判决书。
16北京市海淀区人民法院(2010)海民初字第4253号民事判决书。
17上海知识产权法院(2016)沪73民终242号民事判决书。
18北京知识产权法院(2016)京73民终588号民事判决书。