1. 引言
近年来,生成式人工智能技术的迅速发展与广泛运用,彻底改变了人类智力成果的传统创造模式。ChatGPT、Deepseek等人工智能大模型借助海量的信息摄入、学习、训练与测试造就了极强的输出能力与效率。然而,生成式人工智能在运行过程中也面临了复杂的著作权法问题,尤其在数据输入及训练阶段,模型需对现有作品进行大规模复制与预处理,这些行为可能触及著作权法上的复制权等专有权利,我国现行法律却未能对这些问题进行回应,导致人工智能开发过程存在较大的侵权风险。在此背景下,文本与数据挖掘(Text and Data Mining,简称TDM)版权例外规则逐渐成为学界与立法机关的关注焦点。作为一项国际层面的制度创新,TDM版权例外规则已在欧盟、日本、英国等法域得到不同程度的确立与适用,其中欧盟TDM版权例外规则又因规则完备程度较高和布鲁塞尔效应而拥有显著的国际影响力。
本文充分考察欧盟TDM版权例外规则的具体内容并分析其优势与不足之处,于扬弃的基础上提出在我国著作权法框架中将TDM纳入合理使用范围的路径以纾解当前的TDM行为合法困局,并配备对应的技术措施如水印类技术等,与此同时增加生成式人工智能开发者披露义务和相关作品著作权人的利益平衡机制。通过上述制度设计,力求为生成式人工智能的TDM行为提供明确的合法性依据,化解模型开发潜在的著作权侵权风险,进而激励更多主体投入生成式人工智能的研发与升级,实现利益均衡下的联动发展。
2. 生成式人工智能TDM行为的著作权合法困局及纾解路径
2.1. 生成式人工智能TDM行为的著作权侵权风险
生成式人工智能的运行过程主要分为输入–训练–输出三个阶段,输入阶段通过网络爬虫等技术收集各种文本、图像、音视频等资料,数据训练阶段由模型算法提取内在规律,最后根据用户的指令基于现有的输出能力给出相应的结果。在输入及训练阶段,大量的文本与数据是人工智能模型创作能力的养分,模型通过TDM行为学习并挖掘海量数据中的普遍规律,TDM技术在这一过程中的功能主要是对搜集到的数据进行自动分析和特征提取,以得到有价值的信息或趋势[1],通过这一技术运作过程生成式人工智能才能够具有且不断提高其输出能力。正如吴汉东教授所言:“文本和数字挖掘,可视为从另一角度对人工智能技术过程的表述”[2]。
2023年11月,小红书及其旗下Trik软件的主体公司,由于未经授权使用作品训练模型并生成风格与原作类似的作品而被起诉。2024年6月,北京互联网法院审理了这一案件1。这并非个例,国内人工智能企业的井喷式发展已使得同类型的争议与相关诉讼案件数量剧增,生成式人工智能在数据输入及训练阶段的合法性评价,已成为亟待解决的问题。《生成式人工智能服务管理暂行办法》这一初步的法律规制框架对人工智能输出内容的部分侵权问题作出了回应,但关于数据训练的输入端问题如何处理答案依然悬而未决。生成式人工智能具有较强的数据依赖性,训练数据的数量与质量是人工智能输出能力的决定性因素[3],极大影响了人工智能所能达到的创作高度。但在目前我国的著作权法体系之下,TDM行为尚且缺乏合法依据,可能面临多种侵权风险。
在数据输入与训练阶段,对不同来源数据的收集与学习涉及对相关作品的复制与预处理行为,可能侵犯的著作权主要为复制权和改编、翻译、汇编等演绎权。目前市面上生成式人工智能的数据训练库分为模型开发者自建自用的数据集和第三方建立再授权模型开发者使用的数据集两种情形,但无论建立主体是哪一方,都要经历两个阶段。阶段一需通过爬虫等技术获取各种网络作品信息,再将云端作品复制存储,此类复制行为涉嫌侵犯所使用作品的复制权。阶段二则需对收集到的信息进行预处理,包含对信息进行翻译、删改、整理、汇总、格式转化等行为,有侵犯他人作品翻译权、改编权和汇编权的风险。具体而言,阶段二为了将阶段一收集到的文本与数据转换为机器可读的形式,需要将其转化统一格式,这一行为改变了数据和文本的外在形式,但实质内容依然相似,此种转换与改编行为类似,亦可将其解释为对原始文本数据的翻译行为,因此阶段二进行的数据预处理可能涉嫌侵犯作品的翻译、改编、汇编等演绎权。在“全球AIGC平台侵权第一案”的奥特曼案2中,法院认定人工智能开发者侵犯了原告的复制权与改编权,这一司法判决就佐证了生成式人工智能著作权侵权风险的真实存在。
2.2. 生成式人工智能TDM行为的合法路径探索
在我国著作权法框架中,TDM行为可尝试的合法路径有三种,分别为法定许可、授权许可与纳入合理使用范围,而三者相较之下,合理使用或能成为生成式人工智能TDM行为合法化的最优解。
法定许可的适用范围相当严格,根据当前法律规定,主要可以被划分为教科书编写、报刊转载、录音制作和广播电视播放四种情形,法定许可无需著作权人同意,但使用后需要按照法律规定向权利人支付报酬,TDM行为显然不属于现行著作权法四类法定许可情形里的任意一种。如果要突破现有范围,为TDM行为专设法定许可,也会在确权、分配等环节面临多种难题,与之配套的规定与职能相当复杂,可操作性较弱。
授权许可的方式对人工智能企业而言合法成本则极高,逐一获得著作权人的许可在实践层面几乎不可能完成。数据显示,GPT系列人工智能模型预训练使用的开源数据库中,BooksCorpus包含超过7000万个句子,Wikipedia包含42亿个词、The Pile包含825 GB数据[4]。由于数据训练阶段涉及的作品数量和范围都极大,因此得到所有相关权利人的授权许可绝非易事。一方面,许多网络资源并未标明权利人,要明晰所有权利来源不具有现实可能性,去查证的难度和时间成本都相当大且未必能达成。此外,在互联网数据具有跨国性特征的背景下,如遇非本国的数据及文本,查明具体权利人和作品其他相关信息更是难上加难。另一方面,对于有明确权利人的作品,若要依次进行谈判获得许可并给付报酬,谈判与经济成本的总和会远远超出人工智能数据集开发者的承受能力。若坚持要求海量的训练数据都需获取授权后才能使用,合法可用的训练数据将大幅缩水,导致的只有两种后果:一部分人工智能开发者对侵权风险望而生畏,只能在公共领域的过时内容上培训他们的模型,致使技术发展停滞;还有部分开发者可能会认为违法的收益大于风险,选择采用更隐蔽的方式违反授权规则,导致“违法过剩”的局面,引发治理困难并影响法律的权威。
我国现行的著作权合理使用规则尚且无法涵摄TDM行为。《中华人民共和国著作权法》(简称《著作权法》)第24条规定了合理使用的“三步检验法”、12种著作权具体的合理使用情形与“法律、行政法规规定的其他情形”兜底条款,人工智能数据输入及训练阶段中涉及的TDM行为并不在这12种具体情形的范围内,与已有可能相关情形进行关联的难度也较大。由于TDM行为的主体是自动化分析技术及背后的人工智能,多以商用目的收集并处理海量数据,所以较难符合“个人合理使用”和“教学或科研少量复制合理使用”等教育和公益性场景。此外,在其他法律法规中并没有对这一行为的版权例外豁免,所以在司法实践中援引兜底条款的难度也较大,那么TDM行为就不能依据现有的著作权法法律框架获得合理使用的豁免。然而生成式人工智能的数据输入及训练阶段的TDM行为属于非表达型机器学习,仅涉及收集的文本及数据本身,并不会使用和传播原作品的独创性表达[5],因而不会损害相关权利人的利益,将其认定为合理使用行为合乎我国著作权法合理使用制度的内在逻辑与价值取向,相较于法定许可和授权许可面临的理论与现实窒碍也少得多,将其作为TDM行为的合法路径选择是当前法律框架之下的最优解。
3. 欧盟TDM版权例外规则的内容及其适用评析
3.1. 欧盟TDM版权例外的具体规则和司法实践
欧盟的数据及人工智能立法位居全球前列,相关规则十分周详,2019年3月,欧盟通过《数字化单一市场版权指令》(Directive on Copyright in the Digital Single Market,简称DSM指令),该指令将TDM定义为任何旨在分析数字文本和数据以便生成包括但不限于模型、趋势、相关性等信息的自动分析技术[6]。
DSM指令中的TDM版权例外规则的条件可以从不同的维度综合概括。在行为类型上,可被豁免的行为限于TDM过程中涉及的“复制”和“提取”两种行为,但不得超出合理范围或构成对作品的实质性替代。在适用目的上,《DSM指令》第3条确立了以科学研究目的TDM的强制性版权例外规则,保障研究机构和文化遗产机构的合法使用;而第4条则进一步规定了出于一般性目的的TDM非强制性版权例外,允许包括商业公司在内的更广泛的主体开展TDM行为[7]。此外,在作品客体方面,TDM版权例外规则面向的作品客体需由合法渠道获取。最后,在法律效力上,需注意任何版权人或数据库权利人都不得用合同条款排除适用以科学研究为目的的TDM版权例外规则,该规定保障了这一规则的有效实施;但对于不以科学研究为目的的一般性TDM版权例外规则,权利人可以通过机器可读的方式声明“保留权利”予以限制。
2024年3月13日,欧洲议会批准通过了《人工智能法案》(Artificial Intelligence Act),这是世界首部针对人工智能领域的全面监管法规,法案规定了通用人工智能模型的提供者在责任主体、TDM许可与例外等维度所需履行的合规义务[8]。法案还对TDM增设了更高的透明度义务要求,要求使用受著作权保护的作品时记录并公开摘要,摘要需包含对作品充足详细的使用情况。《人工智能法案》除了进一步强调对TDM行为合法性的认可,其对人工智能模型透明度和开发者公开义务的规定亦为TDM在合法轨道上运行提供了指引。
欧盟TDM的相关规定将绝对豁免主体的范围局限于科研机构与文化遗产机构,在德国汉堡地区审理的Kneschke & LAION一案3中法院又承认非营利组织LAION以人工智能的数据训练为目的自动下载图片的行为具有合法性,属于非商业性的TDM合理使用。这一司法判决标志着TDM版权例外规则突破了原有规定中以科学研究为目的的桎梏,开始向人工智能数据训练场景拓展,然而这一规则的适用范围在实践中并未达成统一。对Google公司的数据训练行为,法国法院就拒绝引用TDM规则给予豁免,声明不符合该豁免规则的非商业性使用前提。司法实践证明,欧盟的TDM版权例外规则在科学研究与商业应用之间尚未实现平衡,还需进一步探索如何调整相关规则。
3.2. 欧盟TDM版权例外规则的优劣评析与中国镜鉴
欧盟的TDM版权例外规则具有前瞻性与突出优势,通过专门立法的方式为TDM行为提供了法律基础,同时明确了TDM的合法性边界,降低了人工智能活动在版权合规上的不确定性,降低知识的传播成本进而提高了社会公共知识的数量与质量,产生了巨大的社会效益。此外,立法对训练数据透明度的重视则有助于建立权利人监督与问责的制度前提,促成人工智能规范发展与著作权人权益有效保障的双赢局面。
然而主要由DSM指令建立起的欧盟TDM版权例外规则,在司法适用中也产生了诸多不同的理解与争议。其一,一般目的的TDM行为涉及的作品允许其著作权人选择权利保留,但海量作品的权利主张与退出声明追踪实际操作起来难度较大,成本与技术要求都很高。其二,在欧盟TDM版权例外制度下,著作权人拥有选择退出权的强保护模式可能加剧技术创新与著作权保护之间的张力,从而导致人工智能开发者无法真正放心、大规模、无障碍地使用所需数据,阻碍公共领域的作品使用[9]。其三,司法实践中各成员国法院在TDM行为的“科研”与“商业”主体及目的判定上存在分歧,导致商业主体的合规成本与面临的法律风险不够明确,不能拥有稳定的合法预期。
我国关于合理使用的立法体例与欧盟相似,但是在欧盟已经赋予人工智能TDM行为涉及的作品使用合法性的背景下,我国面对这一问题依然未置一词。这说明我国的著作权制度已与蓬勃发展的生成式人工智能技术脱节[10],亟需对相关问题作出法律上的回应,可以参考欧盟法的相关规定,与国际接轨从而适应人工智能时代的创新需求,并以立法和司法实践贯彻“激励创新、包容审慎”的人工智能治理理念。
4. 生成式人工智能TDM行为合理使用规则的中国方案
4.1. 明确TDM行为作为合理使用具体情形的要件
如上文所述,将生成式人工智能的TDM行为划入著作权法的合理使用范围有理论基础支撑和实践呼唤,亦有国际经验参考。由于我国在2020年已经对著作权法进行了第三次修订,为了维护法律的稳定性,可考虑先以司法解释或者著作权法实施条例的形式先行调整,根据《著作权法》第24条第1款第13项“法律、行政法规规定的其他情形”把TDM行为纳入著作权合理使用的范围中,为司法实践遇到的相关著作权问题争议提供裁判依据,待日后条件成熟之后再通过修订著作权法的方式把TDM行为加入著作权合理使用的具体情形中。司法解释或实施条例先行可以极大地提升相关制度的调整效率,也能够根据其适用效果再决定修法的具体事宜。至于TDM行为合理使用规则的具体要件,可从主体、客体、行为、目的四个方面进行规定。
4.1.1. 主体应具备开放性
欧盟的TDM版权例外规则的收益主体限定为研究组织和文化遗产机构,然而生成式人工智能模型的研发机构多为商业主体而非科研机构,如果将主体限定为科研机构,作为我国当前人工智能模型研发主力军的大型科技和软件公司会十分受限,而本身可利用资金资源就十分有限的初创公司和中小型公司更会失去创新激励,最终阻碍人工智能产业的持续发展[11]。我国宪法规定应保护公民进行科学研究、文艺创作和其他文化活动的自由。所以TDM版权例外的适用主体应当突破科研机构的范围,保持主体的开放性,让这一制度便利亦能惠及其他组织与个人,给予人工智能初创企业、互联网科技企业以及致力于科学研究的机构和个人适当的TDM版权例外豁免权利,促进科学研究与创新,保证TDM技术的充分应用与发展。
4.1.2. 行为限定为临时复制及演绎行为
合理使用的行为类型应当涵盖临时复制行为和翻译、改编、汇编等演绎行为。为复制和演绎行为赋予合法性是推动TDM使用的必要保障,但应注意这些行为应当限定在必要限度内。若TDM实施过程中对作品的复制和演绎行为超出了学习范畴,进行了实际的传播,就可能引发对原有作品潜在或实际的替代效应。所以应只给予数据输入及训练阶段因技术过程需要产生的临时性、附带性的复制与演绎行为,为验证模型生成结果亦可对复制件进行一定时间的保存,但需在尽可能短的时间内删除复制件。
4.1.3. 客体应为合法渠道获取的作品
为了实现生成式人工智能开发者与数据训练相关作品著作权人之间的利益均衡,应当要求TDM行为只能对通过合法渠道获取的作品实施。由于实践中文本及数据种类繁多、来源复杂,溯源并判定其合法性也较为困难,所以可以考虑建立数据治理沙盒并鼓励人工智能开发者参与沙盒实验,通过观察沙盒中的实际情况辅助合理使用的判断。比如可以在沙盒中向人工智能开发者提供训练数据,按照风险等级将这些数据划分为高风险(如未经授权的专有作品)、中低风险(如用户生成内容)与无风险数据(如公共领域的免费开源数据),并观察各类数据在收集、转化和使用过程中遇到的问题。通过沙盒中对各类型数据的合法风险评估,在司法实践中更游刃有余地判断TDM行为涉及作品来源的合法性。
4.1.4. 目的包括科学研究等公益目的和其他合理的商业目的
针对TDM行为的版权例外情形,欧盟对科学研究目的和一般目的进行了区分,采用强制许可和一般例外的双轨制。我国的TDM合理使用规则不应排除出于商业目的的TDM行为,出于科学研究等公益目的与出于商业目的的TDM行为均有值得保护的社会效益。
为科学研究、公共安全、医疗健康等公益目的允许生成式人工智能大模型通过TDM行为展开数据训练与模型进化,其研究成果能够提升全社会的知识质量并增加社会知识总量,进而更大限度地发挥作品的社会价值[5],为实现公共利益作出贡献。欧盟禁止商业性TDM的核心法理基础为防范市场替代效应,而非否定技术中立价值。在我国著作权法的“三步检验法”已能作为风险控制避风港的前提下,可以利用这一方法严格审查出于商业目的的TDM行为的市场替代效应。当TDM行为满足“署名义务”“不影响作品正常使用”“不损害权利人合法权益”三个要件时,TDM的商业属性并不会形成合法障碍,因此在这种情况下应当认定该类商业目的的TDM行为是合理使用,构建涵盖范围更广的TDM合理使用机制。
4.2. 完善保障TDM行为合理使用规则实施的相关技术措施
当前著作权权利人使用技术措施保护作品的情况屡见不鲜,但部分权利人采取的技术保护措施已经不仅仅限于确保数据库的作品的安全性和完整性,保护程度已大大超出风险水平,阻碍了TDM的实施[12]。在此背景下TDM行为要顺利实施必然涉及合法规避技术措施,这一措施需要相关法律及时完善技术规避例外情形认定予以配合[13]。
此外,为平衡著作权风险与生成式人工智能模型性能,理论与实践正积极探寻能够干预人工智能模型数据输入及训练阶段的技术工具,借助合规技术手段保障人工智能最大限度符合现有的著作权法规定。循此思路可尝试通过水印类技术和分析数据归因类技术的介入规范人工智能的TDM行为,水印类技术通过在文本及数据中嵌入不易察觉的信号以追踪相关作品的来源及许可情况,分析数据归因类技术则能够通过事后分析的方法衡量特定作品对输出内容的贡献,从而判断TDM行为对该作品的使用是否超出合理使用范围或者授权界限。
4.3. 设置人工智能开发者披露义务并建立著作权权利人利益共享机制
我国人工智能产业采用包容审慎的治理理念,2023年8月颁布的《生成式人工智能服务管理暂行办法》强调统筹人工智能发展与安全、平衡监管与创新。为了保障文本与数据挖掘的合理使用条件真正有效实施,确保TDM行为收集的文本和数据通过合法渠道获取,避免人工智能开发者滥用技术目无法度地收集作品,需要求TDM的应用者承担一定的披露义务,以保证监管行为顺利展开,平衡著作权人、技术拥有者和社会公众等多方利益。具体而言,生成式人工智能的数据输入及训练阶段,所使用的数据文本的来源、处理与使用必须具有高度的透明度和可追溯性,在进行合理使用时应当公开作品名称及著作权人的姓名,减少算法黑箱带来的不确定性[14]。也需对人工智能开发者提出在合理限度内公开技术原理的要求,让著作权人拥有知晓其作品存在侵权风险的可能性。
生成式人工智能TDM行为合理使用规则的设计与实施还需兼顾著作权人的利益,若完全放任TDM行为,可能削弱权利人对其作品的控制权,影响市场收益。因此可以考虑引入著作权集体管理组织参与许可环节,考虑要求使用人为合法来源的作品支付合理的许可费,同时配套补偿金制度允许著作权人参与收益分配,在降低交易成本的同时达到利益均衡。集体管理组织可以帮助著作权人将其作品授权人工智能开发者使用,亦可借助技术手段实时获得著作权费用,保证权利人能够享受作品带来的收益,实现数据共享与开放。
5. 结语
TDM是生成式人工智能时代的核心技术之一,对于促进人工智能产业繁荣、推动经济发展有着关键作用。欧盟为了适应技术跃迁作出的立法与制度创新值得我国借鉴,我国应当将生成式人工智能的TDM行为纳入著作权法合理使用的范围,可采用解释论的方法,通过司法解释或著作权法实施条例的形式对《著作权法》第24条合理使用的兜底条款进行解释确立TDM版权例外规则,日后再修订《著作权法》正式将TDM行为纳入合理使用的具体情形。此外,还需为TDM合理使用规则的实施配备必要的技术措施与开发者义务,并设计利益共享机制,以平衡著作权人权利与公共利益,进一步完善人工智能领域的战略布局。生成式人工智能时代著作权法的传统利益平衡状态被打破,在新时代处理好著作权人权利与技术发展之间的关系具有重大意义。只有构建适应我国国情的TDM合理使用新型规则,筑建起TDM行为的合法基础,才能为人工智能产业发展提供坚实的制度保障,帮助我国在人工智能科技的大国竞争中占据优先地位。
NOTES
1北京互联网法院. 小红书Trik软件AI绘画大模型训练著作权侵权案[EB/OL]. 2024-06-20.
https://ipc.court.gov.cn/zh-cn/news/view-4513.html, 2025-10-18.
2广州互联网法院,上海新创华文化发展有限公司诉某人工智能公司著作权侵权纠纷案,(2024)粤0192民初113号。
3Hamburg Regional Court.Robert Kneschke v. LAION e.V. Case No. 310 O 227/23.