1. 引言
近年来,随着算法的不断演进、计算能力的显著增强以及大数据的广泛应用,以模型训练为标志的人工智能技术取得了巨大的进展。伴随着这些技术的持续迭代与升级,人工智能领域也掀起了新一轮的发展热潮。人工智能模型实现了从小模型到大模型的升级。国内国外都涌现一批训练模型,以OpenAI为首的人工智能企业陆续发布了GPT-2至GPT-4等多个版本的模型,这也激发了诸如Claude3、Sora等一系列新模型的诞生,再例如国内的华为云的盘古3.0、中国科学院自动化所的紫东太初2.0等。从技术发展角度来看,生成式人工智能的发展,中长期受制于算力的提升,短期受制于高质量的数据[1]。现如今,人们对人工智能具有涌现能力有一定的共识,涌现现象是由小部分结合成大系统形成的整体现象。普遍认为大量数据训练、复杂高级算法以及强度的算力,在这些达到一定的阈值时,就会出现涌现能力[2]。也就是说,即使算力有大幅提升,数据的高质量和丰富程度不高,也不能形成准确、稳定的人工智能大模型。这是其不容忽视的重要技术特征。而关于大模型训练对高质量数据的需求,作品数据相较于其它数据是最高质量的选择。在OpenAI面临的众多诉讼中,原告在Tremblay,Awad v.OpenAI案中指出“书籍一直是大语言模型训练数据集的关键内容,因为书籍提供了高质量长篇写作的最佳范例”。
这造成了目前人工智能企业模型训练使用作品合法性与高质量和丰富性不可兼得的困境。众多人工智能企业在作品获取上,主要依赖于公开网络数据,辅以私有数据。然而,公开网络数据呈现出数据权属多元、来源广泛、类别复杂的特点,加之数据溯源所需成本高昂,这些因素共同导致了著作权侵权风险的显著增加。
在此背景中,本文聚焦于人工智能接触数据作品进行训练所产生的著作权领域的问题,探讨模型训练中使用作品的行为是否都应当纳入著作权权力范围内,随后讨论纳入著作权内的作品使用行为适用合理使用制度的正当性,最后对我国合理使用制度的完善提出建议。
2. 人工智能模型训练使用作品的著作权侵权可能性分析
模型训练中使用作品的行为是否应当纳入著作权权力范围内是探讨其是否适用合理使用的前置问题。有学者侧重于人工智能的工具属性,认为其在模型训练的过程中对作品的使用是生产过程性使用,具有非特定性,应当界定为“非作品性使用”,因此不在著作权权利范围内[3]。部分学者则认为该行为应当全部归于著作权范围内。不过,模型训练是一个复杂的过程,不能笼统认为在该过程中使用作品是“作品性使用”或“非作品使用”,应当先厘清其使用作品的逻辑与形式,从而进行分类探讨。
2.1. 模型训练使用作品的逻辑与形式
人工智能模型具备三个特点:规模大,需达到百亿参数级别;涌现性,能够产生预料之外 的新能力;通用性,不限于专门问题或者领域[4]。与传统技术相比,生成式人工智能模型的训练流程显得更为繁复且耗时显著增加,该过程包含多个阶段,因此,区分训练数据的不同用途及其在人工智能供应链各阶段的作用变得尤为重要。数据准备阶段是模型开发的重要前置阶段,其构建离不开庞大的数据集合作为支撑,数据的规模及其内容对模型训练成效具有决定性影响。
模型训练行为并非孤立存在,而是人工智能模型的一个阶段。它与后期的模型输出紧密相连。因此,不能单独地评判训练行为是否侵犯著作权,不同的输出内容可能会影响对模型训练行为的定性。
有学者指出,现行著作权法理论所采用的“侵权使用–合理使用”的二元结构存在问题,首先应当先将“使用”区分为“表达性使用”与“非表达性使用”,然后在“表达性使用”中,再来讨论是否“侵权使用”的问题[5]。
非表达性使用是指输出端没有表达性内容的输出,也没有表达性内容的输入,例如人脸面部识别、自然语言处理系统等。尽管该部分对数据的使用可能涉及个人信息保护等,但是并非著作权法意义上的使用,不受著作权法的保护。有观点将表达性使用分为特殊表达性使用和普通表达型使用,普通表达型使用是指输出为表达性内容并且输入训练的作品来自数量众多的作者,例如ChatGPT、DeepSeek等主流生成式AI,它们学习了互联网上数以亿计的文章、书籍、图片,从而能够回应千变万化的用户请求,生成全新的故事、邮件或风景画;特殊表达型使用是指输出内容为表达性内容但是输入训练的作品来自特定的作者,如微软公司的“下一个伦勃朗”,它深入分析了伦勃朗全部作品的笔触、用光与人物特征,最终生成了一幅全新的伦勃朗风格的作品[6]。一般认为,特殊表达性使用可能对原作品造成市场损害,这一判断不仅基于对既有市场份额被直接替代的考量,还基于将潜在市场的开发可能、作品品牌价值与受众认知结构的变化纳入评价范围;在此基础上,通过合理的许可机制、使用透明化义务及适度补偿制度等方式,能够在降低潜在损害的同时避免简单地将此类使用一概认定为侵权,从而在保护权利与促进利用之间实现更为平衡的规范目标。普通表达性使用应该如何规制还需要进一步讨论解决。
模型训练分为预训练与微调训练,预训练的数据集较大,使用来自数量众多作者的作品形成基础模型,与此相对地,微调训练使用的往往是为了特殊任务而定制的较小数据集。因此,本文主要探讨普通表达型使用的预训练过程。
2.2. 人工智能模型训练使用作品的著作权侵权可能性分析
模型训练时对于数据作品的获取和利用可能涉及著作权人的多个权利。首先,其对于作品的获取与复制权相冲突[7]。在这一阶段对于作品的获取主要是利用爬虫技术爬取网络数据、未经许可抓取数据库数据等对电子数据格式文本进行获取或者将纸质文本转化为电子数据格式文本进行获取。我国《著作权法》在规定复制权的条例中明确列举复制方式,并用“等方式”进行兜底,《伯尔尼公约》中并未规定特定的复制方式,仅用“任何方式和采用任何形式”替代。这说明这两者对复制权的概念定义是技术中立的,更是有未来性的,尽管在起草时并未预见未来人工智能技术飞速发展以及其带来的一系列著作权问题,但是复制权依旧可以涵盖人工智能模型训练中采取的复制形式。因此,虽然这一过程并不对应我国《著作权法》中复制权定义所明确列举的方式之一,但是这实现了作品在不同载体间的转换,产生复制件从一到多的效果,应当包含在“等”的范围内。故在这一阶段人工智能模型训练可能会与作品的复制权产生冲突。
在将参数存储为数值形式后,模型会进行概率计算,以揭示字符、音符等表达符号间的内在规律,例如结构特征的关联逻辑规律。在概率计算中,越是通用的规律,越容易被模型提取。算法会持续不断地处理大量的数值数据和实时更新,用新计算的数值替换旧数值,以优化内存使用效率。这一过程可能会与演绎权产生冲突。
此外,模型训练的数据整理阶段还可能侵害署名权、修改权和保护作品完整权等著作人身权。在对数据作品进行预处理时,包括清洗、集成、标注、转换等一系列步骤,可能会对作者的姓名、作品的完整性进行修改和调整[8]。
3. 人工智能模型训练中合理使用的正当性与必要性分析
本部分在上述基础上,对人工智能模型训练中合理使用的正当性与必要性进行分析。
3.1. 人工智能模型训练中合理使用的正当性
3.1.1. 合理使用制度是应对市场失灵的有效工具
作品作为著作权的客体,具有私有和共有两种属性。著作权法设立的目的一是保护创作者的权益以激励创新和产出,二是促进作品的传播和利用,促进社会的文化和科技发展,使得作品效益最大化。而这些前提都建立在有完整的著作权市场上。市场运转体系不具备优化资源配的功能,当有新技术产生时,著作权市场并不能自主合理化交易成本,当许可费用高于收益时,市场壁垒就会形成。戈登教授将市场失灵分为技术上的失灵和在某些情境下无法运用市场交易。他认为只要不信任市场可以分配好社会资源就构成市场失灵[9]。
人工智能作为新兴技术,存在市场失灵的情况。首先,人工智能市场存在定价困难,交易成本过高的情况。人工智能模型训练需要海量的作品数据,其涵盖的作品类型也特别广,其服务提供者去对接数量庞大的权利人会造成过高的交易成本。此外,不同类型作品的价值不同,服务提供者难以估算其对模型训练产生的价值大小,著作权人对自己作品价值的认知也不相同,这造成了定价的困难。其次,在这种环境下还可能造成人工智能大企业的垄断。模型训练中作品的质量与数量与模型以及生成物的质量正相关,由于过高的交易成本,小型人工智能企业只能转向低质量、低数量的作品数据,获得低质量的模型和生成物,使得其在人工智能市场不再具备竞争力,最终市场会被大企业垄断,不利于技术的发展。此外,模型训练所带来的利益和价值并不局限于著作权领域,相反其涉及各个领域,市场无法对其进行分配。因此,人工智能市场需要合理使用制度对其进行调节。
3.1.2. 是否对著作权人合法权益造成不合理的损害
不对著作权人合法权益造成不合理的损害,是适用合理使用制度的前提条件之一。判断该条件的核心在于如何理解新技术环境中出现的新利益。数字化与生成式人工智能的发展使作品的使用方式发生变化,作品被应用于模型训练时所产生的并非基于传统传播与欣赏的收益,而是新的技术性与间接性市场利益[10]。部分传统著作权主体反对将模型训练纳入合理使用,本质上在于其对该新利益的市场预期落空。对于此类新利益的权利范围,存在利益延伸原则与利益适度原则之争:前者倾向扩大著作权保护范围以涵摄潜在市场利益,后者则强调在保护著作权人既有利益的同时避免过度排他,从而为技术创新与文化发展留出空间。若坚持利益延伸原则,可能导致对新技术形成不当限制,阻碍市场竞争与技术进步[11]。因此,本文赞同利益适度原则,并认为模型训练适用合理使用原则通常不会对著作权人的合法权益造成不合理损害。
实践中反对者主要提出两点:其一,认为模型训练后生成物可能与训练作品构成实质性相似,从而挤占作品市场;其二,认为生成物可能模仿特定作者的风格,从而损害其经济或人格利益。对此,首先,训练模型本身属于技术产品,而非作品市场的替代品;其次,模型使用的数据来源广泛,难以形成特定指向或构成实质性相似。如确有相似造成侵权,应通过提供者注意义务与责任分配加以规范,而非否定合理使用制度的适用。至于风格模仿问题,著作权法本就不禁止自然人模仿风格,因此亦不应对人工智能提出更高要求。同时,消费者通常为特定作者的原创性表达买单,而非单纯风格本身,模仿风格作品难以替代原作者作品,原有市场亦不会因此受到实质侵害[12]。
3.2. 人工智能模型训练中合理使用的必要性
在全球范围内,合理使用制度的适用都是解决模型训练使用作品行为的主流观点,如在纽约时报OpenAI和微软公司案中,OpenAI就以合理使用制度进行抗辩,认为其行为符合美国的合理使用制度。他们认为其行为和美国长期以来的合理使用判例相似,这些判例表明如果使用受版权保护的内容是为了开发具有创新性和独特性的新技术,那么就属于合理使用[13]。仅是因为该行为适用合理使用制度具有上述提及的正当性,还因为适用其他制度存在障碍。
3.2.1. 侵权判定机制的失灵
在司法实践中将模型训练使用作品判定为侵权有诸多困难。首先,该行为是否侵犯复制权目前是有争议的。人工智能的复制有一部分是一种临时复制,在训练结束后不会将作品的表达直接存储在大模型之中,也不会制作成复制件供他人使用,而是进行数据标准化处理,将其格式转化为机器可识别的格式,进而导出数值进行概率计算,得出通用规律。我国并没有临时复制的相关规定。其次,著作权侵权判定多用“接触 + 相似”原则推定,训练中使用海量数据,众多著作权人的作品混杂在一起,输出产物可能仅用到某个作品的一小部分,这一小部分难以分辨其来源,也并不能达到著作权法上的实质性相似。此外,在实践中,被侵权人的举证也是一大难题。预训练时并没有法律强制使其披露出使用数据,也就是说,这一切都是不可见的,在暗中进行的,对于人工智能企业来说掩盖痕迹轻而易举。何况,该训练过程并不需要联通互联网完成,更是加大了举证难度。
3.2.2. 授权许可的不现实性
在产业领域内,各方正积极探寻一种既能均衡利益分配又契合产业长远发展的规范体系。实际上,不论是国内环境还是国际范畴,围绕数据训练中权利获取的授权许可制度正逐步确立或已成型。众多处于行业前沿的大小型企业,已采纳了这一授权许可机制,并与各大新闻媒体及移动应用平台建立了合作关系。这一动向清晰显示出,授权许可机制已成为业界发展的一种主流趋势。
因此,集体管理与数据市场常被视为解决模型训练数据获取问题的市场化路径。集体管理通过集中授权,可以在一定程度上降低模型训练中逐一许可带来的高昂交易成本,并为权利人提供较为稳定的收益来源,有助于缓解人工智能企业与权利人之间的信息不对称。然而,该机制原本服务于传播、表演等可量化使用场景,其曲库覆盖范围有限,难以适配模型训练中跨媒介、长尾化、碎片化的数据来源;同时,训练利用属于非欣赏性使用,难以直接纳入现有计费与分配规则,导致利益分配标准模糊。
数据市场路径试图通过数据集标准化、溯源化与商品化实现可交易流通,有助于为人工智能企业提供可控来源、可计量质量的训练数据,并为权利人提供新的收益渠道。但作品价值难以与模型性能提升建立直接对应关系,定价机制难以稳定;此外,大量历史网络数据缺乏明确权属标识,溯源成本高,交易风险大。更重要的是,无论集体管理还是数据市场,都倾向于在规模上有利于大型企业,中小主体难以承担成本,可能加剧技术与产业的集中化趋势。
因此,市场授权机制虽具有一定调和功能,但不足以满足生成式人工智能模型训练对大规模、多来源数据的结构性需求,合理使用制度仍具有不可替代性。
3.2.3. 法定许可制度的不适用性
考虑到模型训练阶段的复制为临时复制,且未被纳入我国著作权法保护范围内,再者我国并未规定机器阅读权,数据训练本身并不违法。因此,大部分观点认为可以适用侵权责任豁免,即合理使用、法定许可和强制许可。不过,我国著作权法并未规定强制许可,所以仅讨论前两种情况。
将模型训练行为纳入法定许可规制可以简化数据获取的流程,无需像授权许可那样与著作权人一一取得授权。不过,这也是一个理想化的想法,从长远来看,著作权人利益和人工智能技术的发展并没有得到平衡,尤其是非常不利于人工智能的长期发展。首先,法定许可的数额难以确定,正如授权许可中所述的困境,人工智能企业可能会因此支付巨额费用。许可费堆积不仅源自权利的碎片化,还源于各类权利人的增加,包括邻接权人与技术措施等产生的权益人等。当人工智能所需的训练数据成本显著超出其产生的收益时,其开发者难以承受这一沉重的经济压力。此情境下,他们的积极性将遭受显著削弱,进而不可避免地导致对人工智能模型投资与开发热情的减退,最终阻碍这一技术的发展。尽管法定许可费用可以根据市场情况随时调整,不过对市场的检查是会有偏差且具有滞后性的,再者,根据近几年人工智能的发展速度来看,其技术变化是日新月异的,更加难以监测。将模型训练过程纳入法定许可规制,很容易造成人工智能著作权市场的僵化从而扼制技术发展,结合人工智能技术在如今战略发展的重要意义,这样的发展走向是极为不合理的。
4. 人工智能模型训练合理使用制度构建
由上述可知,人工智能模型训练使用作品的行为适用合理使用制度具有正当性与合理性,不过,我国并没有相应制度支撑,故需要构建人工智能模型训练合理使用制度。此外,生成式人工智能具有被用作侵犯著作权的可能性,该制度的构建也并不意味着著作权人对新技术的发展进行无限制让步,因此,在构建该制度的同时还应对其进行限制以平衡人工智能发展、著作权人以及社会公共之间的利益。
4.1. 人工智能模型训练合理使用制度构建
我国在构建合理使用制度时,主要参照了大陆法系的,采取了封闭列举式的立法模式,这一模式在作者权体系中通常被视作“著作权的例外”。由于我国著作权法缺少本土化理论基础,加上合理使用封闭列举式立法方式,导致每当新技术涌现时,合理使用制度的适用便面临诸多挑战,难以有效应对。
目前看来,我国《著作权法》第二十四条第一款和第六款有适用的可能性,不过,仔细分析后并不能适用。第二十四条第一款将“为个人学习、研究,使用他人已经发表的作品”纳入合理使用行为。其中,“个人学习、研究”从表面上看是符合模型训练不公开使用获取作品数据,但是实际上其中主体一般为人工智能公司或研发团队,而并非个人[14]。因此,该条并不适用于模型训练使用作品的行为。第二十四条第六款规定,为了“教学或者科学研究”目的,进行“少量复制”,并只能为“教学和科研人员”使用。首先,模型训练需要大量的作品才能达到出色的效果,与“少量”不符;其次,本项主体比较严苛,现今产生的大部分纠纷主体几乎没有教育、科研机构。因此,该条也无法适用。而有观点认为可以充分利用兜底条款,通过法院在个案中采取开放性解释或借鉴灵活的域外审判实践予以弥补。不过,用最后一项兜底条款来适用模型训练本质上是一种法官造法行为,更何况在实践中四要素和三步检验法混杂使用,缺乏可预见性[15]。在我国司法实践中就存在该种情形,例如在王莘诉谷歌案中,一审使用三步检验法进行判定,二审使用四要素检验法进行判定。
此外,合理使用仅仅针对非营利性行为,从目前世界范围内已有的诉讼来看,被告的人工智能企业几乎全都利用人工智能来营利。
针对上述情形,在合理使用受限于二十四条明确罗列的情况下,可以将为“教学和科研人员”使用扩展到以营利性目的使用,将“少量”扩展为符合目的的有限使用,并同时符合第二十四条第一项中“不得影响该作品的正常使用”、“不得不合理地损害著作权人的合法权益”的规定。但是该做法对原有的合理使用条款进行了较大的改动,会使原有的适用该条款的情形难以适用,从而造成法条内部的矛盾并影响法律体系的稳定。因此,可以在《著作权法实施条例》中增设计算机分析的合理使用类型,并用三步检验法的标准对其进行限制。此外,在增设的计算机分析合理使用类型中,应当不对主体和使用目的进行限制,使得人工智能营利型企业也可以适用。
人工智能技术始终处于持续发展过程且发展迅猛,无法在著作权中进行定义,因此需要设立新的概念并需要能够使其灵活适应人工智能发展需求。此处采用“计算机分析”的措辞是对于日本《著作权法》的借鉴,相较于欧盟对于数据库提供专门保护,日本只保护能够视为智力成果的数据库,与我国更为相似。
在欧盟《数字单一市场指令》中,第3条与第4条专门规定了文本与数据挖掘例外。前者允许科研及文化机构在非营利目的下无需授权进行分析,后者则将例外扩展至商业主体,但著作权人可通过选择退出机制排除作品被用于训练使用 。该模式以默认受控、例外放开为结构特征,在维护著作权市场秩序方面具有稳定性,但也可能提高人工智能开发特别是中小企业的准入成本。与此相比,日本在《著作权法》第30-4中确立非欣赏性使用例外,即在不以欣赏作品表达内容为目的时,可以在必要范围内自由利用作品。日本文化厅进一步将计算机分析明确纳入该例外适用范围,使得人工智能模型训练在输入端原则上无需授权。同时,日本通过第47-5对输出端再现原作品的情形予以限制,形成输入宽松、输出审慎的双层规制结构。
借鉴该制度并使其本土化,可在《著作权法》中增设“计算机分析”型合理使用条款,明确以“非欣赏性目的”作为适用前提,使模型训练阶段的作品利用在满足不损害作品正常市场秩序、不替代合理利用价值的条件下被视为合法。同时,通过在生成物阶段设置“再现性审查”标准,以判断模型输出是否再现原表达,从而在保障人工智能训练数据可得性的同时避免对著作权人造成不当损害。此种制度设计能在技术发展与权利保护之间建立动态平衡,贴近我国数据资源密集与创新应用高速推进的现实需求。
为平衡著作权人与人工智能企业利益,应以三步检验法作为限制标准,并辅以四要素进行论证。实践中,司法机关常将两者混用,缺乏统一标准。然而,相较源于美国判例并以转换性使用为核心的四要素检验法,三步检验法因诞生于《伯尔尼公约》并被后续国际条约广泛吸收,具有更强普遍性,适用于跨技术场景。在我国,《著作权法实施条例》对合理使用的限定已体现三步检验法的逻辑,最高人民法院司法意见亦明确应在促进创新的必要情形下以三步检验法作为最终判断依据。因此,可在制度上以三步检验法设定合理使用边界,再结合四要素展开具体论述,实现规范与灵活性的兼顾。
三步检验法中第一步“某些特定的情形”一般是立法明确列举,第二步主要是依据经济利益认定,第三部的重点应该放在“不合理”的认定上,使其成为第二步判断后的考量,以免和第二步同质化。结合四要素检验法,具体而言,将对使用的目的和性质的考虑以及对原作品市场的影响两个因素置于三步检验法的第二部检验,将受版权保护作品的性质和使用的数量和实质性置于三步检验法中第二部的检验[12]。至于第一步“某些特定的情形”可以解释为具备经济利益或者潜在获取经济利益的使用方式。
4.2. 人工智能系统的预防侵权措施
合理使用制度是对公众的豁免而并非权利,人工智能模型训练构建合理使用制度并不意味着著作权人对新技术的发展做出完全妥协,相反应当采取限制措施来救济著作权人受到的不合理损害以此达到技术发展、著作权人利益和公众利益之间的动态平衡。参考互联网多元主体共治的治理模式,合理使用制度需要其他著作权保护机制协同适用,应用到人工智能模型训练合理使用中即以合理使用制度为中心,在模型训练输入数据阶段以及后续生成物阶段赋予著作权人救济措施。
在模型训练输入数据阶段,可以采用技术措施对其进行限制。技术措施是指著作权人以有效技术控制对作品接触、复制或传输的保护手段,旨在回应传统著作财产权类型化在网络环境中所出现的困境[16]。
其次,还需要设置科学合理的人工智能技术开发者注意义务。人工智能技术开发者应当依据其算法产品的功能特性,建立指引体系。具体而言,首先需通过用户协议及操作界面提示等交互设计,向使用者明确告知著作权保护义务;其次应结合机器学习模型的应用场景,部署内容过滤算法与版权识别技术,构建侵权内容预防性屏障。此外,还可以参考避风港规则,明确相关主体的责任边界。
5. 结论
在数字化时代,算力与技术的深度融合改变了作品使用方式,作品复制与传播不再依赖人类,机器可快速准确完成,从而形成新的著作权市场格局并引发传统版权业者与技术开发者的利益冲突。人工智能模型通过个性化与多样化内容生产吸引大量市场份额,进一步加剧矛盾。鉴于人工智能为战略性技术,其发展不应受阻,而其训练过程又必然涉及大量受版权保护的作品。在输入端市场存在失灵的情况下,有必要通过合理使用制度促进权利人创新与技术进步。同时,合理使用并非唯一路径,著作权人亦可通过提供高质量作品或开发训练专用数据产品与技术方建立合作,实现成本降低与利益共享。
致 谢
感谢朋友的耐心支持和有益建议,使我得以不断完善研究思路与论证结构。感谢家人始终如一的理解、支持与鼓励,为我提供了安心学习与思考的力量。感谢在求学过程中所接触到的知识与经验,使我得以保持探索与求真之心。谨以此致谢。