人工智能底层数据文本的版权合法化探析

doi:10.12677/jc.2025.139225

期刊菜单

人工智能底层数据文本的版权合法化探析
Copyright Legitimization Exploration of Underlying Data Texts for Artificial Intelligence

DOI: 10.12677/jc.2025.139225, PDF, HTML, XML,
作者: 张泽黎：北京印刷学院出版学院，北京
关键词: 人工智能；数据挖掘；著作权；Artificial Intelligence (AI)； Data Mining； Copyright

摘要: 人工智能的社会化应用历经多年的发展逐渐走向成熟，但是该技术在我国法律层面的保护上并不完善，而中国《著作权法》中还没有清晰体现出对人工智能作品的规范化描述。本文通过厘清人工智能对社会发展的正向作用，分析现阶段国内外人工智能底层数据文本合法化的困境，借鉴他国立法规范的核心思想，并与中国社会实际、立法原则相结合辨析我国数据文本版权合法化的合理之处。

Abstract: The social application of artificial intelligence has gradually matured through years of development. However, legal protections for this technology within China remain imperfect, and the current Chinese Copyright Law lacks clear provisions specifically regulating AI-generated works. This paper clarifies the positive role of artificial intelligence in social development, analyzes the current domestic and international challenges in legitimizing the underlying data texts used in AI, draws upon the core principles of foreign legislative regulations, and examines the rationale for legitimizing the application of such data texts in China through its integration with the nation’s social realities and legislative principles.

文章引用：张泽黎. 人工智能底层数据文本的版权合法化探析[J]. 新闻传播科学, 2025, 13(9): 1587-1594. https://doi.org/10.12677/jc.2025.139225

1. 引言

大数据人工智能的兴起与运用推动了人类社会精神文明的进步，为知识和文化的传播及全方面发展做出了巨大的贡献。与此同时由于科学技术的急速发展与立法的相对滞后性造成了在人工智能领域存在法律争议，进而引发人工智能创作行为的法律属性的极大分歧。本文旨在鼓励人工智能平稳发展的情况下，将作为人工智能根基的底层数据文本的录入纳入著作权的法律解释范围内。

2. 人工智能底层数据文本应用的价值与争议

人工智能的全方位发展及多模态应用在推动社会发展的同时对多个行业的现有生产模式产生了不可规避的冲击。

2.1. 人工智能底层数据文本应用的价值

2.1.1. 人工智能的应用场景呈现多元化趋势

自1956年人工智能概念的提出，到2011年至今世界各地在人工智能领域相继取得令人瞩目的效果，大幅跨越了科学与应用的技术鸿沟。人工智能已经从必须由人类参与生产的简单工具进化到能够模仿人类思维方式的独立生产力，在文字、图像、声音、视频等多方面均可以代替人类进行作品的产出并且在数量和效率上远超人类这直接推动了整个人类社会的精神文化进步[1]。

文字方面以ChatGPT为例就是以极其庞大的数据为支撑加以人类思维模式算法训练出的生成式人工智能，其产出满足“图灵测试”标准符合自然人作者作品的特征。

又例如在图像方面2022年8月份由ai绘图工具Midjourney生成的作品“太空歌剧院”(Théâtre D’ opéra Spatial)获得了科罗拉多博览会的美术比赛第一名，都从各个方面证明了人工智能作品的质量与独创性。

2.1.2. 大型生成式人工智能弱化了人类的知识壁垒

生成式人工智能(Generative Artificial Intelligence, GAI)是人工智能领域的一个重要分支。该技术依托于先进的算法和模型，能够生成包括文本、图像、音频、视频以及代码在内的多样化内容。与传统人工智能的单纯分析功能相比，生成式人工智能不仅具备学习能力，还能生成具备逻辑性的全新内容。相对于传统人工智能仅对输入数据进行处理和分析的功能，生成式人工智能更深入地学习并模拟事物的内在规律，从而根据用户的输入资料，生成既逻辑严密又连贯的新内容[2]。

生成式人工智能对于社会资源的应用成本进一步降低，对于问题或指令的回答具有碎片化的直观性，即直接将数据库中与问题相关的答案经过归纳整合后直观呈现，与传统意义上的知识获取并将之运用于现实生产劳动中有极大区别，降低了知识获取的门槛，减少了文化传授与接受的时间、精力成本。用户可以直接借助生成式人工智能获取所需要的基础知识文化信息，这些由人工智能所传递出的信息具有普适性和客观性的特征，不再有地域、民族、经济的区别，大幅简化前期相对繁杂、死板的知识储备、筛选工作，进而将更多的精力投入到需要更多主观能动的灵活性生产环节中，以提高个人生产效率进而助推社会整体生产效率的提高。

2.2. 人工智能底层数据文本应用争议

2.2.1. 纽约时报诉OpenAI公司侵权案

OpenAI和微软两家公司接受了数百万条《纽约时报》内容的训练，并利用这些材料为用户提供答案，分流了《纽约时报》的广告和流量，2023年12月27日，纽约时报以训练内容的版权问题提出诉讼。据纽约时报提供的侵权资料可知，在输入特定指令后，ChatGPT所生成的内容与《纽约时报》已刊登发表的内容具有高度重合性，从这一点来看ChatGPT确实已经对纽约时报所刊登的内容造成了市场替代，毋庸置疑地侵犯了纽约时报的合法权益。该案还没有做出最终判决，但OpenAI公司的侵权行为从目前来看确实存在。除了前文提到的已经造成市场替代性，《纽约时报》在诉状中虽然没有要求明确的赔偿金额，但提出已造成数十亿美元的损失，因此该侵权行为还具有明显的商业性质。

2.2.2. “AIGC版权侵权第一案”

2023年10月30日，美国北加州地区法院公布了号称“AIGC版权侵权第一案”的Anderson等诉Stability公司等一案的判决，以清晰性(clarity)和具体性(specificity)不足为由驳回了三名艺术家原告的大部分起诉，并颁布法庭许可，允许其在调整、补充起诉事由和证据材料后另行起诉。该案是一场人工智能公司与人类创作者之间的一场版权战争，从案件本身的判决结果来看，人工智能公司似乎是获得了一些胜利，但胜利的主要因素不在于人工智能是否确有侵权行为，而是由于原告的诉状不清晰。具体来说原告认为Stability等公司使用第三方组织爬取的五十亿张网络照片用于数据训练(包括原告已经注册的艺术作品)，其生成作品都属于衍生作品，这一行为侵犯了原告的多项权利。案件中三名原告艺术家中仅有一名艺术家的16件艺术作品注册了版权保护，并且原告无法证明AI生成内容与这16件艺术作品具有实质性相似，难以构成基于衍生理论的版权主张。

2.2.3. 安迪·沃霍尔视觉艺术基金会诉戈德史密斯案

2023年5月18日，美国联邦最高法院对安迪·沃霍尔视觉艺术基金会诉戈德史密斯一案，判决已故艺术家安迪·沃霍尔(Andy Warhol)根据已故歌手普林斯(Prince)的照片创作的一系列丝网印刷作品侵犯了摄影师林恩·戈德史密斯(Lynn Goldsmith)的版权。在最高法院审理过程中，最高法院认为是否构成转换性使用的关键一点就是使用作品的目的和性质。本案中使用作品的目的同样都是为了介绍歌手普林斯而采用的配图，都属于视觉艺术作品，构成了对于原作品的市场替代，并且原告不能证明确有其他用途，故联邦最高法院认为使用作品目的相同。由于沃霍尔视觉艺术基金会(AWF)收取了刊发照片的杂志社给予的10,000美金授权许可费用，具有明显的商业性质，因此不符合合理使用的要求。此案件虽不直接涉及人工智能底层数据文本的侵权，但却直接能够影响人工智能的创作者对于数据文本抓取的合法性判断。

3. 人工智能数据录入行为的困境辨析

人工智能作为一项全新的技术手段，其开发及应用必然经历社会各界的质疑及阻碍，以下将从法律及实践两个方面对数据录入行为进行辨析。

3.1. 缺少法律支撑

人工智能分为“弱人工智能”(ANI)“强人工智能”(AGI)“超人工智能”(ASI)，这三种人工智能的底层逻辑都是依靠人类为其提供极其庞大的数据库和数据信息，其智能程度随着数据库的体量的变化成正相关变化。大量的人工智能所有者在对人工智能进行数据训练时都未经相关作品著作权人的授权，认为其行为属于合理使用。然而，不管是《伯尔尼公约》中合理使用的规定还是美国合理使用的“三步检验标准”，合理使用的核心都是使用行为不侵犯原著作权人所持有的各项权利及原著作权人的利益。人工智能数据抓取输入的过程属于“复制”行为，这一行为毫无疑问侵犯了原著作权人的权益，无论是对纸质图书进行数字化扫描还是对数据图形等进行引用或加工处理都不属于《伯尔尼公约》和美国版权法中的合理使用行为。

中国《著作权法》以列举的方式详细规定13种法定例外行为即合理使用行为，虽然其第13条以“法律、行政法规规定的其他情形”作为兜底条款，但并没有对其进行细化规定。目前的人工智能数据录入行为不属于13条中的任何一条法定例外，可见我国《著作权法》对于人工智能领域的数据录入行为缺少清晰有效的法律支撑[3]。

3.2. 授权许可难度大

在数据整合和输出的过程中，对多种作品进行整合加工，涉及作品的改编权或者汇编权，有时甚至涉及翻译权，数据录入行为本身就已经侵犯权利人的复制权，其挖掘文本、分析本文、自主学习等行为是否涉及侵犯改编、汇编权和保护作品完整权难以定义，这就给权利授予增加困难系数。权利人的权利难以得到保障，其被授予人也无法有效获取权利，前文已经提到人工智能数据库的庞大体量是人工智能智能化的支撑，必然会涉及大量作品的录入，在过程中向每一位权利人取得许可有极其庞大的工作量也为权利授予设置了很大的阻碍。2004年的谷歌图书馆项目启动陆续进行数字化扫描超过两千万本图书，其中大量涉及非公有领域图书，尽管谷歌公司为了应对版权纠纷，推出了选择退出机制和默认许可模式，以方便版权人将其作品撤除数字图书馆，但是美国作家协会依然于2005年将谷歌告上法庭。

4. 数据文本应用的版权立法规范及合理化辨析

有些国家，例如日本、欧盟、美国以不同的方式对数据文本录入进行合理化规范，以期使人工智能与自然人创作成果相辅相成，达到最佳传播效果，如表1。

4.1. 各国立法规范

Table 1. Overview of relevant legislation in Japan, the European Union, and the United States

表1. 日本、欧盟、美国相关立法概要

国家地区	名称	制定时间	主要内容	法案评价
日本	《著作权法》	2009年进行相关权利法案的制定，2018年再次对细节进行修改。	对数据文本录入行为从法律层面进行规制，无限放大了互联网公司对于受著作权保护作品的使用。	日本媒体及学界对该法案持悲观态度，认为这会导致日本著作权“名存实亡”。
欧盟	《数字化单一市场版权指令》	2019年欧盟出台《版权指令》，规定人工智能的法定例外情况。	该指令对于实行例外的主客体做出明确界定。达到版权改革与确保改善公平性和纠正某些市场失衡和失灵的目标。	在2021年6月7号的期限之前仅有少量成员国完成了将该指令纳入本国法律的工作。
美国	《美国联邦版权法》	美国版权法诞生于1790年，后几经修改，在1976年对于版权侵权的判定提出了经典的4项基本原则。	并未对人工智能版权进行明确规定，但抽象式的判定原则加之过往判例，也为美国人工智能的发展提供了法律基础。	传统新闻出版行业与互联网人工智能行业的冲突日渐加剧，虽然有融合的趋势，但不可否认的是，该版权法易使双方产生错误认知。

各个国家及地区对于数据文本的录入态度不一。欧盟以刚性披露义务确立版权透明度标杆，高风险领域严控。日本软性治理优先，通过调查权与名誉惩戒防滥用，细节规范待完善。美国松绑数据获取 + 版权追责双轨制，联邦主导削弱地方与伦理约束以争夺技术优势。

4.1.1. 日本对人工智能底层数据文本的合法化尝试

世界上最早对人工智能领域进行相关立法的国家应是日本，2009年，日本修订了《著作权法》，在第47条之七中以“计算机信息分析”的名义规定了数据挖掘例外，这被认为是相关例外的最早立法例。2018年日本又再次对《著作权法》进行修订，将“信息分析”改为“提供新的知识信息”，并允许在一定限度内对社会公开。2018年更加宽松的政策使得人工智能的发展不再束手束脚，并拥有更加广阔的空间和发展前景。但此项规定仍然不够完备，过于宽泛的规定使得人工智能在生成作品的过程中极其容易侵害到原权利人的权利。2018年5月9日，日本艺人协会于东京举行记者会，指出AI的发展导致表达的技术被剥夺，很多人面临失业。因此协会呼吁国家完善法律，对声音与表演的相关权利作出新的规定，并使人工智能制作作品时参照的表演者等能够要求适当的报酬。东京大学名誉教授中山信弘提出“著作权法的萧条时代”，这一观点指出日本现行著作权法对数字化时代的应对并不充分。

4.1.2. 欧洲对人工智能底层数据文本的合法化尝试

欧盟对于此方面的尝试虽不如日本那样具有野心，但依然对各国的人工智能领域立法有借鉴意义。2019年欧盟理事会和欧盟议会通过了《数字化单一市场版权指令》，其中第3条第1款规定“对研究机构与文化遗产机构出于科学研究的目的，为对其具有合法使用权利的作品或其他客体实施文本与数据挖掘而进行的复制与抽取。”该指令直接确定了人工智能底层文本数据的合法地位，虽对于例外的主客体及目的都做了较严格的限制，但不可否认这是全世界在应对“第四次工业革命”中，法律与时代并驾齐驱的象征[4]。同时该指令同样引起了欧洲各界的激烈讨论，由于未对是否含有盈利性质作出明确规定，出版方及权利人认为该指令过于宽松，不能更好的保护权利人应有的权利，打击其创作热情，不利于社会文化的创造与发展，并有可能会导致文化产品的滥用。而读者和使用者则认为该指令过于苛刻，同样也不利于社会文化的创新，如C4C (Coalition for Creativity)及其成员对该项例外表示欢迎，但认为该项例外的适用范围过小，并对技术措施的应用表达了关注[5]。

4.1.3. 美国对人工智能底层数据文本的尝试

美国作为世界上人工智能领域的领军者，其对于人工智能版权的立法原则更加灵活。美国联邦巡回法院在对谷歌图书馆案的判决时提到了经典的四项原则即《美国版权法》第107条规定判定合理综合考量的四个因素：使用的目的与性质、作品的性质、使用部分占被使用作品的数量与重要性、对作品市场需求的影响。同时，最高法院又表明法条列举的四个要素中有些要素比其他要素更为重要。法院在Harper & Row Publishers, Inc. v. Nation Enterprises中评论道，第四个因素，即衡量二次利用对原作品市场或者原作版权价值的危害，毫无疑问是合理使用考虑因素中的最重要的一个，著作权赋予权利人的排他性权利是著作权的核心要素之一。作为判例法国家，美国对于案件的判罚显得更为灵活，赋予法官更大的判决灵活度。但同时由于客观上没有明确的标准，在判罚过程中更容易参杂法官本人的主观臆断导致相同或相似案件的不同判决结果，这会使得法律本身的权威性及公正性大大降低。

4.1.4. 其他国家及地区的做法对于我国的启示

上文论述的三方均试图在创新激励与数据合法化间寻求平衡，但路径差异折射出监管哲学的分歧，欧盟重权利保障，美国重效率竞争，日本则取中间路线。综合以上路径的核心，我国或可以进行政策创新，避免欧盟刚性规则可能拖慢技术迭代的问题；激活市场动力，全国推广数据资产化激励；算力补贴与国产技术链并重，降低企业创新门槛；版权溯源与敏捷治理结合，防范系统性风险。

4.2. 将人工智能数据录入行为合法化的辨析

数据录入是人工智能得以产生和应用的根本要素，将技术的应用过程进行合法化分析，阐释其合理性是将该技术合法化的第一步。

4.2.1. 以宪法角度诠释人工智能底层数据文本合法化的合理性

我国《宪法》是一种二元限制的结构，即以私人权利为代表的个体性自由主张与以科学研究自由为代表的集体性自由主张之间构成相互制约、相互平衡的二元结构。前者为确保作者对其创作的作品的权利奠定了宪法基础，后者则保障了后续作者和其他使用人对他人作品利用的权利[6]。《宪法》第十四条提到国家通过提高劳动者的积极性和技术水平，推广先进的科学技术，以不断提高劳动生产率和经济效益，发展社会生产力。自20世纪80年代以来，全球信息量的增长规模就很大，IBM在2017年的一项市场研究显示，每天的数据增量约为2.5亿字节，并且还在不断增长。但是，获取数据或文本本身不能产生价值，而只是一种将来获取价值的可能性，关键在于从所获得的数据信息中提取这种价值。人工智能的文本挖掘能力(Text and Data Mining)在海量数据信息的时代中无疑使人工智能成为最先进生产力的代表，如果因为《著作权法》中没有对人工智能底层数据文本的保护或未设置相关侵权豁免法条导致人工智能技术的停滞进而导致社会生产力的发展受阻，则著作权就没有建立在对宪法目标的实现上，在著作权的“宪法进路”看来，著作权制度是一种中性制度，对著作权的限制与著作权本身同样重要。《宪法》第四十七条中明确规定中华人民共和国公民有进行科学研究、文学艺术创作和其他文化活动的自由。笔者认为无论是哪种人工智能，其定位都应该是辅助人类进行社会生产、文化创新的辅助工具。公民应有权自己选择何种工具以何种方式进行科学研究等文化活动(包括使用人工智能进行辅助)，然而现行《著作权法》对作为侵权行为积极抗辩中的合理使用只列举了十三条适用情形，其中只有第一条和第六条中提到了在科学研究背景下的适用情形。但无例外的是仅有的这两条适用情形，并不足够为人工智能的社会化应用构建出一条合理使用的路径。生产工具是衡量社会生产力的重要标志，社会文化的创新离不开先进的生产工具，因此在大数据时代背景下著作权中理应加入符合宪法规定的对于著作权的权利限制条款。

4.2.2. 从著作权法及著作权本身诠释人工智能底层数据文本合法化的合理性

著作权最直接保护的对象是著作权人，维护著作权人对其作品而依法享有的各种权利，但由于我国《著作权法》的诞生是由全球化协同发展的趋势而顺势催生出的结果，我国历史上各个时期对于著作权或“版权”的规定大都以维护国家统治力为主要导向，忽略了对于私权精神的重视[6]。如今由于各国文化全球影响力的竞争愈演愈烈，对《著作权法》中私权保护与公共利益实现的关系平衡提出了新的要求，现行《著作权法》的立法方向介于公权与私权之间既要兼顾到著作权人的利益还要保证文化作品的社会流通使文化成果作用于社会的方方面面促进社会精神文明的进步，满足广大人民群众对先进文化的需求。

然而现行《著作权法》中合理使用情形中与人工智能的现实开发情况并不符合，人工智能首先需要海量的样本信息，其次需要强大的算力和先进的算法，这都不是个人能够完成的任务，难以适用。其次第六条合理使用的权利仅为“翻译”“改编”“汇编”“播放”这些权利并不能满足人工智能的应用场景，由于缺少“信息网络传播权”，意味着人工智能的使用被限制在人工智能生产者个人身上，此举无疑与《著作权法》推动社会文化发展的理念相悖。最后在“复制”前加上了少量这一限定词，更不能满足人工智能海量的底层数据文本需求，而不充足的数据投喂则会导致其产出有一定的偏颇性[7]。

综合上述论证不难得出，通过现行著作权法实现人工智能底层数据文本的合法化利用难度很大，这与著作权法本应促进社会文化发展的立法源流大相径庭。人工智能的生成与应用理应是来源于社会整体最终造福于社会整体，过程中尤为突显“公”与“私”的对立统一关系，如果两者之间的平衡出现偏差，事情就会变得不协调。如果权利人过于严苛，受众就会受到影响。如果中间环节的传播者贪婪或者受众吝啬，文化最终将走向贫瘠[8]。

5. 我国人工智能底层数据文本合法化的构想

以下将为人工智能底层数据文本合法地位的确立提出实施意见。

5.1. 保证社会利益合理分配原则

利益平衡的视角提供了一种《著作权法》中公共利益地位确立的解释思路，在实践中的适用也愈发广泛。利益平衡原则是《著作权法》立法过程中的重要考虑因素，其主要体现是对独创性的区分，对于独创性明显的作品予以著作权保护，具有鲜明的排他性，对于在他人作品基础上进行再创作的作品则多以邻接权予以保护，保护力度的强弱不同更好的平衡了著作权人、邻接权人及社会公众三方的利益。人工智能底层数据文本录入也应然根据录入文本的独创性强弱进行分层管理，以达到公与私的利益平衡。规定人工智能公司对于录入文本数据的独创性强弱，向文本数据权利人支付不同报酬，并对应用场景做出限制。

5.2. 增设著作权法合理使用原则

合理使用和法定许可，这两项著作权法定例外的订立，允许社会公众在一定情况下接触并有偿或无偿的使用作品。可惜由于法律固有的滞后性导致现行《著作权法》中对人工智能领域的豁免条例并不完善，社会公众无法通过上述两种方式在该领域中获取相应信息。笔者认为应该借鉴《美国版权法》的四项原则增设符合我国实际情况的合理使用条款，并在优先级上高于列出的合理使用情形，以此来判定行为是否构成合理使用。

5.3. 厘清思想与表达为数据录入开辟路径

《著作权法》仅对作者的表达方式予以保护，并不保护其中传递的思想观念。思想与表达二分法，在实践中已经得到反复证实这是实现公共利益的底层逻辑，应赋予法官一定的灵活判定权利，凭借自身的工作经验分析人工智能生成物中的表达方式是否为原创，人工智能在进行底层数据文本录入过程中可以被视为是暂时的复制了著作权人的表达方式，经过文本与数据挖掘将其中传递的思想观念转而生成新的结果，且生成结果不与原作品产生市场替代性，视为合理使用。保护了权利人的利益，也体现著作权作为私权的特征[9]。

6. 结语

任何制度的建立都是一个循序渐进的过程，期间必然经历波折与挑战，没有绝对成熟的制度只有相对成熟的制度，在面临各种潜在挑战时应该抱有积极共赢的心态。人工智能的快速发展毫无疑问对现行《著作权法》造成了巨大的冲击，使得其中对于著作权侵权的合理抗辩部分不能良好地应对著作权纠纷，产生法律灰色地带。同时也为《著作权法》的进一步完善提供了良好的契机，要肯定人工智能的出现与发展是有益于社会精神文明进步的，这与《著作权法》促进文化创新的目的一致。本文为人工智能与《著作权法》在智能化时代的共同进步提供思考和实践路径，望改变人工智能发展受《著作权法》掣肘的现状，转而使其成为人工智能健康发展和规范应用的坚实制度支撑。

参考文献

[1]	张惠彬, 肖启贤. 人工智能时代文本与数据挖掘的版权豁免规则建构[J]. 科技与法律(中英文), 2021(6): 74-84.
[2]	刘泽嘉. 我国文本与数据挖掘的合理使用制度构建研究[D]: [硕士学位论文]. 兰州: 兰州大学, 2021
[3]	冯茜. 论大数据时代文本与数据挖掘的著作权限制[J]. 乐山师范学院学报, 2023, 38(7): 119-126.
[4]	邸弘阳. 欧盟《数字化单一市场版权指令》著作权例外条款制定修改分析[J]. 北京电子科技学院学报, 2022, 30(3): 180-188.
[5]	Rosati, E. (2019) Copyright as an Obstacle or an Enabler? A European Perspective on Text and Data Mining and Its Role in the Development of AI Creativity. Asia Pacific Law Review, 27, 198-217. [Google Scholar] [CrossRef]
[6]	李雨峰. 论著作权的宪法基础[J]. 法商研究, 2006(4): 110-118.
[7]	万勇. 人工智能时代著作权法合理使用制度的困境与出路[J]. 社会科学辑刊, 2021(5): 93-102.
[8]	刘春田. 中国著作权法三十年(1990-2020) [J]. 知识产权, 2021(3): 3-26.
[9]	叶刚. 重视保护版权推动创新发展——评《版权战争——跨越大西洋三个世纪的争斗》[J]. 传媒, 2022(13): 97-98.

为你推荐

友情链接