生成式人工智能数据训练的版权侵权风险应对研究
A Study on Addressing the Copyright Infringement Risks in the Data Training of Generative Artificial Intelligence
摘要: 在生成式人工智能发展的过程中,数据训练对最终生成结果的效果起到了关键作用。现阶段数据训练未经授权而使用海量受保护的作品,版权侵权风险显而易见,而学界及业界并未就数据训练的法律定位形成一致观点。通过对学界观点的分析比较和对域外立法经验的借鉴,在我国合理使用制度框架下提出构建数据训练的合理使用规则和相应的配套措施,能够在兼顾著作权人利益的同时保障人工智能产业的发展,化解数据训练阶段的版权侵权风险。
Abstract: The development of generative artificial intelligence (AI) critically depends on large-scale data training, which fundamentally determines the efficacy of the outputs. However, the prevalent practice of utilizing massive amounts of copyrighted works without authorization for training purposes presents evident infringement risks. Currently, there is no consensus within either academia or industry regarding the legal status of such data training activities. This study addresses this issue through a comparative analysis of scholarly perspectives and an examination of extraterritorial legislative approaches. It proposes a framework within China’s existing fair use system to mitigate copyright risks at the data-training stage. The core argument is that establishing tailored fair use rules, supplemented by corresponding supporting measures, can effectively reconcile the interests of copyright holders with the developmental needs of the AI industry. This approach aims to foster innovation while providing a legal pathway to resolve the inherent copyright infringement risks associated with data training.
文章引用:李婧曈. 生成式人工智能数据训练的版权侵权风险应对研究[J]. 社会科学前沿, 2025, 14(12): 354-362. https://doi.org/10.12677/ass.2025.14121100

参考文献

[1] 陈亮, 张翔. 欧盟生成式人工智能立法实践及镜鉴[J]. 法治研究, 2024(6): 105-118.
[2] 魏远山. 生成式人工智能训练数据的著作权法因应: 确需设置合理使用规则吗? [J]. 图书情报知识, 2025, 42(1): 78-88.
[3] 刘水美. 人工智能数据训练著作权合理使用法律规则路径探究[J]. 暨南学报(哲学社会科学版), 2024, 46(11): 60-73.
[4] Grimmelmann, J. (2015) Copyright for Literate Robots. Iowa Law Review, 101, Article 657.
[5] 高阳. 人工智能训练数据侵犯著作权行为规制[J]. 中国出版, 2024(15): 12-18.
[6] 詹爱岚, 田一农. 生成式人工智能机器学习中的著作权风险及其化解路径[J]. 电子知识产权, 2023(11): 4-14.
[7] 张吉豫, 汪赛飞. 大模型数据训练中的著作权合理使用研究[J]. 华东政法大学学报, 2024, 27(4): 20-33.
[8] 李安. 人工智能训练数据的版权信息披露: 理论基础与制度安排[J]. 比较法研究, 2024(5): 136-152.
[9] 汤贞友, 谢艺婕. 生成式人工智能数据使用的版权侵权风险及其治理[J]. 中国出版, 2024(21): 56-61.
[10] 张涛. 生成式人工智能训练数据集的法律风险与包容审慎规制[J]. 比较法研究, 2024(4): 86-103.
[11] 林秀芹. 人工智能时代著作权合理使用制度的重塑[J]. 法学研究, 2021, 43(6): 170-185.
[12] 徐小奔, 薛少雄. 生成式人工智能服务提供者版权注意义务的法律构造[J]. 科技与出版, 2024(7): 48-58.
[13] 李杨. 著作权侵权认定中的转换性使用理论适用阐释[J]. 北方法学, 2023, 17(3): 42-56.
[14] 刘云开. 人工智能训练作品的著作权合理使用进路[J]. 东北大学学报(社会科学版), 2025, 27(1): 117-126.
[15] 刘晓春. 生成式人工智能数据训练中的“非作品性使用”及其合法性证成[J]. 法学论坛, 2024, 39(3): 67-78.
[16] 李可心, 肖冬梅. 日本生成式人工智能训练数据合理使用规则及其启示[J]. 图书馆论坛, 2025, 45(9): 93-101.
[17] 阮开欣, 黄歆瑜. 生成式人工智能数据训练中的版权问题研究[J]. 中国版权, 2024(5): 61-72.
[18] 韩荣. 生成式人工智能作品利用的“合理使用+单纯获酬权”模式探析[J]. 出版广角, 2024(19): 75-80.
[19] 储翔, 周怿霖. 适应生成式人工智能数据训练的版权合理使用规则完善[J]. 中国出版, 2025(6): 3-7.