1. 引言
随着人工智能技术的不断提高,其在深度学习、跨界融合等方面有着快速的发展,不断改变着人们对传统计算机程序的认知。2022年11月30日,微软旗下人工智能研究实验室OPENAI发布的全新对话型机器人模型——聊天生成式预训练转化器(Chat Generative Pre-trained Transformer, ChatGPT),其具有百科全书般的功能,用户可以通过对话要求机器人完成编写代码、解答问题、撰写论文、创作诗歌等工作。ChatGPT因具有出色的学习和文本写作能力,在发布后的不到两个月,其已获得1亿的月度活跃用户。人工智能正在从工具辅助型向创作型转变,通过“机器学习”使得人工智能生成内容质量大幅度提高,本文所要探讨的便是以ChatGPT为例的人工智能生成内容的版权问题。
2. 人工智能与ChatGPT
人工智能的创作方式大抵分为两种,一是“代码定义”,即通过程序代码将人类的思维方式或者思维结构赋予机器以完成作品的创作;二是“数据训练”,亦被称为“机器学习”,即通过增强算法对海量的数据进行统计分析和数学建模,“学习”人类的思维模式以形成先进算力。后者的创作方式,实际由人机合一完成,换言之是在人类的指导或干预下做出的创作 [1] 。分析以ChatGPT为例的人工智能生成内容的版权问题,首先应当对其技术原理及生成内容特点进行分析,“文本究竟如何生成”对于版权的研究至关重要。
2.1. ChatGPT的技术原理
ChatGPT作为一种人工智能驱动的自然语言处理工具,使用了Transformer神经网络架构,GPT-3.5架构,拥有语言理解和文本生成能力,其通过海量资料库与人类语言资料库来训练模型,使其能够高效率地解决用户问题,并且能够根据聊天的上下文之间逻辑关系,通过深度学习以理解人类的语意1。在训练过程中,ChatGPT使用了大量的文本数据,学习了语言和语法结构以及词语之间的关系,利用这些知识来生成新的文本。由于ChatGPT的技术优势,其生成的文本具有较高的语言表现能力,以及较高的相关性和一致性。
2.2. ChatGPT生成文本的特点分析
ChatGPT所生成文本的特点,是对其生成内容质量的重要评价标准。首先,由于其使用了预先训练的语言模型,因此具有极高的自然语言处理能力。其次,ChatGPT使用了多层神经网络和注意力机制,因此生成的文本具有较高的多样性和复杂性,其在创作过程中大量使用他人作品或者他人作品的片段,导致其很可能产生著作权侵权行为且涉及多方作品。最后,为了达成更好的人机交互,所以其生成的文本具有预测性以及上下文之间具有相关性。
通过以上对ChatGPT的分析,不难得出ChatGPT属于“数据训练”型人工智能,而这也是目前人工智能发展的主流,例如已经出版诗集的“微软小冰”、自主生成视频的runway等。对于目前以ChatGPT为代表的AIGC (人工智能自动生成内容)产业,百度CEO李彦宏曾提出AIGC发展共有三个阶段,第一阶段是“助手阶段”(AIGC辅助人类进行内容生产);第二阶段是“协作阶段”(AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面);第三阶段则是“原创阶段”(AIGC将独立完成内容创作)。通过以上对于ChatGPT工作原理的分析,笔者认为ChatGPT一方面已经超越简单的“辅助”功能,可以在不断学习中达成一定思考力2,根据人类指令创作出高质量文本;但另一方面,它虽然可以“独立”创作出具有一定质量的文本,但背后仍离不开对于人类语意的学习,本质上属于人机交互的形式,属于AIGC发展的第二阶段。
3. 人工智能之法律主体资格分析
关于人工智能是否有成为著作权法意义上“作者”的资格讨论始终是核心争议焦点之一。2018年由北京互联网法院审结的“全国首例人工智能生成内容著作权侵权案”便由于并不认可人工智能的法律主体资格从而否认了人工智能生成内容享有著作权3。在ChatGPT发布之后,针对其所创作的论文,《Science》期刊主编Holden Thorp指出“ChatGPT很好玩,但它不是作者”,同样表明了对人工智能主体资格的否定。笔者同样赞成人工智能不具有法律主体资格的观点,具体理由如下:
3.1. 承认人工智能法律主体资格在法理上存在障碍
由于人工智能是由人类编写的代码和算法生成的,因此人工智能本身并不具备独立的意识,也不具备法律主体必须具备的动机和意图。
3.2. 承认人工智能法律主体资格在法律制度上存在障碍
纵观两大法系,作者权体系由于其将作品更多地视为作者人格的延伸和精神的反映,更侧重于保护作者的人身权利 [2] ,认为除自然人以外的“任何法律主体”都无法成为作者。由于目前人工智能并未产生自我意识,更谈不上人格和精神,所以作者权体系并不承认人工智能的法律主体资格。对于版权体系而言,2018年的猕猴自拍案美国法院表示只有人类才能成为适格主体 [3] 。
3.3. 承认人工智能法律主体资格并不具备现实意义
同样从两大法系出发,Daniel J. Gervais [4] 和Ralph D. Clifford提出版权的立法目的在于激励人类创作,版权只有通过人类创造才能发挥作用,机器不需要任何法律或经济激励并且机器也无法对其作品负责。著作权法的立法目的是通过物质激励从而鼓励更多的人投身文学艺术创作,但是对于人工智能,无论是否对其进行物质激励,都不会影响其成果的输出。这样的物质激励毫无意义,赋予其法律主体资格也会违背著作权法的立法目的。
4. 人工智能生成内容之独创性分析
根据我国《著作权法》第3条的规定,构成作品需满足三个要件,分别是属于文学、艺术和科学领域内;具有独创性;能以一定的形式表现。理论界的争议主要在于独创性的认定,对于其他两个要件的态度基本一致。
独创性分为“独”和“创”,“独”是指独立完成,“创”是指一定程度的“智力创造性”。对于其独创性的判断,目前理论界分为客观标准和主观标准两种态度。持客观标准的学者认为应当从内容的产生来判断是否满足“独”和“创”;持主观标准的学者则认为还需考察主体是否具有创作意识。笔者认为,对于人工智能生成内容独创性的判断,遵循客观标准足矣。一方面是因为独创性的判断仅针对智力成果本身,满足最低限度的创造性便可获得《著作权法》的保护;另一方面考察我国关于人工智能的案件,不论是北京互联网法院所审理的“全国首例人工智能生成内容著作权侵权案”还是深圳南山区人民法院所审理的Dreamwriter智能写作辅助系统生成的文章著作权侵权案4,均肯定了人工智能生成内容的独创性。如果采取主观标准,将会对智力成果中的“人格要素”过分重视,即如果要证明一件智力成果构成作品,具有独创性,首先必须证明其来自于人。这将一方面导致独创性判断的侧重点偏失,判断过于机械化;另一方面由于人工智能永远无法成为人,便肯定了人工智能生成内容永远无法具备独创性,著作权法始终都不会对此进行保护。显然,这样的观点既不符合人工智能发展的趋势也不符合著作权法的立法宗旨。
5. 机器创作的侵权风险及法律规制
随着技术研发的不断进步,目前人工智能的“自主性”快速提高,摆脱了机械性输出,能够通过自主学习以及模仿他人作品使得输出内容质量大幅度提高。以ChatGPT为例,其“机器创作”大致分为三个步骤,分别是内容输入、机器学习以及内容输出。首先,其“机器创作”的基础是为其输入海量的资料库与人类语言资料库,而这些资料库很可能是受到著作权法保护的作品,对作品数字化处理并将其输入ChatGPT系统的行为便是著作权法意义上的复制行为,在未获得原作者许可的情况下可能构成合理使用或者侵权。其次,在机器学习阶段,其需要从大数据训练集中自动分析重要的模式和趋势,并利用该规律对未知数据训练集进行处理 [5] 。在这个过程中,机器的模仿很可能会构成对作品的临时复制。但是由于我国著作权法中的复制行为仅指永久复制,因此在我国此行为并没有侵权风险 [6] 。最后,由于ChatCPT在生成文本内容时可能会在其语言模型中学习到他人拥有版权的文本并将其包含在内,所以生成的文本内容并无法保证不侵犯他人的版权。从著作权法财产权的角度分析,其生成的文本有可能侵害他人作品的复制权、改编权、汇编权和信息网络传播权。除此之外,如果模仿了特定作家、艺术家的写作风格和语言风格,还可能侵犯著作权法中的人身权。
5.1. 数据输入的法律定性
在“智能版权时代”出现了大量的“机器读者”,数据输入便是机器“阅读”作品的过程,即人工智能对海量的资料库进行数字化处理以及存储 [1] 。数据作为计算机可读取的知识和信息,这些知识和信息有可能是受到著作权法保护的作品。对其进行数字化处理并输入智能系统的行为是著作权法意义上的复制行为,有可能构成侵权。
根据目前学术界的讨论,解决所输入的数据引起的版权侵权问题存在不同的观点。有学者认为,可以采取“选择退出”模式,除法律规定的特殊情形以外,作品使用者从“市场”中选用作品并支付合理报酬即合法,除非著作权人明确表示拒绝授权 [7] 。这与传统著作权法的“选择加入”模式恰好相反,不必在使用他人作品之前取得著作权人的许可。也有学者认为可以采用“法定许可”的模式,由法律规定允许人工智能的开发者或者设计者直接使用他人享有著作权的作品,无需取得著作权人的许可,但是需要按照法律规定向著作权人支付合理报酬 [8] 。考察其他国家法律的相关规定,美国和日本采用“无条件例外”模式,即使用者将现有作品输入人工智能程序的行为属于合理使用,不论是否具有商业目的。其中,美国以“转换性使用”作为裁判的依据,通过判例法将文本数据存储与挖掘纳入合理使用的一般条款范围之内。日本则是采取列举的方式对合理使用的类型范围进行扩张,将信息处理行为纳入侵权的例外,但注明了此种信息处理的行为只能是对作品的轻微使用且不得不合理地损害著作权人的利益5。欧盟将文本数据的存储和挖掘作为著作权的例外使用,而后将其范围扩展至具有商业意义的私人主体。同时,欧盟版权法允许著作权人以明示的方式拒绝其作品用于商业用途的文本数据分析6。英国采用“有条件例外”的模式,将数据挖掘行为作为版权侵权的例外情形,但是严格限定此种数据挖掘行为仅限是非商业的使用7。
数据输入是人工智能后续“机器创作”的基础,因此如何定性该行为对于人工智能的后续发展至关重要。目前人工智能正处于快速提升阶段,也在一方面展示了国家的科研实力。如果采用“选择退出”或者英国所采用的“有条件例外”模式,仍然会对人工智能的研发造成较大障碍。如果采取“法定许可”模式,优点是可以简化获取作品的环节,另一方面著作权人将会获得合理费用,其利益得到保障。但是,由于机器“阅读”与人类阅读存在本质差异,在支付费用时难以衡量,使得该项制度运用于人工智能落地将会非常困难。另外,法定许可需要法律明文规定,但是目前我国的立法处于空白。笔者认为,较为合理的解决方案是参考美国和日本的“无例外模式”,可以将文本数据挖掘行为作为合理使用的具体情形之一或者增加关于合理使用的兜底条款拓展合理使用的适用范围。在我国《著作权法》中,不仅对合理使用的条件有着限制的规定,也在法定列举的情形之外存在兜底条款8,为文本数据的挖掘行为预留了充分的制度空间 [9] 。
5.2. 人工智能生成内容的版权侵权责任认定
与前文所讨论的输入行为不同,输出行为的侵权判断需要依据所生成的内容结果展开,分为直接侵权与间接侵权。对于弱人工智能来说,其作用在于工具辅助型,可以对人工智能使用者追究侵权责任。但是对于诸如ChatGPT创作型人工智能来说,侵权判定较复杂。
5.2.1. 人工智能生成文本的版权侵权主体
以ChatGPT为代表的人工智能,由于具备自主学习能力,可以基于数据库以及学习自主创作文本,创作活动是独立于人类完成的,该行为是其开发者或者使用者也无法预见或者难以控制的,因此人工智能是该侵权行为的主体。但是根据前述,笔者认为不论是从著作权立法目的出发还是审视法理与目前的法理制度,赞成人工智能不具有法律主体资格的观点。所以,这便会造成存在侵权事实而无人承担法律责任的问题。同时,由于开发者或者使用者并未参与到创作过程中,所以无法直接认定其为侵权主体。
5.2.2. 人工智能生成文本版权侵权责任的归责原则
知识产权侵权属于民事侵权的范畴,因此对于版权侵权责任的归责原则也应当在民事侵权体系中进行分析。根据我国《民法典》,目前归责原则分为过错责任原则、过错推定责任原则、无过错责任原则以及公平责任9。由于人工智能生成内容侵权行为并不在特殊的民事侵权行为类型中,因而属于一般的民事侵权行为。因此,人工智能生成内容的版权侵权行为应当采过错原则。然而对于类似ChatGPT的人工智能来说,可能超出设计者的预估范围做出难以预料的行为,如果在这种情况下产生侵权行为便很难通过侵权者的主观过错判定。所以,人工智能生成内容版权侵权的归责应当以过错责任原则为主,其他侵权原则为辅,综合考虑侵权行为人的过错、侵权程度以及侵权后果进行判断。需要注意的是,此观点看似与“版权侵权是一种‘infringement’有别于‘tort’,无需考虑主观过错”存在矛盾,但实际上,该观点并非是在损害赔偿的意义上讨论侵权责任,而是强调知识产权请求权的行使无需考虑过错 [10] 。版权侵权损害赔偿以过错为归责原则已成为国际通行的做法 [11] 。
5.2.3. 人工智能生成内容版权侵权认定的适用标准
目前,对于版权侵权的构成要件通常为“接触 + 实质性相似”。首先,需要判断人工智能生成内容与原告作品之间是否存在“接触”。“接触”指接触的可能性,并不要求实质上的接触,只要被控侵权者有机会曾接触过原告作品即可。人工智能在生成内容之前重要的一个步骤便是数据输入,这就表示人工智能生成内容是以已有的数据进行创作的。如果未曾接触过他人已发表的作品,其便无法生成内容。因此可见,人工智能生成内容对于“接触”这一构成要件具有事实上的不可辩驳性,只需要个案中对其加以证明即可。
其次,便是人工智能生成内容与原告作品之间“实质性相似”的判断。如果两部作品存在机械的复制,便很容易认定两部作品是“相似”的。但是,由于人工智能可能参考和复制的是海量数据库中的部分表达,加之人工智能本身也存在避免机械性复制的功能,这将会对实质性相似的对比产生极大的困难。笔者认为,可以从“合理使用”的角度反向推导是否存在实质性相似。考察人工智能生成内容是否超出了“合理使用”的范围,也即是否对已有原作造成了销售损害、原作利润减少或者是超越原作目标程度等市场掠夺结果 [12] ,如果这些结果在现实中发生,便可以判定人工智能生成内容与原作品之间存在“实质性相似”,也即侵犯了原作品的著作权。
NOTES
1《高校纷纷禁用ChatGPT,AI冲击波真来了?|自由谈》,载http://static.nfapp.southcn.com/content/202302/08/c7335622.html,2022年2月8日访问。
2参见南方都市报2023年2月8日报道:目前,业内对ChatGPT的共识是,它可能具备一定的思考力,以测试人工智能是否达到人类水平智能的图灵测试为尺度来衡量,它是最有可能通过图灵测试的AI模型。
3参见北京互联网法院民事判决书(2018)京0491民初239号。
4参见广东省深圳市南山区人民法院(2019)粤0305民初14010号民事判决书。
5《著作権法》第四十七条の五:……著作権者の利益を不当に害……
6Directive (EU) 2019/790 of the European Parliament and of the Council of 17 April 2019 on copyright and related rights in the Digital Single Market and amending Directives 96/9/EC and 2001/29/EC. Art 3 Text and data mining for the purposes of scientific research, Art 4 Exception or limitation for text and data mining, Art 7 Common provisions.
7Copyright, Design and Patents Act 1988, 29A: Copies for text and data analysis for non-commercial research.
8《著作权法》第24条第1款:在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益:……(十三)法律、行政法规规定的其他情形。
9参见《中华人民共和国民法典》第1165条、第1166条、第1186条。