1. 引言
人工智能生成内容(AIGC)作为人工智能领域的重要分支,近年来发展迅速,正在全方位推动出版行业革新。像“蜜度文修”校对大模型、“BooksGPT”AI数字员工,还有各出版社自主研发的智能审校平台,这些新技术的应用,大幅提高了出版工作的效率和内容质量。随着AIGC在出版业务中应用越来越广泛,版权保护难题也愈来愈突出,不仅损害创作者权益,也对出版行业的长远发展造成阻碍。因此,急需构建出版业AIGC版权协同治理机制,整合政府监管部门、出版单位、行业协会、科技企业以及科研机构等多方力量,致力于构建一个涵盖法律体系建设、责任划分明晰、技术协同创新的全流程治理框架。
2. 生成式人工智能与著作权的概念界定
2.1. 生成式人工智能
生成式人工智能(AIGC),全称Artificial Intelligence Generated Content,是一种利用人工智能技术自动生成内容的技术[1]。传统人工智能主要用于识别数据模式和完成预测任务,不同的是,生成式人工智能侧重于创新生成数据。AIGC技术依靠深度学习模型,对大规模数据集的分布特征进行系统性地学习,挖掘数据中的内在规律和结构模式,进而生成具有新颖性的数据样本。这项技术突破传统人工智能的分析预测模式,解析和重构数据中潜在的规律,实现从数据处理到内容创造的跨越,为内容生产和创新应用开辟新的技术路径。生成式人工智能应用场景十分广泛,适用性很强,广泛应用于图像、文本、音频、视频等多个领域。
2.2. 著作权
依据我国《著作权法》第三条,作品是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果。因此,我们可以知道,构成作品需要满足四个核心条件:一是作品必须属于文学、艺术和科学领域;二是需要具备原创属性,不能是单纯复制或模仿;三是必须存在可被感知的表现形态;四是必须属于智力活动的成果。在判定生成式人工智能创作成果的著作权归属时,首先可以明确这一类成果大多数是以文字、图像、视频等形式呈现,符合文学艺术领域的范畴界定,同时满足表现形式要求。在判定过程中,不可避免地出现两大核心争议:一方面,要明确生成内容是否属于智力成果,这就涉及对AIGC生成过程中算法决策机制、智力参与程度的分析;另一方面,要判断其是否具备独创性,即考察AIGC生成内容是否展现出独立创作特征,以及和现有作品相比是否具备独特创新元素。对这两个争议点进行深入探讨,关键就在于明确AIGC生成物著作权保护边界,协调技术创新与版权保护关系。
3. AIGC赋能出版全流程
出版业作为知识传播的核心载体,在AIGC技术推动下正经历深刻变革。以数传集团研发的出版行业首个专业大模型BOOKSGPT为典型代表,AIGC技术已经深度融入出版全流程,深刻体现在选题策划、内容生成以及智能编校等环节。这一技术的应用不仅有力提升内容质量和生产效率,更是对创作逻辑、合作模式以及行业生态进行系统性革新,为出版业的可持续发展提供关键支撑。数传集团基于BOOKSGPT推出的“AI编辑工作室”,配备15名AI编辑,包括AI选题策划编辑、AI作者、AI画师、AI翻译员等,深入参与出版各个环节,通过专业化分工协作,该团队能够高效完成选题策划、内容创作、插画绘制、多语言翻译等一系列工作任务,为编辑工作注入新活力,推动出版业向“降本、提质、增效”的目标转型。
3.1. 选题策划
选题策划是图书出版的重要环节,也是图书能否在激烈的市场竞争中取得成功的关键[2]。一方面,选题策划作为开展出版工作的源头,选题策划需要处理大量信息。传统人工进行选题策划工作,不仅耗费时间和精力,还需要查阅大量文献和网络资料,导致效率低下、周期拉长甚至出现信息缺失等问题。BOOKSGPT大模型的应用有效地改变了这一局面,它可以借助自然语言处理技术和庞大的数据库,快速抓取并分类全球信息,实时跟踪行业动态、学术前沿和社会热点,为选题决策提供动态数据支持。
另一方面,随着出版行业向精准化、数据驱动方向发展,这就要求编辑在选题策划过程中必须明确目标群体来优化选题决策,深入分析读者年龄、性别、教育背景、兴趣爱好等特征,并以此来构建精准的读者画像。BOOKSGPT利用强大的数据分析和模式识别能力,能够高效处理海量用户数据并自动生成多维度的动态读者画像,为图书精准定位目标读者群体打下基础。此外,BOOKSGPT还能深入挖掘图书市场销售数据、读者评价及阅读偏好,通过对比分析同类竞品,准确把握市场需求和竞争格局,实现基于数据的出版决策。
3.2. 内容创作
出版的本质在于内容,无论媒介形态如何演变,印刷技术如何革新,内容始终是决定图书价值的核心因素,也是出版行业的价值根基。传统出版模式的内容创作主要是依靠创作者的专业知识、研究能力和编辑经验,通过系统收集资料、搭建逻辑框架和个性化表达来完成作品创作。
AIGC技术的应用,使得出版业的内容创作模式正在发生根本性变革。尤其是以BOOKSGPT为代表的行业垂直模型,该大模型配备有AI作者,它能够借助自然语言处理技术和深度学习算法深度参与内容创作流程,在拟定提纲、撰写内容、收集素材、润色加工、优化稿件结构[3]等多个关键环节,为编辑和作者提供系统性创作支持。BOOKSGPT不同于通用语言模型,该大模型是基于经典文学作品和优质出版物等专业语料库训练的垂直领域模型,构建了出版行业专属的知识图谱,形成符合出版标准的语言生成逻辑。这种专业化训练机制不仅能有效降低内容同质化风险来保障作品原创性,而且能通过标准化质量控制体系确保生成内容符合出版要求。除此之外,AI作者还可以通过分析整合海量信息提供丰富且具关联性的案例,有助于作者拓展视野并深化思考,有效延伸内容创作的广度和深度,推动编辑内容质量实现新突破。
3.3. 智能编校
编辑加工与审校作为图书出版质量控制的核心环节[4],长期以来需要投入大量人力和时间。目前,像黑马校对软件、方正智能辅助审校系统等传统自动化工具,已经能在拼写检查、标点符号纠错、敏感词筛选及格式规范等基础方面提供支持,对于编校效率和质量的提升有一定帮助。但是,这些工具在语义理解和上下文处理方面有待进一步改进,在处理复杂语法问题和专业知识校验过程中存在明显不足。随着AIGC技术的不断发展,出版行业的生产模式正加快向智能化、高效化转变。
以BOOKSGPT开发的AI校对工具为例,该系统采用知识工程与数据集成技术,构建了包含上万个独立知识单元的智能体系,同时整合100TB规模的专业语料库,形成覆盖出版全流程的专业校对知识图谱。在校对过程中运用该系统不仅能准确识别常见的语法错误,还能基于知识图谱对专业内容进行深度语义分析,来判断学术表述是否正确,有效地解决传统自动化校对工具在这一方面的缺陷,为编辑校对工作提供逻辑校验和学术标准参考,显著提高了专业内容编校的准确性和效率。
4. AIGC赋能出版的版权挑战
AIGC技术在出版行业的广泛运用,与AIGC相关的版权保护问题成为学术研究与产业实践的焦点。AIGC技术为出版业带来创新发展的同时,也引发了大量的版权纠纷,对传统版权保护体系构成挑战。目前这些争议主要聚焦于作品独创性标准判断、权利主体认定以及版权侵权风险等方面,这些问题直接影响着作者、出版企业和技术开发者的利益,更制约着数字出版领域的创新发展与长远规划。
4.1. 独创性标准判断
根据《中华人民共和国著作权法实施条例》,作品是指“文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果”。由此可见,是否具有独创性是其中最为核心的判断条件。
一部分学者认为,作品创作本质上是人类独有的意识活动过程,依赖于大脑产生的创造性思维,综合利用观察、归纳、总结、判断、想象等多样能力一起创造出的产品[5]。作品是人类有意识、有目的的思维创造的产物,是人类有意图、有目标的创造活动结果。基于此,在人类的输入和调整下AIGC生成的内容,并不是源于人类主体的直接、独立的创造性思维过程,也不符合现行《著作权法》对作品独创性的内在要求。与之相反的是,另一派学者则更强调人工智能生成内容创作物如果展现出足够的“独创性”,即具备作品所需的原创性和创造性,那么这些人工智能生成内容创作物就应该被认定为作品,就应该将其纳入作品范畴并且能够受到著作权法保护。支持此观点的学者强调,AIGC之所以备受关注,核心就在于其独特性与“非人脑智力成果”的本质差异。无论是将其作为“产品”还是“创造物”,都能够展现智力成果的多样性,而非人脑成果的简单复制[6]。它们具备著作权法所认可的独创性与自主性特征,有利于促进文化多样性、激发创作活力,同时推动技术发展减轻人类劳动负担,是促进社会创新与进步的积极力量。目前看来,由于独创性标准判断存在解释偏差,AIGC生成内容的作品属性认定仍然面临困境。
4.2. 版权主体认定模糊
在我国现行著作权法中,“创作作品的自然人是作者。由法人或非法人组织主持,代表法人或非法人组织意志创作,并由法人或者非法人组织承担责任的作品,法人或者非法人组织视为作者”。作为新一代生成式人工智能的产物,AIGC依托自然语言处理、知识图谱构建等关键技术,通过大规模深度学习,AIGC能够高效自主地生成内容,人类在AIGC内容生成过程中主要参与指令设定、参数调整以及数据训练等基础环节[7]。然而,在进行功能性测试和语义理解测试中,在未明确标注来源的前提下,AIGC所生成的内容已难以区分是由人类还是机器所创作。人类干预的大幅弱化以及AIGC技术内容生成自主性显著增强,进一步凸显了AIGC的技术属性,使AIGC生成内容的主体认定成为当前学术研究的焦点。
部分学者表示支持AIGC版权主体地位,他们认为AIGC生成内容凝结了开发者的创造性劳动和使用者的智力投入,所以AIGC生成内容本身是符合作品要求的。还有一部分学者则坚持著作权法“以人为本”的原则要求作品,认为作品必须源自人类作者的智力创作[8]。他们认为人工智能生成内容缺乏独创性的“人类基因”,既不构成作品,也不能获得版权主体资格。因此在现行法律框架下,AIGC只能作为创作工具,其生成内容的权益分配应该回归人类主体如开发者和使用者等。对于上述争议,核心在于如何平衡技术创新与法律传统:AIGC技术的自主性特征对“创作主体必须为自然人”的传统版权理论形成挑战,而现行法律框架的解释弹性不足,导致相关司法实践面临规范适用难题。
4.3. 版权侵权风险
AIGC版权侵权风险主要集中于训练数据获取与内容生成两大环节。在训练数据阶段,AIGC依赖海量数据进行训练,通过对已有文本数据的结构化处理实现智能化再创作[9]。然而,由于采集的训练数据大多来自开放的互联网资源,出版领域的相关数据如图书、期刊、论文等常包含受版权保护的版权作品,这就导致训练过程存在未经授权使用他人版权作品的法律风险。2023年12月,《纽约时报》向OpenAI与微软发起诉讼,指控他们在未获取授权的情况下,将该报社内容用于训练生成式人工智能模型,这样的行为侵犯了《纽约时报》的著作权。这次诉讼引发了行业强烈反响,随后,美国八家媒体联合,同样以未经许可使用新闻作品进行人工智能训练为由,对OpenAI与微软公司提起法律诉讼。在知识产权排他性原则下,新闻报道中的原创性表达以及图片视频素材都受到著作权法保护,一旦AIGC训练数据未获授权使用,即构成侵权。
内容生成阶段,AIGC技术仍然潜藏着不容忽视的侵权风险,主要表现为生成内容可能与现有受版权保护的作品存在“实质性相似”的情况。2024年2月,广州互联网法院宣判了全球首例AIGC平台侵权责任案,判定某AIGC绘画平台所生成的图像,在角色造型与视觉特征方面,和“奥特曼”系列作品高度相似,这一行为侵犯了原告的复制权与改编权。不仅如此,AIGC生成内容具有匿名性特点,当今网络时代传播速度极快,导致侵权追溯难度大增。侵权内容能在多个平台快速扩散,权利人想要维权,往往要付出高昂成本。目前AIGC生成内容的权利归属尚无定论,倘若用户利用侵权数据来指令AIGC生成内容,开发者与用户之间的责任划分在法律层面处于空白状态,这无疑进一步扩大了侵权风险的范围。
5. 出版业AIGC版权协同治理机制构建
随着生成式人工智能(AIGC)技术对出版领域内容生产范式的深度重构,传统版权法律框架面临系统性挑战。技术迭代引发的独创性标准判断、版权主体认定模糊、版权侵权风险等版权治理困境,暴露出单一主体治理模式和既有法律规制手段存在一定的局限性。为解决这一难题,需要基于多元协同治理理念,构建“立法约束–主体履责–产业协同”三位一体的版权治理机制。该机制以多元主体协同治理理论为基础,通过整合政府部门、出版机构、行业协会、技术企业及学术研究机构等多方主体,形成覆盖法律规制体系构建、主体责任落实、产业技术协同的全链条治理体系。
5.1. 完善AIGC版权治理法律体系
目前监管部门不断地推进版权法规政策革新,2023年7月,国家网信办联合六个相关部委,出台《生成式人工智能服务管理暂行办法》,该办法于2023年8月15日起正式生效。这一法规为构建AIGC版权法律体系提供了实际操作范例,搭建起多维度治理架构。
在数据管理上,《办法》从根源保障版权,明确要求服务供应商必须使用来源合法的数据和基础模型[10],并对训练数据的合法性负责。在数据训练的各个环节,都强调不得侵犯他人知识产权,以此避免因使用侵权数据训练模型而产生版权纠纷,从数据采集和使用的源头入手,有效防范因使用侵权数据训练模型导致的版权侵权风险。关于责任划分,《办法》确立了清晰的责任体系[11],明确生成式人工智能服务方的主要职责。规定服务方要提高内容生成的准确性和可靠性,需要对生成的图片、视频等内容添加显著标识,保证内容来源可查;一旦发现违法违规内容,必须立即采取下架、阻止传播等措施,切实履行好平台管理责任。在侵权处理方面,《办法》构建了动态应对机制。一旦服务提供者发现侵权内容,必须立即停止内容传播并优化模型,向主管部门汇报,形成一套完整的侵权处理流程。网信、版权等监管部门依据职责对AIGC服务进行监督检查,要求对AIGC算法训练、数据采集、内容生成及传播环节进行动态监测,防范技术被用于生成违法有害信息、实施网络诈骗、侵犯个人隐私等违法犯罪活动。同时加强对以商业营利为目的非法复制、传播数字出版物等侵权行为的监管力度,确保版权保护的有效落实。
5.2. 强化出版方全流程版权管理
出版企业作为AIGC内容生产的核心责任主体,需建立贯穿选题策划、内容生产、分发传播全流程的版权自治体系,以应对AIGC技术应用带来的版权治理挑战。
在选题策划环节,出版企业建立版权预评估体系至关重要,需对AIGC应用场景和版权风险进行全面评估。一方面,对选题涉及的AIGC技术应用模式要明确判断其是否存在潜在版权风险,数据获取渠道的合规性和生成内容的独创性标准也需要着重审查。另一方面,出版企业可以与国家重点扶持企业开展合作交流,采用合规的数据集和合法的AI服务[12]。同时,将版权评估、运营及维权所需资金纳入选题预算,为后续版权管理提供资金支持。
在内容生产环节,出版企业应构建起智能化版权审核体系。出版企业可建立数据版权审查制度,严格验证训练数据的来源,从源头杜绝侵权风险。对于AIGC生成内容,可运用数字水印、区块链存证等技术,全程记录创作过程及权利归属。此外,制定人机协同创作的版权标注规范,明确人类作者和AIGC系统在创作中的具体贡献,为版权归属认定提供清晰依据。
在分发传播环节,出版企业必须强化版权监测与维权机制。出版企业可部署智能监测系统,对出版物的网络传播情况进行实时监控,及时捕捉侵权信息。建立快速响应的维权流程,一旦发现有侵权行为,可采取发送警告函、行政投诉、提起诉讼等多种方式进行维权。在内容分发合作协议中,明确各方版权责任,对合作方传播行为进行规范,避免版权二次侵权。
5.3. 构建多元主体版权治理网络
在数字出版版权治理领域,要想破解版权保护难题,核心路径就是采取多元主体协同治理模式。政府部门、出版企业、行业协会等相关方通过整合资源、加强技术合作,共同构建起全面的数字出版版权治理体系。各方围绕共同目标,一起制定行业标准和规范,确保数字内容在传播和使用过程中的合法性,更好地应对AIGC技术引发的版权新问题。2023年6月,在中国版权协会举办的“人工智能生成内容版权问题研讨”讲座上,中文在线、同方知网、中国工人出版社在内的26家单位联合发布了国内第一份AIGC训练数据版权倡议。这份倡议借助行业协会的协调组织作用,整合司法界、科技领域和数字内容产业的专业知识与实践经验,对AIGC训练数据从获取、使用到管理全流程进行重点规范,为解决数据版权争议提供行业共识和自律依据,推动建立契合技术发展需求的版权保护规则体系。
与此同时,技术开发者也应积极参与到出版版权保护工作中来,深度探索全新版权保护路径,助力行业朝着智能化、体系化方向发展。其中,视觉中国与联合信任的合作,为技术开发者对AIGC版权保护提供了成功案例。视觉中国作为最早将可信时间戳技术用于数字版权确权的文化科技企业,于2023年6月联合技术团队推出AIGC-PAS解决方案。该方案借助哈希值校验和电子签名技术,为AI生成或修改的图片添加独一无二的数字标识,既能保护原创作品版权,也能保障AIGC作品的知识产权。这项技术创新在司法实践中展现出实用价值。2024年2月,广州互联网法院在审理全球首起生成式AI服务侵权案时,视觉中国战略投资企业联合信任通过可信时间戳技术,为原告提供电子证据支持,协助完成关键取证环节。
6. 结语
AIGC技术为出版业的发展带来了新的机遇和变革,但同时也引发了一系列复杂的版权问题。构建出版业AIGC版权协同治理机制,整合政府部门、出版企业、行业协会、技术开发者及学术研究机构等多元主体的力量,是应对AIGC版权困境的有效途径。通过政府部门完善相关法律法规、加强监管执法;出版企业落实主体责任、加强版权管理;行业协会制定行业规范、促进交流合作;技术开发者研发版权保护技术、提供技术服务;学术研究机构开展理论研究、培养专业人才,各主体协同合作,形成多方合力,能够有效解决AIGC版权问题,保护创作者的权益,促进出版业与AIGC技术的健康、可持续发展。未来,AIGC技术还在不断地发展和应用,版权保护问题将更加复杂和多样化,需要各方主体持续保持关注和努力,不断完善版权协同治理机制,以适应新的挑战和变化。