1. 问题的提出
2023年9月,知名艺人孙红雷针对某游戏企业提起民事诉讼,指控该企业在未经许可的情况下,擅自在其开发的电子游戏中复制并商业性使用其具有辨识度的语音内容。经司法审查,法庭支持原告诉求,判定被告存在声音权侵权行为,需支付3万元赔偿金。类似案例持续涌现,2024年4月,北京市司法机关审结国内首例涉及人工智能语音侵权的民事案件。本案中,被告平台通过技术手段模拟原告声线特征,并将生成的虚拟语音用于商业销售,法院最终认定该行为构成人格权侵害,判令被告承担25万元赔偿责任。此判决的重要意义在于,首次从司法层面确立了AI语音合成技术的法律适用标准,明确了新技术应用的法律红线,为数字时代的人格权保护树立了重要的判例指引。
不同自然人的声带,在长度、厚度、弹性及振动频率等方面都会存在大小不一的差别[1],这就使得每个人的声音在音色、响度与音调等方面呈现出独特的个体特征。作为自然人身份识别的重要特征之一,声音不仅能够传递特定的情感联系与身份信息,还具有显著的标识功能。与姓名权、肖像权等人格要素相同,声音是人格的反映,声音因其独特的可识别性而兼具人格属性与经济价值[2]。当前,在人工智能技术快速发展的背景下,尤其是语音合成与识别技术的突破性进展,使得声音的商业应用场景不断拓展,但同时也导致了声音权益侵害案件的显著增加。
2. 人工智能时代声音权益保护的法律分析
2.1. 参照适用肖像权的保护模式
《民法典》第1023条第2款规定:“对自然人声音的保护,参照适用肖像权保护的有关规定。”这一规定表明我国立法机关采取了将声音权益类比肖像权进行保护的立法模式。根据《民法典》第990条的表述,声音要素并未被列为具体人格权,而是明确规定其保护标准需援引肖像权条款。从法律条文表述来看,“肖像权”作为一项独立且具体的人格权类型被明确界定,而立法者刻意回避了“声音权”这一概念表述,这反映出声音要素尚未获得独立人格权的法律地位。然而这种立法处理方式恰恰凸显了声音作为人格特征的特殊性,当声音权益遭受侵害时,权利主体可基于人格权保护主张损害赔偿等救济措施[3]。在备受关注的“全国首例人工智能生成声音侵权纠纷案”中,司法机关最终裁判并未创设“声音权”概念,而是立足于“声音权益保护”的视角进行裁决,这一司法实践进一步印证了现行法律框架下声音权益保护应类比肖像权规则适用的裁判思路。
2.2. 声音与肖像之间的差异
声音权益与肖像权关系密切,声音和肖像都是具有标识性的个人特征。但是两者仍存在诸多区别,若忽视两者区别而盲目适用有关规定,则会导致声音权益保护的不周全。声音常与肖像结合使用,不能简单套用肖像识别标准[4]。
2.2.1. 声音与肖像的表现形态不同
肖像是一种静态的视觉人格标志,声音则是动态的听觉人格标志。声音能够体现出人的个性、情绪与风格等特点,而肖像更多是一种静态的视觉要素,它借助图像来展现人的外貌、神情等。人们对视觉信息的辨别能力要比听觉信息强一些,因此肖像的辨识度更高,声音的辨识度则较低。对于相似的肖像,可通过细节比对加以区分;而对于极为相似的声音,单靠人耳往往难以分辨,只能借助专门的声纹识别仪器来区分,其辨别能力比肖像要低,这就使得声音模仿行为呈现出多样性与复杂性。此外,人工智能领域的声音模仿技术已取得不小的进步,这类技术已被运用到声音模仿领域,能够模拟人类语音,助力生成极为逼真的声音模仿效果。所以,相较于肖像,声音的侵权形式要更为复杂。
2.2.2. 声音与肖像的认定方式不同
肖像是指在特定载体上呈现出来、可用于识别某一特定自然人的外部形象。对肖像的界定并不只限于固定的个人照片或其他真实形象,还包含绘画、雕塑等多种艺术形式呈现的形象。声音的呈现方式不同于绘画等视觉手法,其传播与储存主要依靠光盘、录音机、云储存等载体。而声音权益人自身对其声音有一定掌控力,能通过艺术处理改变声音,这会影响声音的可识别性,其固定模式也无法像肖像那样拓展。另外,摄像这一传播载体能同时保存声音和固定肖像,由此可能出现声音权益与肖像权问题的竞合;若不对声音权益的权属作出具体界定,在声音与肖像竞合时,权利人的正当权益就难以得到充分维护。
2.3. 声音的内涵
作为一项法定的人格权,声音权益的根本价值在于保障人的基本尊严不受非法侵犯。该权益的保护对象是声音所蕴含的人格利益,体现了对声音中蕴含的人格独立、人格尊严等内容的尊重与保护[5]。声音权益之所以能够纳入人格权保护范畴,关键在于其具有独特的可识别特征。声音具有可识别性特征,声音的可识别性是声音权益具有人格属性、可作为一项人格利益保护的前提条件[6]。值得注意的是,声音的独特性表现为其声纹特征与指纹具有相似性,每个人的发音特点和语言习惯都呈现出显著的个体差异性。正因如此,声音拥有标识身份的作用,人们能够通过声音辨认出具体的主体身份。
在人工智能时代,声音的商业化应用功能正被不断开发出来,这也让由声音人格所衍生的财产利益价值逐渐显现。基于声音的身份识别特点,使用名人声音制作语音导航,或是媒体平台用于商业广告宣传的现象日益增多。自然人可以将自己的声音许可他人使用,并从中获取利益。这些使用自己的声音或是授权他人使用自己声音的商业化行为,肯定了声音的财产价值,也表明声音具有独立使用的可能,有必要为其提供更加完善的规范。
3. 人工智能时代声音侵权判定
3.1. 声音权益所保护声音的种类及范围
声音权益的保护客体是自然人自身的声音,既包括即时发出的语音,也包括通过技术手段存储并可复现的声音。由于人类语音具有瞬时性,声音需借助录音设备等载体才能实现长期留存。然而,声音权益的保障对象始终是声音本身,而非其存储介质。唱片、广播等载体仅是声音的传播形式,其本质仍是依托于物理媒介的听觉表达。因此,即使声音的存储方式发生改变,自然人对自身声音所享有的权利仍不受影响。
需要强调的是,声音权益的保护范围并不涵盖语音所传递的具体思想内容,亦不包括基于声音创作的作品(如音乐、广播剧等)。在司法实践中,“全国首例AI生成声音人格权侵权案”确立了重要裁判规则,即自然人声音权益的保护可延伸至人工智能合成的声音[7]。该案认定,即便经过AI技术刻意调整或优化,只要合成声音仍具有可识别性,便属于法律保护的范畴。
3.2. 人工智能时代侵犯声音权益的主要类型
3.2.1. 利用人工智能伪造、合成他人的声音
在人工智能技术快速发展的背景下,声音信息相较于传统的文字和图像具有更强的欺骗性特征。当前,随着声音处理技术日趋完善,语音识别与合成应用日益普及,导致仿冒和生成他人声纹的技术门槛显著降低。具体而言,声音伪造是指未经授权擅自运用技术手段,通过分析声波频率、音色特征等核心参数,模拟特定个体的发音特点、语速韵律等个性化特征,进而生成该主体实际并未表达的虚假语音内容。而声音合成则是利用深度学习算法,通过对海量语音样本进行训练,最终输出全新的语音片段。值得注意的是,近年来部分网络企业通过采集大规模语音数据库,基于目标声纹特征筛选匹配样本,再结合伪造与合成技术制作特定语音,并将其应用于商业推广活动,这种行为实质上损害了声音主体所享有的经济利益。
3.2.2. 拼接、篡改他人声音
在数字技术应用领域,声音拼接是指未经授权擅自运用技术方法,从既有录音素材中提取特定词汇或音素的声学特征参数,经过重新排列组合后生成新的语音内容。声音篡改则主要体现为两种形式:其一是对原始语音的语义内容进行人为修改,导致表达意图发生实质性改变;其二是将原声替换为第三方声纹特征。在商业实践中,部分经营者存在不当利用技术手段重组或修改公众人物声纹用于产品宣传的行为,亦有将他人语音经技术处理后制作成语音产品进行销售的情形。更值得警惕的是,某些行为人出于个人目的,在未经许可的情况下对具有显著识别特征的声纹进行技术处理,不仅改变了原始语音内容,更严重歪曲了权利人的真实表达意图。
3.2.3. 公开、售卖他人声音
作为人格权的重要组成部分,声音权益的保障对象是自然人的声音本身,而非其言语表达的具体内容[8]。在日常交流中,个体的语音信息往往包含诸多私密性内容,若未经许可擅自公开或商业化利用他人声音,不仅侵犯声音权益,同时也构成对隐私权的侵害。值得注意的是,在智能技术快速发展的背景下,某些数据企业通过移动终端应用程序及在线服务平台,未经用户同意擅自采集并分析其语音特征数据,将这些具有个人标识性的声学信息用于商业研究或营利性交易,这种行为明显超出了合法使用的边界。
4. 人工智能时代声音权益的保护对策
4.1. 建立数字时代声音识别标准
受保护的声音以能够被识别为前提。声音和肖像同作为人格标识,分别通过听觉和视觉两种感官赋予他人识别自然人的途径。《民法典》第1018条把肖像权的界定从“以面部为核心”调整为“能够被识别”,由此拓宽了肖像权的保护范畴[9]。参照适用保护肖像权的规则,声音的保护范围也应以可被识别为依据,即受保护的声音应当能够经综合认定识别到特定自然人。
以能否被识别来判断特定的声音利益是否遭到侵害,要确定声音指向权利人身份的判断标准。第一,依据声音主体的知名度来区分识别声音的标准。参照肖像权可识别标准,公众人物,尤其是具有声音特殊性的演员、配音演员、播音员、歌手等,他们的声音传播范围更广,公众识别出该声音的可能性更高,应以社会一般人标准进行判断。对于并不具有广泛的社会知名度的普通公众,无法以社会一般人标准进行判断,应通过与声音主体有一定联系的理性公众进行识别。
第二,可以通过声音的内容辅助识别声音主体。若演员在设计人物台词时,形成与本人原声的反差,尽管一般公众无法直接识别为该演员,但该声音极有可能指向其所扮演的角色,从而连接到演员本人。另外,声音的长短并不一定会影响声音的识别标准,因此,对于声音识别标准的判断,还可以考虑对声音的内容进行合理认定。
第三,识别声音模仿应考虑声音的整体使用效果,综合考虑声音的使用目的和手段,进而明确该行为是否侵权。无论是真人对他人声音的模仿,还是利用合成技术合成他人的声音模型,都可以认定为广义上对他人声音的模仿,应整体判断是否会产生身份识别效果。
4.2. 平衡声音权益与表演者权的适用
针对声音权益和表演者权保护竞合的情况,基于特别法优于一般法的原则,在恶意歪曲、篡改影视表演台词声音的情况下,则可能构成侵害表演者权,应优先由著作权法来加以规范。
若非基于声音表演产生损害表演者本人的精神利益或财产利益,则可通过人格权法保护。常见的声音模仿和声音合成行为皆不适用表演者权规制。一是,模仿行为很难被视作著作权法意义上的表演。《著作权法》中关于表演者权利的条款,并未涵盖许可他人实施模仿的权利。这就表明,在表演者权的范畴内,表演者不能以著作权遭到侵害为理由,去阻止他人进行模仿。二是,表演者权的保护路径目前无法涵盖对人工智能合成声音表演等使用方式。因此,当自然人的声音受到模仿和合成时,为保护表演者人格利益,可优先采用声音权益保护路径。这一路径可直接通过法律解释的方式来保护表演者的声音权益,维持法律的稳定性。第一,声音权益的保护途径着重体现了声音保护所包含的精神利益。第二,技术进步将不断增加角色声音侵权可能性。声音模仿和声音合成逐渐成为大众文化娱乐生活的一部分,互联网平台作为一种对话式媒介,使用户实时参与成为可能,加速促成新型人格标识利用形式的出现和传播,借助参照肖像权的保护模式,声音权益的保护途径能够暂时对声音的模仿与伪造行为加以约束。第三,部分声音的二创行为最初并不带有商业化目的。《民法典》人格权编对肖像权保护条款作出了重要修改,其中最显著的变化是取消了“以营利为目的”这一传统构成要件。此项修订意味着,在司法实践中认定肖像权侵权行为的核心标准将转变为权利人的授权许可,这一调整实质上强化了肖像权人的法律地位,使其在诉讼过程中获得更为有利的保障[10]。
4.3. 加强平台的审查标识义务
关于人工智能语音伪造行为的治理责任,网络服务提供者应当履行必要的审核义务,并向内容创作者充分提示可能涉及的法律责任。作为数字内容传播的关键节点,平台在侵权信息扩散环节具有显著的影响力。当平台在知情的情况下未采取必要措施阻止侵权内容传播,反而为其提供访问渠道时,依照现行民事法律规范,平台需就损害扩大部分承担相应法律责任。
在具体治理措施方面,平台运营方可采取以下管理策略:首先,建立针对生成式语音内容的识别机制,基于人工智能音频的生成特征,运用数据建模技术实现上传内容的自动检测。通过实施内容来源标注制度,提升侵权识别准确率。其次,构建用户参与的监督体系,例如设置信用积分奖励方案,激励用户主动报告违规内容,从而形成技术筛查与公众监督相结合的综合治理模式。这种双重监管架构不仅能提升平台自律水平,也有助于构建更为健全的网络内容治理生态。