1. AIGC图像生成技术的学科基础与发展成果
1.1. AIGC图像技术的定义
AIGC图像生成技术广义上是指创作者参与并主导,利用人工智能图像生成工具的技术手段所创作出的图像艺术作品。这一新兴的技术手段突破了图片摄影创作对相机的依赖,转而是通过借助算法、扩散模型,使影像生产过程发生了根本性的转变。尤其在图像生成领域,通过训练特定扩散算法,能够将人类输入的自然语言描述(包括关键词、提示词或完整句子)转化为具体的图像画面,这种由文字生成图像(text-to-image)的方式已成为当前AI艺术创作的核心方向之一。
目前主流的AI图像生成平台多采用扩散模型(Diffusion Models)进行训练。扩散模型的基本原理是利用随机过程和概率进行建模,其训练过程可以简单理解为两个阶段:首先是“正向扩散”,即将图像不断加噪,使其逐渐演化为无意义的噪声图;接着是“反向扩散”,特定模型通过学习再进行去除噪,最终还原出一张高质量的图像。通过反复迭代大量此类过程,AI逐渐掌握从随机噪声中“生成”具有现实感甚至“艺术性”的图像的能力。相比于另一种常见的生成对抗网络(GANs) [1],扩散模型在图像细节的稳定性与生成的多样性方面具有明显优势,尤其是在面对高分辨率与复杂场景时表现更加优秀。
支撑AIGC图像生成技术发展的底层机制是机器学习,作为人工智能的核心分支领域,机器学习的目标是让计算机系统从真实世界的样本与经验中自动提取规律并实现泛化预测。近年来,随着计算能力的提升和大数据的发展,神经网络得以发展为更复杂的深度神经网络,产生了所谓的“深度学习”(Deep Learning)。尽管深度学习成为当下最受关注的技术路径之一,但实际上,机器学习的发展可以追溯到上世纪70年代,彼时神经网络尚处于探索阶段,直到数据和算力的突破才真正释放其潜能。深度学习的关键特征是其多层结构,这使得模型能在不同层级上进行信息抽象,涵盖了低层的边缘识别和高层的语义理解。如今,AI图像生成的成功实践往往是多种机器学习方法协同作用的结果,经过分布式训练与复杂模型整合,最终实现令人惊艳的视觉成果。
1.2. AIGC图像生成技术的生态优势
图像生成应用率先出现的是在2022年,Stable Diffusion吸引了各界的目光,除了它开源、免费、可本地部署的特性,最重要的是它可以利用各类开放、包罗万象的扩散模型生态。Stable Diffusion官方发布了诸如SDXL和1.5等若干版本的开源模型,但是用他们生成的图像风格比较单一且缺乏细节,因此,个人用户发布的“私炉模型”(由个人训练并发布分享的模型)受到广大用户的欢迎,目前AIGC图像生成主流的有Hugging Face、Civitai等社区,允许用户共享AI学习模型和数据集的平台,提供各类模型、LORA等。
目前,在AIGC图像生成领域,创作者可以根据自己需求,通过数据科学平台及模型分享社区中获取个人用户训练的微调模型,运用到个人创作中,同时还可以利用机器学习对模型进行个性化修改,不仅弥补了原版模型绘制精度不足的局限性,创作者甚至可以让特定风格和形式,甚至是特定人物或作品出现在AI生成作品中,让AIGC图像生成从随机转为可控,这是Stable Diffusion、Midjourney和Dall·E等“闭源”图像生成应用最大的区别之一。
从2023年下半年开始,Comfy UI相较于其他图像生成平台,出图更快、更流畅,同时所需求的配置要求却更低,利用工作流的方法,将AIGC各类技术模块进行整合,实现人像生成、背景替换和图片转动画等功能,其使用热度已经远超经典的Web UI、SD. Next和Invoke AI等,成为了目前“最受欢迎”的AI图像生成平台,开启了AI图像生成的工作流时代。
2. AI图像对摄影伦理的挑战
2.1. 艺术与非艺术的问题
使用AIGC技术进行摄影创作的影像能否成为摄影艺术作品,核心关注点就在于它是否能在传统摄影艺术中找到一个新的、不同于以往的表现方式。
摄影是一门年轻的艺术,从诞生至现在,历经了一百多年,作为新事物的诞生,其纪实性与工艺性使得摄影被看作是一种机械手段,那个时候的摄影家都算不上是艺术家,而那时候的摄影也不是艺术创作。而之后,从模仿绘画格调的画意摄影到直接摄影的转变,让摄影吸收了时代气息的同时,也增加了摄影艺术家自己的思想,具有一定的现代表现性。正如德国新客观主义的艺术家认为,摄影自发明以来,它既不是绘画的副产品,也不是科学的奴隶,摄影具有客观准确描摹现实世界,揭示事物的自然本质,以观察的目光呈现不为人知的和习以为常的世界。这种天然的真实属性是其他艺术形式所无法取代的,也是摄影区别于其他艺术语言的优势所在。
AIGC图像往往具有高度的视觉真实感,但这并不意味着AI具备了对图像的“理解”能力。这些图像是基于对海量数据统计规律的学习,通过概率分布计算,将每一个像素安置于“最有可能”的位置,从而构建出符合人类视觉认知经验的图像。换言之,将现实中的山比作客观实在的景观,那么未经创作者修饰的AIGC图像属于具有随机性的数字景观。
而利用AIGC技术的摄影艺术作品,更重要的是在影像中体现创作者的思想,而不是依附于AIGC技术本身,追求视觉上逼真可信,更不该只靠AIGC技术来达到摄影艺术的效果,AI图像应该拥有自己特有的形式存在于艺术中。当然,这一判断并非没有争议。部分理论家认为,AIGC生成图像缺乏传统摄影的光学索引性和在场性,因此应归类为“生成艺术”而非摄影。本文在承认这一观点合理性的同时,认为在满足特定创作条件并与观者建立情感关联的情况下,AIGC图像可视为摄影艺术的一种延伸形态。
2.2. 虚假与真实的问题
摄影艺术不断生成的潜力,是人们热衷探讨的话题,也是摄影魅力所在,人们期待并尝试让摄影所能够呈现的视觉奇迹不断发生,这种具有开放性质的语言体系,也证实了摄影艺术具有“发生学”意义的艺术。
在图像大爆炸时代,观者在面对摄影艺术作品,首先考虑的便是媒介与内容是虚假的还是真实的,然后再进行审美,而虚假与真实则会带领观者走向截然不同的道路。但二者都使用同一种语言,他们的价值都在于表达,都具有沟通信息与交流思想情感的功能。传统摄影作为人眼视觉的延续与拓宽,能够记录人眼所能感知到的可见光波段的物质世界样貌,那么传统摄影语言就是准确还原被摄对象的细节,来达到真实、形象、感性与直觉的画面表达效果;AIGC摄影语言并没有从传统摄影艺术分离出来,而是伴随着科学技术不断进步与发展之中产生的一套相对独立的体系,利用模型优势,遵循摄影叙事逻辑,通过科技手段,以算法构建图像现实。
2.3. 可控性的问题
AIGC图像生成技术为摄影艺术创作开辟了全新的路径,AIGC创作者(即在AIGC技术语境下从事影像创作的主体,下文简称“创作者”)如何使用好这一表达主体性的工具,就必须考虑可控性的问题。与传统摄影不同,AI图像的创作依赖于算法模型,其结果常常带有不可预知的特性。尽管创作者可以通过正反关键词缩小提示范围、使用LORA进行风格设定等手段对创作过程加以引导,但算法模型的黑箱性决定了最终图像常常偏离创作者的最初意图。技术的不确定性意味着创作者在创作过程中需要不断试错与调试,生成结果往往充满随机性。
此外,可控性问题的另一层面是创作者自身的“失控”:在对单一创作意图进行图像生成时,创作者往往面对大量的生成图像,创作的思路反而可能被技术引导,逐渐脱离原始创作意图。这就容易导致表达趋于分散,创作不再单向聚焦,而是一种创作者与AI技术之间的博弈与抗衡,创作者既是技术的操作者,也是被技术规则所制约的主体。
3. AI图像的伦理追求——增进创作主观真实性
3.1. AI生成图像如何重塑观者对图像的真实判断
在2025年西藏日喀则地震中,一张由Midjourney生成的废墟中戴帽小孩的图片在社交网络获得大量转发,冲上微博热搜,在社交媒体上引发了强烈的反响。创作者在发布时注明由AI生成,但之后被大量自媒体转发时去除了附注,以致主流新闻机构不得不出面澄清,明确声明该图并非真实新闻现场,而是由AI生成的图像。这一事件凸显出,尽管AIGC图像与新闻摄影在创作机制与媒介规范上具有本质区别,且多数图像的创作者并无刻意“以假乱真”的主观意图,但在数字传播环境中,图像本身的意义不再由创作者单方面决定,转而更多依赖观者的解读机制和图像呈现策略。
正是在这种语境下,AI图像生成所依赖的注意力机制开始发挥决定性作用。2014年Google收购英国AI公司DeepMind,随后在2017年由Google顶级研究员撰写的题为《你唯一需要的就是注意力》的文章提出了Transformer (AI深度学习模型)架构,这一里程碑式的文章掀起了卷积神经方向的技术大变革,此后,常用生成算法中大多引入了注意力机制。
这种机制是一种受人类视觉系统启发而设计的计算方法,它在深度学习、特别是自然语言处理和计算机视觉等领域中发挥着极其重要的作用。人类在观察事物时,并不是对所有信息一视同仁,而是会有意识地聚焦于当前任务相关的关键信息,例如在阅读一段文字时,我们会优先关注与上下文紧密相关的词句;在观看一幅图像时,我们往往会集中注意于图像中的核心区域。这种选择性关注的能力使得人类在进行信息处理时更为高效。
AIGC生成的图像,就是利用这一机制,通过强化和突出画面中的重点区域来引导观者的注意力,使人们自然而然地聚焦于这些视觉焦点。利用人类视觉系统具有选择性关注的特点,使观者的注意力集中在图像的核心部分时,忽略周围的一些细节性瑕疵或微小缺陷。这种视觉上的“过滤”效应,使得即便图像在局部存在不足或不完美,整体上仍能给人一种逼真且可信的感受,极大地降低了人工智能对绝对真实性的依赖。
在观看AIGC图像时,观者更倾向于基于图像的视觉线索、形式风格及其所触发的情绪共鸣,做出“现场实拍”的判断,换言之,AIGC生成图像的“真实感”并非源于图片所展现的内容真实,而是在观赏审美过程中基于视觉经验,重新定义影像,建构影像“真实”的认知。这不仅挑战了传统摄影对于真实性的主张,也对AI图像的“真实”表现提出了新的思考维度。
3.2. AI图像需要融入创作者的主观真实性
传统摄影的“真实性”观念,源于其所拍摄的对象是客观真实世界。认为摄影图像是对客观世界的真实复刻,因此具备技术所赋予的真实性[2]。这曾经是20世纪摄影作品最基本的要求,相机并不仅是记录工具,更是被赋予“见证”现实的中立媒介角色。正如巴赞在《摄影影像的本体论》中所言,在图像和物理世界的物体之间没有一个人的主观介入,只有镜头和胶片这些光学元件,镜头替代人眼在凝视物体,成为真实的必要条件。
但在这之后,传统摄影开始发现人潜意识的特质,并在照片中融入象征意味,传统摄影便出现超现实主义的倾斜。涌现出一批以布勒松为代表的超现实主义摄影师,他们打破现实世界中现成物体之间的关系,利用非凡的想象力,将真实世界中的物品物化为艺术符号,利用变形、摄影光塑、多次曝光与拼贴重组等,将摄影当作画笔来表现作者的某种理念。打破了传统摄影的仅通过相机客观真实记录和创作的束缚,在创作中融入了摄影师的主观情感。
进入21世纪数字摄影时代的背景下,整个世界都高度影像化了,这为产生不同的摄影艺术形式提供了条件,尤其是后摄影时代,AI利用大数据和模型,深度学习客观世界中的万事万物,以数字图像为媒介,将不同事物和景观拼贴组合。利用AIGC进行创作的工具正被广泛用于打造脱离现实经验的虚拟图景,成为建构拟像世界的重要视觉生成手段。这种基于真实世界的元素进行创作的形式,使得观者能够从AI图像中获取真实感。但它利用技术推动摄影艺术挖掘人性、传承文化与启迪未来[3],在技术变革背景下重塑对人性、文化与未来的关照方式。
AI图像家在进行创作过程中,需要融入了强烈的主观意识,其核心追求为“主观真实性”——即作品在视觉元素、风格和叙事结构中,能够清晰一致地反映出创作者预设的、具体的情感目标或观念意图,体现创作者的人生观、价值观以及人与人的关系的变化以及观察世界的方式,使用AIGC的技术重新定义和拓展了摄影的记录功能和对影像真实性的理解,形成了自己的风格。正如派翠西亚·包斯华形容黛安·阿巴斯的作品贯彻了她本人观念的影像,是一种以自己的人格和技术可以准确掌握的影像,是可以完全体现自己审美观念的东西。例如,创作者以“城市孤独”为主题进行创作,则应在构思阶段设定冷色调、清晨光线、单一主体与广阔留白等明确的视觉策略,并在整个创作过程中严格贯彻这一策略,使观者在观看后普遍感受到孤独与疏离的情绪,同时保证作品的叙事节奏与细节安排与初衷一致,即可判定该作品较好地实现了“主观内在真实性”。
3.3. AI图像的艺术价值
20世纪工业技术时代中一个重要的人物莫霍利·纳吉认为,相机是一种现代化的图形工具,是可以独立记录社会和现实的工具,也是重塑其他视觉表达的工具。在AIGC技术发展的洪流中,创作者利用AIGC技术,一视同仁的关注现实、社会和历史意义,不能忽略这种形式所寻求的艺术努力。
AI图像创作者所关注的对象,是非常个人化的,他们将个人对生活场景的认知和潜意识里能够吸引他们的东西,用AIGC技术去进行新的形式美学创作。在作品的叙事方式上,主题明确或不明确,或是象征,或是隐喻,对整个事件的记录完整明了或不完整,所表达的意义通常可能是唯一的,也可能是不唯一的,但作品创作过程,具有精心排布的结构,逻辑性、目的性很强,同时影像内容与风格呈现方式的是多样的,需要观者根据个人经验去解读。
摄影方式是百科全书式的,AIGC的创作路径逐渐成熟,创作者要把AIGC技术作为一种视觉基础工具,再利用它自身的特性,进行社会学、人类学或自然科学研究,使摄影自身的本体语言与AIGC的技术手段融合,重塑视觉表达。桑塔格在《论摄影》里说道,摄影是唯一天生的超现实艺术,只有那些能够被体察和认同的真实,才是真正存在的真实[4]。而AICG摄影艺术,同样也是以复制现实作为核心内涵,在光怪陆离的作品中,描述或再现的常常是现实的面貌,具有互为表里的双重特性。AI图像创作者早已将虚拟、现实、超现实揉成一个虚实交错、变动不居的混合体,而生存在这种新情境里的摄影创作者与评论者,亟须重新思考创作逻辑和审美机制,以回应这种技术推动下的摄影方式转向。