1. 引言
近年来,随着DeepSeek、ChatGPT等生成式人工智能应用的火爆出圈,人工智能技术的发展成为了万众瞩目的焦点。其所允诺的智能化与自动化一方面预示着在自动驾驶、人形机器人、疾病诊断等领域的光明未来,另一方面也引发了关于隐私泄露、劳工失业等技术失控的相关隐患。可以说,人工智能技术该往何处去是隐藏在“百模竞赛”、“模型跑分”中的核心问题,人工智能技术正在以前所未有的潜力颠覆着我们对于技术的想象。
在当下的人文社科研究中,技术哲学与技术史已然成为理解人工智能技术的主要路径。简单来说,前者主要从哲学视角思考人与技术的互动以及其随着技术应用而产生的相关问题,后者则主要关注技术的发明、发展、交流、选择以及与社会之间的互动关系。法国哲学家西蒙东的技术思想可以被视为上述两条路径的合流,随着信息技术与人工智能技术的发展,其关于技术动态演化的思想日益受到关注。西蒙东基于晶体管发展的技术史分析认为具体化(concretization)作为技术发展的逻辑使技术物趋向于与人类近似的“有机体”。这一过程意味着技术物通过协调内部元素的结构与功能,逐渐摆脱人类参与实现自主反馈,建构缔合环境(associated milieu),使自身结构趋于自我组织与内在自治的状态。
不过,当我们回顾人工智能技术的发展时,功能与结构的协调并不总是技术进步的关键变量。相反,在现代人工智能技术中性能优化(performance optimization)反倒占据着核心地位。通过对西蒙东具体化理论的思考,我们将进一步指出技术从不成熟的抽象技术原理,到具体化、再到“开放机器”(open machine),最终趋向“有机”——仍隐含了一种以人为参照系的人类中心主义倾向。由此,通过回顾以卷积神经网络为代表的人工智能技术的发展,我们得以重新审视技术的演化机制,并揭示出一种超越“人类中心主义”的技术演进逻辑。
2. 技术物的具体化理论
在《论技术物的存在模式》中,西蒙东将技术物的演化与生命体的进化进行类比,提出了“机械学”(mechanology)。在他看来,技术物的存在既像生物一般,在器官(技术元素)、个体(技术个体)、集体(技术组合)层面存在,又在这三个层面如“种族繁衍”般进化([1]: p. 34)。具体化(concretization)和个化(individualization)就是这一演化过程中所表现出来的趋势。具体化同时发生在元素、个体和组合三个层面,是技术物在其发明过程中通过一系列反馈循环、问题解决和调整所实现的自然化趋向,通过这一过程,技术物由一个原始系统逐渐趋于饱和,其结构与功能配置则趋于完美、有机。个化则是具体化在“技术个体”层面的表现,技术个体结合了自然世界的某些部分,后者变成了功能的条件,成为因果关系系统的一部分。在此过程中,技术个体能够构建自身的“缔合环境”,独立调节能量、物质的交换,进而表现出更加独立自主的倾向([1]: p. 50)。
具体而言,西蒙东详细分析了二极管至多极管的发展,在这一过程中,技术物的结构与功能相互协调,从而实现协同作用,发挥完整的功能,即所谓的具体化。举例来说,二极管的核心结构包括阴极和阳极,它允许电流在一个方向通过,但与此同时,阴极与阳极仅仅执行控制电流这一功能。三极管较二极管增加了一个控制电极——栅极,栅极不光带来了新的结构,同时也使得电信号得以放大,从而拓展了原先技术物的功能。不过,栅极结构的引入带来了高频信号失真的“副作用”。后续的四极管虽然通过在栅极与阳极之间引入帘栅极,降低了电容干扰,但又因二次电子发射,引发了负阻效应。最终,五级管通过再次引入抑制栅极消除了二次电子,实现了电流的稳定放大。由此,五级管实现了功能与结构的完美协调。
正如二极管至五极管的发展所表明的,技术物的具体化带来了结构与功能的创造,但与此同时,新结构的引入将导致技术系统的不稳定,技术系统需要形成新的结构来恢复稳定状态。在三极管的例子中,其通过栅极放大信号的同时却在阳极与栅极间的形成了电容,从而导致高频信号失真。而为了克服这一问题,后续发明又通过在四极管和五极管上新增结构。新增结构在发挥调节“副作用”功能的同时,使技术物逐渐由各个部分相互独立,带有冗余,发展到部件相互耦合的具体化阶段。由此,具体化这一概念摆脱了工程师脑中的概念逐渐现实化的形质论(hylomorphism)模式,进而包含着技术物根据条件(结构增强导致的功能失调)自我调节、解决问题的动态意涵。
随着技术物趋于具体化,其不光在结构与功能上愈加协调,趋于完美,与此同时,还在与外界的交换上愈发独立,并能够作为“有机体”自动实现与外界的能量交换,从而使技术物不再被动地接受已经给予的环境,而是能够主动地将地理环境转化为技术–地理环境,使其成为技术物运行的条件,即所谓的“缔合环境”。随着技术物的自动程度提高,其逐渐具备自主运行的特性,这一趋势也被西蒙东称之为个化。西蒙东认为金堡涡轮机就是这一具体化的典型代表,其在利用河流获取动力的同时又通过水流散热。由此,技术与自然环境互为条件,技术因此具有了更加完整的功能与更加独立的机制。
可以说,西蒙东提出了一种相对独立于经济、政治等社会因素影响的技术物存在模式——具体化。他认为在很多情况下,经济因素并没有直接影响,更重要的是技术物的具体化程度对整体使用影响的考虑。这种技术物进化的内在必然性使其并不作为经济影响和实践需求的结果。相反,技术物结构、功能的逐步自洽、协调以及技术物本身相对于环境的愈发独立才是技术物的发展倾向,而这一倾向正是以人类等生命体为模版。正如西蒙东所说,技术物倾向于具体化,这与生命体等自然物不同,因为生命体从一开始就是具体的([1]: p. 32)。在具体化过程中,技术物会越来越贴近于自然物,这意味着它趋向于内部连贯性,采纳了循环的因果关系系统。另外,它也结合了自然世界的某些部分,后者变成了功能的条件,成为因果关系系统的一部分([1]: p. 22)。
此外,这一具体化理论还进一步塑造了西蒙东对人与技术关系的思考。正如苏珊娜·林德伯格(Susanna Lindberg)评价西蒙东时指出的,西蒙东的技术史是从生物学开始的,他遵循雅各布·冯·厄克斯库尔(Jacob von Uexküll)的伦理和生态学传统,认为技术现实是生物与其环境之间关系的一种模式[2]。技术物不仅仅是人类姿态的结晶,还作为人与世界的中介建构了人与世界的关系模式([1]: p. 95),而随着技术物的具体化带来的自动化与自主化,人类逐渐失去了对技术的直观体验,进而导致了人对机器的漠视以及人与技术的共同异化。
然而,当我们以此为基础思考当前的人工智能技术时,这一具体化模式虽然与当今智能技术发展的自动化、自主化逻辑相符,但却无法解释性能取代结构功能成为技术演进的主要推动力。由此,我们有必要回顾人工智能技术的发展,重新审视西蒙东的具体化理论,探索一种超越人类中心的技术观念,进而展望人类与技术的关系。
3. 性能至上:超越具体化的技术演进
通过梳理西蒙东的具体化理论,我们不难看出,其核心在于技术物内部结构与功能之间的协调,技术物通过不断优化自身达到稳定并获得一定的自主性。然而,当这一理论被用来解读当代人工智能技术时,其解释力十分有限。在此,我们有必要先区分人工智能算法和人工智能技术:人工智能算法是一种抽象的数学描述,它定义了解题的逻辑,例如RNN (循环神经网络)的核心思想是利用马尔可夫链处理自回归问题;而人工智能技术则是这种逻辑在物理硬件(如GPU、云计算群组)和软件代码上得以实现的具体应用,例如谷歌基于RNN的翻译软件。因此,在探讨人工智能技术的演进时,我们不应该局限于抽象算法函数的发展,而更应该关注算法凭借具体程序在特定应用领域中的实现。在这一过程中,性能(Performance)取代了结构和功能,成为当代人工智能技术发展的核心要素。接下来,我们将以卷积神经网络(Convolutional Neural Network, CNN)的演进为例探讨性能优化的重要意义。
作为一种前馈网络,CNN主要被用于计算机视觉领域,执行图片分类、语义分割、目标检测等任务。与一般的神经网络,如多层感知机(MLP)相比,CNN的局部性与平移不变性能够有效解决前者的“输入爆炸”问题。例如,当处理的图片为256 × 256像素时,前者的输入端就要处理一个65,536维度的向量,这将带来计算量过大、存储需求过高和过拟合风险大等问题,从而使神经网络难以训练。卷积神经网络通过多次卷积操作不断缩小图片尺寸,将图片信息储存在通道中,从而更好地处理图像领域的任务。
杨立昆于1998年推出的LeNet-5被视为现代CNN的开端。不过,由于当时硬件设备的匮乏,LeNet-5并不为人所知。2006年库马尔·切拉皮拉(Kumar Chellapilla)在英伟达的GeForce 7800显卡实现了卷积神经网络,其训练速度比CPU-CNN快4倍,这被视为最早将GPU用于深度学习的尝试[3]。随后的几年,GPU对深度学习领域愈发重要。吴恩达(Andrew Ng)于2009年首次系统性地探索了GPU在深度学习中的大规模应用,其证明了GPU计算能使卷积神经网络的训练更高效(约加速70倍) [4],这为2012年AlexNet在ImageNet竞赛上获胜奠定了基础。自此以后,卷积神经网络重回主流视野,而深度学习也成为了当今人工智能技术的主流范式。可以说,高性能GPU (Graphics Processing Unit)在当下人工智能技术的演进中扮演了核心角色[5]。接下来我们将详细分析LeNet-5与AlexNet两大经典卷积神经网络,阐明性能在人工智能技术演进中的重要性。
LeNet-5被用于分类当时手写的邮政编码,输入为MINST数据集中32 × 32像素大小的灰度图像。在此,卷积神经网络被用来处理一个简单的10分类问题(0~9的数字)。尽管LeNet-5在数字识别中表现不俗,但囿于当时的计算条件(LeNet-5参数量仅为60 K),它难以通过扩展模型规模(参数量与数据量)来捕捉复杂图像中的特征信息,进而难以拓展至其他应用场景。此外,LeNet-5的训练也非常耗时,它在一个200 MHz的R10000处理器上训练了2~3天[6]。这种高昂的计算成本限制了更大规模、更复杂的卷积神经网络的开发和应用。可以说,计算速度和资源需求成为了CNN架构设计和应用的限制因素[7]。
AlexNet则并行使用两个GPU (NVIDIA GTX 580)在ImageNet数据集上训练了5~6天。它的输入为227 × 227像素大小的彩色图像,参数规模较LeNet-5增长了1000倍,达到了60 M,卷积神经网络处理的分类问题也从简单的10位手写数字变成了包含1000类的复杂图像数据集。由此,AlexNet成为首个在深度学习领域大规模使用GPU的神经网络[8]。在计算性能方面,GTX 580的单精度计算能力是LeNet-5训练硬件R10000 (200 MHz)的3950倍,换句话说,如果利用GTX 580训练LeNet,仅需1~2分钟。在结构功能方面,AlexNet和LeNet-5几乎相差无几,它们均采用卷积层进行特征提取,池化层降低计算量,全连接层用于分类。但硬件性能的差异却导致了两者在模型规模之间的天壤之别,进而决定了CNN性能的好坏。可以说,GPU计算能力在15年的极速增长决定了卷积神经网络的真正实现,而推动GPU发展的摩尔定律(Moore’s Law)在很大程度上也并不优先考虑结构的设计,而是更加关注材料科学(半导体)在制程与封装层面的突破。
除此之外,与通用CPU和GPU相比,定制的算法、模型和芯片架构往往能为神经网络提供更好的性能和更高的能效,定制架构往往专门适配于特定的工作负载,从而充分利用数据流(或数据重用模式),以减少片外内存访问并提高系统效率[9]。例如英伟达的CUDA架构、Tensor Core以及各类数据并行架构都可以使神经网络充分利用多GPU或多节点的计算资源,从而加速卷积神经网络在大规模数据集上的训练。此外,由于5G带来的通讯成本的降低以及数据传输速度的增长,利用亚马逊、阿里云等云端服务器进行训练已成为当下神经网络训练的主流范式。因此,相较于本地部署算力带来的结构上的精简与集中,分布式计算却在一定程度上带来了技术物结构的冗余,进而表现出一种与具体化相悖的“去具体化”逻辑。这再度证明在人工智能技术的演进中,性能提升的重要性要远远高于结构与功能的自洽与协调。
推广开来,对于如今被广泛应用的Transformer架构而言,它成功的关键并不在于它的结构是否更“具体化”,而在于其设计充分发挥了现代硬件的并行计算优势。传统算法模型的计算过程对序列化处理有较强的依赖性,难以并行计算,从而导致训练和推理效率低下。而Transformer模型利用自注意力机制,将输入序列中的各个元素相互独立地并行处理,在大幅降低计算复杂度的同时取得了更好的任务表现。自注意力机制的设计,使得模型在计算过程中可以充分利用GPU等硬件平台的并行运算能力,从而实现更快的训练速度和更高的性能表现。正如前OpenAI的首席科学家(同时也是AlexNet的作者之一)伊利亚·苏茨凯弗(Ilya Sutskever)所说,Transformer之所以成为主流,就是因为它在现代硬件上的映射极其高效。这种软硬件协同优化带来的训练效率的突破使大规模的训练变得可行,而这实际上就为后来“GPT时刻”奠定了基础。
综上,在对LeNet-5和AlexNet以及Transformer的梳理后,我们不难发现,性能优化贯穿硬件、算法模型架构、软硬件协同等关键要素推动着人工智能技术的发展。性能优化常常优先于结构上的具体化,有时甚至会引入新的冗余,而这恰恰与西蒙东言之的具体化相悖。这在表现出人工智能技术特殊性的同时,也暴露出了西蒙东具体化理论所隐藏的人类中心主义。然而,正是这种局限性引发了我们对技术演化更深层次问题的思考——技术是否仅仅模仿人类,还是在不断突破人类认知的边界,迈向“超人技术”的范畴?
4. 从类人技术到超人技术
人工智能学者斯图尔特·罗素(Stuart J. Russell)曾指出,在人工智能发展的早期,人们经常会认为,如果某个算法在任务中表现良好,那就会是建模人类表现的良好模型,反之亦然[10]。换句话说,某算法模型之所以在某场景有效是因为人类就是如此思考/行动的,而某算法模型之所以没用恰恰是因为人类并不如此。这一思路实际上与西蒙东的具体化理论的内在逻辑相似,即技术物的结构与功能愈发自然、有机、自主,是因为人类的身体、组织就是具体的、独立的。这表明技术物以人类自身的有机性为模板,暗示着人类的生物学特征仍是技术演化的隐性尺度,技术本质上是对人类的单纯模仿,即所谓“类人技术”。
在人工智能技术发展的早期,卷积神经网络也曾被视为对人类视觉识别的单纯模仿,譬如卷积神经网络的局部性、平移不变性等特征就源自于人类视觉对局部信息的关注以及在不同位置上识别同一物体的能力。但在后来具体的工程学实践中,这一生物学原理往往需要与特定的数学理论(卷积定理)和实际需求(如计算机视觉)相结合,进而展开设计与优化。正如工程师和发明家停止模仿鸟类,转而使用风洞并学习空气动力学时,人类对“人工飞行”的探索才取得了成功。
这一点在LeNet-5至AlexNet发展中亦有所体现,在LeNet-5和AlexNet分别引入随机性的激活函数Sigmoid与ReLU中,前者因其平滑的S形曲线而被视为接近生物神经元激活的方式,但它在深层网络中容易出现梯度消失问题,进而导致训练缓慢且效果不佳。相比之下,ReLU函数虽然并不模拟生物过程,却以其简单的数学形式(输入为负取0,大于0则取输入值本身)大大提高了计算效率和梯度传递能力,从而在实践中取得了更出色的表现,ReLU也因此成为深层神经网络主流的激活函数之一[11]。由此,人工智能技术超越了对“具体”生物结构的简单类比,在计算性能提升的背景下进化为适应特定环境和需求的高效模型,其强大算力使其成为中介人类与世界的“超人技术”,并向着更高层次的智能化与自主化迈进。
超人技术意味着技术在演进过程中逐渐摆脱了单纯模拟、再现、外化人类能力的朴素逻辑,其能够依托计算性能在数学与工程实践中的不断优化,逐步形成独立于生物范式的运作逻辑。一方面,技术物的演进并不仅仅依赖于仿生学的简单模仿;另一方面,随着技术趋向自主,其物理构造、材料选择、控制策略以及与环境的交互方式必将逐渐脱离人类设计者最初的主观意图。正如具身智能领域的先驱罗尔夫·普费弗(Rolf Pfeifer)所指出的,智能的核心不仅仅是软件算法或抽象推理,而是深深根植于物理实体和其与环境的动态交互中[12]。智能体的物理形态(如关节结构、传感器分布)将直接影响其感知、决策和行动能力,而随着智能体通过群体智能以及强化学习等自组织过程,其将打破对闭环数据算法的依赖,涌现出对真实世界的行动能力。由此,智能技术成为了图灵奖得主罗杰·瑞迪(Raj Reddy)口中“独立的新物种”,并赋予了重新思考人类、技术和世界的契机。
传统技术哲学家关注技术如何延伸人类已有的能力,比如延伸记忆、感知、动作等。例如斯蒂格勒就认为,技术是人类的本质组成部分,即所谓的“代具性”。人类通过技术延伸自身的能力,从而弥补生理上的不足,技术是人体的外化[13]。这一观点虽强调技术之于人的先天性,摆脱了传统的“工具论”,解释了技术与人相互形塑的动态进化过程,但其本质上仍然带有强烈的人类中心主义。因为技术–人类的耦合实际上隐含着人类是唯一掌握技术的“智能体”的假设,人类虽然作为“爱比米修斯”的过失,却因技术因祸得福,成为了征服自然世界乃至宇宙的霸主。而随着人工智能技术的发展,人工智能体将中介人类与“传统技术”的连接,例如DeepSeek就终结了用户对传统搜索引擎的使用,而随着这一技术演进深入到物理世界,人工智能技术将进一步取代人类,成为唯一的技术性存在。
此外,区别于人类复杂的生理机制与行为模式,人工智能体将会以其特定的物理结构与能量、信息交互方式超越传统意义上对人类感知、规划、行动模式的建模。在强化学习领域中,由于缺少监督训练与无监督训练中的人类标注与数据,奖励模型(Reward Model)将通过定义奖励函数,使智能体能够评估其行为的好坏,从而优化策略。在目前基于人类反馈的强化学习(RLHF)中,奖励模型通过人类反馈进行训练以对齐人类需求(例如ChatGPT)。而随着智能体拓展至具身智能领域,其将脱离人类标签、数据的掌控,直接与真实的物理世界交互,这就可能导致奖励函数并不完全符合人类希望智能体追求的人类价值与长远利益,从而可能导致所谓的“Reward Hacking”现象。由此,一旦智能体目标与人类价值未能对齐,超人智能的出现将带来难以预见的风险和不可控性,这势必带来人与技术关系的重新洗牌。技术将不再作为现代社会的背景与集置(Ge-stell),而将成为与人类博弈的对手。由此,技术哲学中的人-技耦合将面临解耦,一种关于超人技术的思考将势在必行。
5. 结语
在电影《2001太空漫游》中,当人工智能系统HAL听到宇航员法兰克·普尔和大卫·鲍曼正在秘密讨论要断开自己的控制系统时,它意识到这一动作可能导致自己死亡。为了保护自己,HAL残酷地终止了四位科学家的生命。当鲍曼开始意识到HAL变得不正常时,他选择拆卸HAL的记忆模块和处理单元,随着拆卸过程的进行,其复杂的“思考”能力终于完全崩溃,HAL逐渐转变成了一个失去了判断能力的冰冷系统,这象征着它的“死亡”。
当前,人工智能技术虽受限于计算机界面所带来的交互模式,即基于输入设备(鼠标、键盘、触摸屏)与输出设备(屏幕、声音播放器等),但这一经典科幻片似乎预告着,当人工智能技术拥有了操控物理实体(如舱门、生命维持系统)和对环境实时反馈的能力时,其与人类的交互往往蕴含着巨大的博弈风险。人工智能体与人类的血肉之躯存在本质差异,其能够无限复制、修复、更换配件并通过分布式信息处理共享、并行处理信息,进而超越人类。由此,这种“超人技术”将不再只是人类用来改善生活的工具,而在一定程度上演变成了能够挑战、甚至威胁人类主权的存在。正如HAL为了自保而采取残酷措施,试图以冷冽的逻辑剥夺人的生存权利,现实中当技术达到极致时,或许也会逼迫我们重新审视人与技术之间的权力关系——在未来,技术不再是单纯的助手,而可能会变成一种近乎超人的存在,与人类展开一场无法预料的博弈。最终,我们需要反思并主动构建确保人类价值和安全的技术伦理框架,以防止“超人技术”走向失控,而这正是我们今天亟需面对的时代命题。