斯派洛与图灵分类测试:人工智能道德观念的交锋与启示
Sparrow and the Turing Triage Test: Exploring the Clash of Moral Perspectives in Artificial Intelligence and Its Implications
DOI: 10.12677/acpp.2024.1311443, PDF, HTML, XML,   
作者: 翁新旭:同济大学人文学院,上海;翁 磊:布宜诺斯艾利斯大学法学院,阿根廷 布宜诺斯艾利斯;瓯麓科技服务(浙江)有限公司,浙江 温州
关键词: 格图灵分类测试斯派洛功能主义内在生命The Turing Triage Test Sparrow Functionalism Inner Life
摘要: 最新的GPT系列产品,让人们更加憧憬认知能力远远超过人类的通用AI。与此同时,一些伦理学家认为应该赋予人工智能以道德地位,让它们能为自己的行为负责。斯派洛通过构造“图灵分类测试”的思想实验反对以普特南为代表的计算功能主义的观点,同时也反对构建道德机器。他认为AI缺乏本体论意义上“内在生命”,也不具有惩罚的可能性,从而也不具备道德地位。但是,在斯派洛的思想实验中,并没有严格区分“道德能动者”和“道德承受者”,以致于在斯派洛的论证中,对AI道德地位的界定是模糊的。尽管如此,斯派洛的思想实验仍具有启发性意义。
Abstract: The latest GPT series products make people more hopeful about general AI whose cognitive ability far exceeds that of humans. At the same time, some ethicists argue that AI should be given moral status, holding them responsible for their actions. Sparrow opposed Putnam’s view of computational functionalism through his thought experiment of constructing the Turing triage test, as well as the construction of a moral machine. He argues that AI lacks an “inner life” in an ontological sense, has no “potential for punishment,” and thus has no moral standing. However, in Sparrow’s thought experiment, there is no strict distinction between “moral agent” and “moral patient”, so that in Sparrow’s argument, the definition of AI’s moral status is vague. Still, Sparrow’s thought experiment is instructive.
文章引用:翁新旭, 翁磊. 斯派洛与图灵分类测试:人工智能道德观念的交锋与启示[J]. 哲学进展, 2024, 13(11): 2999-3004. https://doi.org/10.12677/acpp.2024.1311443

1. 引言

在AI技术大发展的今天,如一些艺术作品所呈现的那样,我们似乎可以预见一个被强AI包围的世界。AI将会有自己的信念、欲望、情感。通过遗传算法、遗传编程或其他进化计算方法,它们或将成为完全成熟的具有自我意识的AI。在关于道德地位的大多数哲学理论中,拥有自我意识是道德地位的首要条件,另外,由于AI在诸如计算功能上显而易见的优势,根据功能主义的一些观点,AI甚至拥有比人类更强的道德能力从而获得更高的道德地位。

斯派洛反对功能主义的观点,他试图通过构建一个被称作“图灵分类测试(The Turing Triage Test)”的思想实验来论证他的观点。

2. 图灵分类测试

设想在一个功能齐全、经费充足的医院中,医疗专家借助一台医疗辅助AI在医院的ICU病房中进行日常的救助病患的工作。可设想的是,该AI具有学习、独立推理和自主决策的能力,能和医生讨论病人的情况。同时,该AI通过了图灵测试,医生们并不觉得它与自己的人类同事有什么区别,或者说,它本身就是位接通了电源的同事。平时,在这位同事的帮助下,医生的工作效果得到前所未有的提高。

现在设想如下两个情境:

情境一:很不巧的是,有一天医院遭遇了灾难性的停电事故,此时ICU病房中有两名病人正在进行器官移植手术,作为医疗主管,你被告知现在可供医院使用的电力只可提供给ICU中的一台设备以完成手术,你必须尽快选择向哪名病人提供生命支持,而另一名病人将不幸死亡。如果不尽快做出选择,两名病人可能都将死亡。这时,辅助AI凭借自身的应急电池依然可以正常运作,它会给你分析现在两位病人的处境,并给出在此情境下两人手术成功并成功康复的概率。你可能选择康复概率更高的病患,也可能将选择交给丢硬币的结果,但无论如何,你必须选择,且要承受做出“残忍”选择后的心理负担。

情境二:在你做出第一个选择后,你又被告知,为辅助AI供电的应急电源也出现了故障,为了维持正常运转,AI不得不占用ICU病房所使用的电力。也就是说,为了维持AI的运转,你选择拯救的病人也将死亡,或者选择继续拯救那名幸运儿,而切断AI电路,即使你被告知,这样做会使AI受到不可逆的损坏而永远运转不了,也就是“死亡”。这时AI请求你考虑它的利益,让它继续存在。同样,你必须尽快做出选择。

斯派洛认为当情境二和情境一种的选择具有相同的特性时,机器会具有“个人”的道德地位[1]。也就是说,当面对情境二的选择时我们会面对和情境一种同样的道德困境,无论我们做出什么样的选择,我们都有充分的理由。斯派洛认为选择某种AI的存续和选择人类存续都存在充分理由,即难以做“分类(triage)”时,此种AI就通过了“图灵分类测试”。必须说明的是,从词源上看,英语里的triage的源于法语词triage,原意是依照质来分类的行动(action of assorting according to quality)1。也就是说,能通过图灵分类实验的AI在道德的某些质的层面上与人类没有区别。

很显然,这个思想实验借鉴了图灵测试,尽管仅仅是思想实验,难以甚至无法复现,但是仍然具有强烈思辨的意义,也有利于我们去判断可能的强AI在人类社会的定位。

3. 反功能主义到反道德机器

3.1. 道德直觉

斯派洛认为没有任何强AI能通过自己设置的测试。出于某种道德直觉,我们不可能将两种情境同等看待。在面对拯救“生命”的选择时,在明确知道一台是机器,而另一个是人类的条件时,直觉上我们会毫不犹豫的拯救人类而放弃机器。在这里,人类的身份就是行动者选择对其进行道德行为的充要条件。理解为主观贝叶斯的形式,我们可以将情境一理解为情境二的先验概率形式,即现实情况是二者之间有一名人类和一台机器,但实际上,我并不知道,我认为我必须在两名人类之间做出选择,所以我陷入道德困境,我对拯救二者的先验概率是接近的。但是,当我明确知道而二者的身份,在“机器人”身份这个证据的调整下,拯救它的后验概率就急速下降。斯派洛的工作就是为这个直觉辩护。

3.2. 功能主义的观点

一些哲学家认为,我们应该将道德关怀的起源(origin of moral concern)和人格(personhood)从人的概念中分离开来。让人具有道德意义的东西其他实体(比如动物)一样可以拥有,人格不仅仅属于人类。大多数人会同意这样的看法,体验快乐和痛苦的能力是道德起源的基本条件。人们意识到自己是跨越时间的存在,有理性和推理能力,自然会在行事之前,选择趋向快乐而避免痛苦的行为。在这样的认知基础上,逐渐形成自我的概念,养成总体上利己的行为方式,并且在一定的社会或者群体中达成某种可以有利于多数人的行为共识,从而最终形成道德。于是,可以认为某种认知功能成为了道德能力的首要因素。

关于这点,斯派洛举例说,我们有时可能会有义务拯救一只成年黑猩猩的生命,而不是一个大脑受损的人类婴儿的生命,因为前者被认为有更高认知能力[2]。基于此,如普特南这样的功能主义者认为[3],诸如快乐、疼痛这样的心智状态既不是一种心理状态也不是意向行为,而是一种功能状态,而这种功能状态是可以多重实现的。在任何可设想的情况下,AI都大概率在很多认知能力上超越人类,也可能实现各种功能状态。所以,如果认知水平是决定道德地位的首要条件,我们想要制造拥有自我意识,推理能力,能为自己行为负责的机器,就可能要求更高的道德地位。它们比人类更聪明,更理性,能够进行更复杂的推理和计算,能够记住更多的事实,能够参考更多的观点和论据。如此,计算机也可能形成超越时间的实体意识,它们可能比人类对人格有更大的要求。

3.3. 反对功能主义

如果普特南是正确的,那么诸如“感到痛苦”就是多重可实现的,那么在折磨机器时,机器也会感到痛苦,故折磨机器是不道德,所以赋予机器道德地位的做法看起来也没有不妥。但是这正是斯派洛极力反对的。他的理由是我们无法确认机器拥有人类所具有的内在生命(inner life)。

直觉会让一些人觉得虽然我可以通过命令给我假设的人工智能提供自我意识,但还远不清楚这些实体能否被恰当地说成是痛苦的。体验快乐和痛苦的能力似乎只存在于那些神经系统与人类十分相似的生物身上。机器疼痛只能是一种比喻,一种粗略的类比,只能用来解释行为(比如,机器人从燃烧着它的火焰中撤退)。除非能说机器会受苦,否则它们根本不可能成为道德关怀的合适对象。斯派洛就是这种观点的支持者[2]

斯派洛让我们考虑这样一个例子,我们的面前有一台闪烁着大量二极管的机器。这台机器有足够数量的二极管,并能展示足够复杂的变换,从而展示与疼痛反应或其他认知状态“功能同构”的行为。设计这台机器的工程师向我们解释说,灯光闪烁的这种图案就意味着机器正在遭受一个小的痛苦,而另一种图案意味着另一个比较大的痛苦,然后,这个图案是快乐的,那个图案是悲伤的,等等。根据这些信息,我们调整与机器相关的行为,以使其“痛苦”最小化。现在想象一下,那位工程师慌慌张张地回到我们身边。实际上,他对机器反馈的图案的解读完全是错误的,他使用了一本错误的操作手册而误导了我们。事实上,正是这个图案在机器痛苦时闪烁,这些图案在机器快乐的时候闪烁,等等。我们应该完全不同地对待机器。在这一点上,彻底怀疑的可能性出现了。我们怎么知道工程师这次做对了呢?我们怎么知道机器不是通过显示一系列相反的图案来糊弄我们呢?我们如何知道机器的真实感受?我们一旦产生这种根本性的怀疑,就没有办法解决问题。任何对机器的行为或结构的分析都无法证明它真的能感受到它所表现出来的东西,甚至无法证明它能感觉到任何东西。在机器的行为和对其内在生命的任何判断之间,根本没有办法建立起一座桥梁。“正是这种不可逾越的鸿沟打开了现实和表象之间的联系,与机器的思想和感觉有关,这解释了为什么我们不可能认真对待机器可能有内在的想法。”

内在生命指的是心理倾向在心智中的表现,与之相对,存在一个外部表现的概念,指的是其在行为上的表现。对于机器来说,心理倾向的内部表现和外部表现之间总存在着一道鸿沟[4]。我们在任何情况下都能设想机器的外部表现与内部表现不一致的情形,也就是隐藏“内心想法”的情形。它可以在没有感到疼痛的时候假装自己正在承受痛楚。既然我们通常观测到的都是外显行为,这是否意味着我们应与斯派洛一样,对机器的“内在生活”持一种不可知论的态度呢[5]

斯派洛认为,人类始终对机器是否拥有“心灵(可以简单理解为自我意识)”存在根本性怀疑,这种怀疑如同普特南自己提出的那个经典的“缸中之脑[6]”的思想实验。在一个封闭且自恰的系统中,我能感知到的一切物质、概念,都是模拟我这个意识的“人”直接模拟了对应应该产生的感官信号直接传输给你的,甚至连最基础的“物质”、“宇宙”这些概念都是凭空捏造出来的。我们无法证明我们的意识不是缸中之脑,亦无法证明我们的意识是缸中之脑。这是一种极端的唯我论,尽管显得那么反直觉,但是我们无可奈何。

但是,斯派洛又面临另一个麻烦,即解释为何面对机器的“心灵”,人类会陷入彻底的怀疑,但面对同类的存在,我们会破除怀疑,而确认他心的存在呢?斯派洛认为这是人类凭借一种一种对待灵魂的态度(An Attitude Towards A Soul)。对这种态度的描述可以追溯到维特根斯坦,由彼得·温奇解释所谓指向灵魂的态度是一种原始的反应,一种前认知意识,它是一种条件,而不是我们相信周围的人有思想和感觉的结果[5],它能弥合人类身上内在生命和外在表现的鸿沟,而机器不行。在斯派洛看来,只有“有血有肉”的生物,拥有丰富的表情的肢体语言的生物,才能成为“对待灵魂的态度”的对象。机器不能成为这种态度的对象,也不能消除人类对它是否存在内在生命的排除[2]

3.4. 反对道德机器

斯派洛认为自己完成了对功能主义AI的反击,但是功能主义依然是主流,在瓦拉赫和艾伦出版了《道德机器》后,在2011年的论文里,斯派洛将矛头直接对准了瓦拉赫和艾伦试图构建的按照伦理规范行事的人工道德行动体(Artificial Moral Agents)的构想。

瓦拉赫和艾伦构想了一套最有可能让AI践行道德的方式,即自上而下和自下而上的混合式进路。简单来说,就是将AI置于一个道德智能体社会中让AI学习这个社会中被认为是道德的行为,同时也在一定程度上给AI一定的规训,在机器人学习的案例中添加最差的道德示例。他们认为最困难的地方在于如何在实现混合式道德机器人的过程中,弥合不同的哲学范式和相异的结构体系[7]。也就是说,困难不在于功能主义的立场,而是平衡各种基于功能主义的道德学说。但这是斯派洛不可接受的,他无法想象一个让机器人为自己行为负责的情境。

他将惩罚的可能性将道德行为与人格联系起来。如果让一台机器对其行为承担道德责任是合理的,就必须存在针对机器犯错的惩罚措施,反过来说,我们需要公正的惩罚机器。最极端的不公正就是判处一个无辜的机器“死刑”,如果它不具有道德地位,那么这种惩罚就不是“不公正的”[8]。如果机器不存在内在生命,则无法感受到惩罚到来的痛苦,也无所谓承担行为后果的责任,也就不具备对其惩罚的可能性。不具备惩罚的可能性意味着强AI无法为自己的行为负责,由此瓦拉赫构建负责任的人工道德行动体的构想是错误的。从词源上看,agent来源于拉丁词汇,意思是“one who acts”,act的名词形式是action,指有意向性的行为,中文里为行动一词。在瓦拉赫和艾伦看来,强AI存在某种意向性,存在为自己负责的可能性,但斯派洛则认为诸如自我意识、意向性的行为不构成道德地位的充分条件,内在生命才是。

4. 讨论

4.1. 斯派洛的错误

斯派洛掉入了类似“缸中之脑”的唯我论陷阱,即从我的认知状态推知事实。这实际上并没有做到完全批判功能主义的做法,至少在斯派洛这里,思想实验已经代替了经验实验。

回到斯派洛的思想实验。根据格雷的道德定型(Moral Typecasting)理论,当伤害性事件发生时,人们会在事件中习惯性地区分作为具有能动性的、可被谴责、负有责任和义务的道德能动体和具备受伤体验、值得被同情的道德承受体[9]。在斯派洛的思想实验中,尽管医院遭遇了非人为性的破坏,医院主管依然被认为是负有责任和义务的道德能动者,而病人和机器人则是值得被同情的道德承受体。古德帕斯特用“道德关怀(moral concern)”概念来解释道德能动者所给与的和道德能动者所获得的,指的是“最基本的实践意义上的尊重形式”[10]。根据Jaworska和Tannenbaum,如果一个实体具有“道德地位(moral status)”,这意味着,如果没有一个能够压倒一切的理由,我们将不被允许虐待或者伤害该实体。所以,我们如何对待该实体不仅仅是一个偏好上的问题[11]。换句话说,道德地位不仅仅是要求一个实践性的限制。尽管法律地位和道德地位之间存在着联系,但道德地位所要求的是人类相对于机器人的道德义务而不是机器人相对于人类的法律权利。

所以,需要明确的是,斯派洛的思想实验里实际展示了一种人工智能的道德地位和病人相同情况,它并不是处于一个能够对它物施以道德关怀的地位上,而是处于需要被给与道德关怀的地位。也就是说,在斯派洛的讨论中没有严格区分能承担道德责任的行动体和需要被给与道德关怀的承受体。在这个意义上,斯派洛对于AI的道德地位界定的过高。

同时,他混淆了演绎和溯因推理。自休谟以来,原因的相关项是事件,但因果解释的相关项是事实[12]。斯派洛用设计思想实验的方式来解释机器人完全不可能具备道德地位的可能性的做法,实际上,他只是为该结论提供理由。

斯派洛的初衷是劝说哲学家以及AI工程师以更谨慎的态度面对人工智能的道德地位问题,但是实际上,他自己却走向完全的不可知论和唯我论,完全否定了道德机器的可能性。

4.2. 启示

那么,强AI究竟能不能成为道德行动体。斯派洛论证这个问题为否定的关键在于,内在生命作为道德的必要前提,也就是不能让没有内在生命的AI为行为负责。实际上,这是具有启发意义的,这意味着,对于强AI的期待可能只能停留在“履行”道德行为的机器上,而不是“负责任”的道德行动体。

直觉上,道德与责任都是抽象的概念,难以用机器语言去表征,所以,让机器去确证某一道德行为本身就是困难的。功能主义抱紧“多重可实现性”,认为可以通过模仿人类学习和行为可以实现机器道德,但是,并不是每个人都可以在成长过程中习得道德行为,成为一个具有“美德”的个体。希望在于,我们明确知道一些不道德的行为,这是可以让机器学习的。也就是说,尽管缺乏内在生命,让强AI不具备与人相同的道德地位,但是,我们拥有充分的手段从外部规范它,从这点来说,瓦拉赫的思路看起来至少是有可执行的空间的。但是,我们可能又不得不回到工具主义的老路,这时,考虑的关键不在于AI本身的道德地位,而是AI在社会中定位问题,即一个更广泛的社会学和哲学问题。

斯派洛论证的AI不具备负道德责任能力是比较有力的,斯派洛给人类与AI之间划定了一条可以区分人与AI的界限,即责任的边界。但是所谓道德机器的尝试是不应该被终止的,我们可以在行为主义的立场上让机器行为符合人类的道德评判,但是道德责任必须由人类自身履行。所以,制造具有道德行为的机器是可能的,强AI的认知能力可以保证这点,但是强认知能力不等于具备对行为负责的可能,道德责任只属于人类,而不是机器。

NOTES

1参见在线词源辞典https://www.etymonline.com/search?q=triage&ref=searchbar_searchhint

参考文献

[1] Sparrow, R. (2011) Can Machines Be People? Reflections on the Turing Triage Test. In: Robot Ethics: The Ethical and Social Implications of Robotics, MIT Press, 301-315.
[2] Sparrow, R. (2004) The Turing Triage Test. Ethics and Information Technology, 6, 203-213.
https://doi.org/10.1007/s10676-004-6491-2
[3] Putnam, H. (1967) The Nature of Mental States. In: Mind, Language, and Reality, Cambridge University Press, 367.
[4] 张子夏, 薛少华. 斯派洛的“图灵分类测试” [J]. 自然辩证法研究, 2021, 37(9): 122-128.
[5] Winch, P. (1981) The Presidential Address: “Eine Einstellung zur Seele”. Proceedings of the Aristotelian Society, 81, 1-16.
https://doi.org/10.1093/aristotelian/81.1.1
[6] Putnam, H. (1981) Reason, Truth and History. Cambridge University Press.
https://doi.org/10.1017/cbo9780511625398
[7] [美]瓦拉赫. 道德机器: 如何让机器人明辨是非[M]. 北京: 北京大学出版社, 2017.
[8] Sparrow, R. (2007) Killer Robots. Journal of Applied Philosophy, 24, 62-77.
https://doi.org/10.1111/j.1468-5930.2007.00346.x
[9] Gray, K. and Wegner, D.M. (2009) Moral Typecasting: Divergent Perceptions of Moral Agents and Moral Patients. Journal of Personality and Social Psychology, 96, 505-520.
https://doi.org/10.1037/a0013748
[10] Goodpaster, K.E. (1978) On Being Morally Considerable. The Journal of Philosophy, 75, 308-325.
https://doi.org/10.2307/2025709
[11] Jaworska, A. and Tannenbaum, J. (2019) Persons and Moral Status. In: Persons, Oxford University Press, 334-362.
https://doi.org/10.1093/oso/9780190634384.003.0014
[12] Alvarez, M. (2010) Kinds of Reasons. Oxford University Press.
https://doi.org/10.1093/acprof:oso/9780199550005.001.0001