1. 引言
在心理学和认知科学领域,情感的研究一直是一个重要的课题。传统上,情感被看作是离散的类别,例如快乐、悲伤、愤怒等。然而,随着研究的深入,越来越多的学者开始认识到情感的复杂性和连续性。维度情感模型(Dimensional emotion model)就是在这样的背景下提出的,它提供了一个新的视角来理解和表示情感。该模型认为,情感是一个高度相关的连续体,可以在多维情感空间中表示为特定的点。情感空间是一个笛卡尔空间,其中每个维度都代表情感的心理属性,例如,激活度维度描述了情感的激烈程度,而效价维度则衡量了情感的正负面倾向。这种模型为我们提供了一个更为精细和全面的情感描述框架,有助于我们更深入地理解情感的复杂性和多样性。
本研究旨在深入探讨维度情感模型的相关理论研究,通过系统的文献回顾,尽可能全面地从维度情感描述模型、维度情感标注方法和具有代表性的维度情感语音数据库三个方面对维度情感模型的进行详细的梳理和介绍,有助于我们更准确地理解和描述情感,为情感的科学分类提供更为坚实的理论基础。
2. 维度情感模型
情感是一种高度相关的连续体,根据维度情感模型的理论,可以将情感状态描述为多维空间中的某一个点(乐国安,董颖红,2013)。这个空间使用几个取值连续的基本维度来衡量情感的不同方面。该情感空间包含了所有情感状态的描述,并且可以将现实中的情感状态映射到相应的维度上。每个维度的值反映了情感状态在该维度上的强度。由于该模型使用实数值来描述情感,因此在一些文献中也被称为连续情感描述模型。
目前被广泛采用的维度情感描述模型主要包括激励–评估–控制空间理论(valence-activation-dominance space)、情感轮理论(emotion wheel)和愉悦度–唤醒度–支配度三维度模型(pleasure-arousal-dominance, PAD)。
(一) 激励–评估–控制空间理论(Valence-Activation-Dominance Space)
情感状态的激励–评估–控制空间理论(VAD空间) (Cowie et al., 2001)包含三个方面:首先是激励维度,用以指示个体为某一行为做准备的程度,即行为的倾向性。其次是评估维度,用于度量个体对于某人或某事的正向或负向评价。最后是控制维度,表示情感状态对影响其对象的程度。VAD空间是一个三维坐标系,第一坐标轴表示激励程度,第二坐标轴表示评估价值,第三坐标轴表示控制程度。相较于使用标签对情感状态进行描述,这种利用空间坐标的方式更具可操作性。此外,情感状态的语言标签和该坐标空间可以相互转化。通过理解或推测情感状态的语言描述,我们可以确定其在VAD空间的位置。
(二) 情感轮理论(Emotion Wheel)
Plutchik (1980)等人对情感进行了多年的研究,他们通过在激励–评估–控制空间上进行情感分析,认为情感分布在一个圆形结构上,其中心为自然原点。自然原点被认为是一种状态,它包含了各种情感因素,但是这些情感因素在该点上的强度太弱,无法体现。自然原点向不同方向扩展,形成不同的情感。情感点与自然原点之间的距离反映情感的强度。这种分类情感的理论称为情感轮理论,如图1所示。通过情感轮的二维平面,任何类型的情感都能够根据其强度和方向用情感矢量E来表示,其中,情感强度用矢量的幅度值表示,情感方向则用矢量的角度表示。
(三) 愉悦度–唤醒度–支配度三维度模型(Pleasure-Arousal-Dominance, PAD)
Osgood (1966)的研究发现,个体在对各种刺激进行判断时,都关注其在价值、活力和力量三个因素上的语义差别,这些差别是情感性的,是对刺激分类的基础。Mehrabian和Russell (1974)在此基础上提出了情绪状态的三维度模型(Pleasure-Arousal-Dominance, PAD),如图2所示。该模型认为情感具有愉悦维、唤醒维和支配维三个维度。愉悦维也称为效价维,表示情绪状态的积极或消极,从一个极端(苦恼)到另一个极端(狂喜),如兴奋、爱、平静等积极情绪,与羞愧、无趣、厌烦等消极情绪。唤醒维也称为激活维,表示生理活动和心理警觉水平,如睡眠、厌倦等为低唤醒,清醒、紧张等为高唤醒。支配维也称为注意维或能量维,表示影响周围环境及他人或反过来受其影响的感受,如愤怒、勇敢或焦虑、害怕,高的支配度是一种有力、主宰感,而低的支配度是一种退缩、软弱感(乐国安,董颖红,2013;Arifin & Cheung, 2008)。

Figure 2. Pleasure-Arousal-Dominance model
图2. PAD模型
研究表明,人的情绪可以通过P、A、D三个维度得到有效阐释。这三个维度可把情绪划分为八种类型,包括高兴、无聊、依赖、蔑视、放松、焦虑、温顺和敌意。Mehrabian和Russell (1974)用这三个维度成功地解释了其他42种情绪量表中的大部分变体。这三个维度不仅可以刻画情绪的主观体验,而且与情绪的外在表现以及生理唤醒之间存在良好的映射关系。以往的情绪研究多集中在愉悦度与激活度上,但这两方面都无法有效区分愤怒与恐惧等情绪。PAD三维情感模型之所以能够分辨出这几种情绪,是因为这两种情绪都是愉悦度较低和激活度较高的情绪,但从优势度来看则恰恰相反。
Russell (1980)在深入探讨PAD模型时观察到,支配维度与认知活动的关联更为紧密,而愉悦和唤醒这两个维度则能够揭示大多数不同的情感类型。从理论角度看,PAD模型有能力描述无数的情感,但它仍未能完全涵盖所有人所能体验到的情感。例如,“惊讶”这一概念就在该情感空间外部并未被完整地表示出来(D’mello & Kory, 2015)。因此,为了更全面地描述情感,一些研究者将期望维和强度维作为PAD模型的第四和第五个维度(Gunes & Schuller, 2013)。期望维度是衡量个体情感突发事件的指标,即个体的预测和准备能力的缺失程度;而强度则是衡量个体偏离冷静状态的程度。
虽然早期已经出现一些情绪结构的三维模型,但是针对面部表情、言语表达的分析,对情绪词汇语义相似性的判断,以及对自陈式情绪体验的因素分析等多项研究,结果均显示存在两个稳定且独立的维度,但不同研究者得出的两维度模型不同,如效价–唤醒模型、积极–消极情感模型、能量–紧张模型等。
(四) 效价–唤醒模型
Russell (1980)在对PAD模型进行深入研究后发现,支配度与认知活动密切相关,而愉悦和唤醒则可以解释绝大部分的情绪变异。不同情绪并不完全存在于愉悦或唤醒的单一维度上,而是在这两个维度上都有一定程度的取值。因此,他提出了情绪的环形结构模型,即愉悦和唤醒是圆环的两个主轴,各种情绪在圆环中均匀地分布。这一模型认为各种情绪都依赖共同的、相互交织的神经生理机制(Posner et al., 2015)。情绪是根据效价和唤醒两个神经系统的不同程度激活以及对这种激活体验的认知理解产生的。例如,当愉悦神经系统高度激活和唤醒神经系统中度激活相结合时,人就会感到高兴。图3展示了情绪的环形结构模型。
(五) 积极–消极情感模型
Watson和Tellegen (1985)采用了自我报告的情绪研究方法,提出了一个类似于上述模型的环形模型,称为积极–消极情感模型(Positive and Negative Affect, PANA)。积极情感(Positive Affect, PA)是指个体感受到的热情、积极和活跃程度。高水平的PA对应着精力充沛、全神贯注、积极投入的状态,而低水平的PA则表现为失落和倦怠。消极情感(Negative Affect, NA)是一种悲伤、忧虑以及消极投入的状态,包括高程度的愤怒、内疚、耻辱、憎恶、恐惧和紧张,以及低程度的平静和安宁。尽管积极情感和消极情感的名称与愉悦和不愉悦对应,但积极–消极情感模型认为它们是两个几乎没有相关性的独立维度,而非一个维度的两个极端。
(六) 能量–紧张模型
根据Thayer (1978)的研究,存在两个相互独立的双极激活或唤醒维度,这两个维度在个体的主观体验、注意焦点和生理反应方面都有所不同。一种唤醒维度被称为“能量唤醒”(energy activation),其涵盖了从主观感觉有活力、有力量到困倦和疲乏的范围,它与生理节律相关;另一种唤醒维度被称为“紧张唤醒”(tension arousal),涵盖了从主观感觉紧张到平静沉着的范围,它是多种情绪(如焦虑)和压力反应(如对噪声的反应)的基础。
3. 维度情感标注
情感标注是情感分析的基础,而维度情感标注方法则提供了更为细致的标注方式。这些方法不仅标注情感的类型,还标注情感在多个维度上的强度或等级。这为情感分析提供了更为丰富和准确的数据。目前被广泛采用的维度情感标注方法主要包括SAM (Self-Assessment Manikin)系统、FEELTRACE和ANNEMO以及PAD情感量表。
(一) SAM (Self-Assessment Manikin)系统
SAM系统是一种广受研究者认可的情感量化方法,采用基于PAD模型的三个维度来表示情感取值(Morris, 1995)。该系统使用卡通小人的形象来表达每个维度的不同取值,如图4所示。例如,卡通小人的眉毛和嘴巴的变化表示效价维的取值,而心脏位置的震动程度和眼睛的神情则表示唤醒维的取值。此外,图片的大小则表示受控制的程度。在标注时,标注者只需从对应维度的卡通小人中选择最符合当前情感状态的一个。使用的小人数量取决于对该维度进行量化的精度,通常为5或9个。每个小人所对应的具体数值没有严格规定,使用9个小人时,对应的数值可以为1到9的整数、−4到4的整数,或者是[−1, 1]的9个等间隔的数值(Koelstra et al., 2011)。相较于其他情感量化方法,SAM系统具有简单、快速、直观的优点,并且避免了不同人对同一词语理解的差异所带来的误差。因此,使用SAM系统进行标注可获得较小的标注结果方差和较高的标注者间一致性(Busso et al., 2008)。在每个卡通小人下方标注数字,标注结果可以通过点击数字之间的任意位置来实现对目标维度的连续赋值。
(二) FEELTRACE和ANNEMO
为了实时追踪各个情绪维度的数值,研究者已经开发了多种标记工具,其中FEELTRACE和ANNEMO是两个被广泛采用的工具。FEELTRACE是基于效价–唤醒环状模型建立的一种方法(Cowie et al., 2000),该方法通过在电脑屏幕上的圆形中以效价和唤醒维度作为主轴来展示情感。标注者只需要根据自己感知的情感,通过拖动圆形光标到适当的位置进行效价和唤醒维度的赋值。ANNEMO (Ringeval et al., 2013)是一种基于网络的情感标记工具,它通过在一个窗口中同时显示视频和标记光标,来实现对视频中对象的特定情感维度进行时间连续标记。两者相较之下,由于ANNEMO一次只对一个维度进行标记,因此,ANNEMO能够提供更精确的结果。
(三) PAD情感量表
PAD情感量表是通过使用PAD三维情感模型来测量情感的一种工具,它由Mehrabian (1995)提出,包括34个项目,分别测量P、A和D三个维度。后来,研究者对其进行了简化,只用12个项目来测量愉悦度、激活度和优势度。中科院心理所对其进行了中国化修订,将其改为一个9点的语义差异量表,每个项目由一对表示不同情感状态的形容词构成。被试者需要根据自己的感受来评定目标情感的强度,最终得分是该维度的4个项目得分的平均数。研究表明,该量表在愉悦度、激活度和优势度上的内部一致性信度(α系数)分别为0.85、0.58和0.72,验证了其三维结构。该问卷的中国模板建立在北京地区1000名大学本科生的被试群体基础上(李晓明等,2008)。
在修订中文简化版PAD情感量表的过程中,研究人员发现中国人和西方人在三个维度上都有共性和差异。两者在愉悦度和优势度上没有显著差异。但是,在激活度上,中国人显著低于西方人,这意味着在情感计算领域中,两者在激活度上的结果可能存在差异。此外,研究人员还发现,愉悦度越高或越低,情感激活度就越高;而趋近中性的情感激活度则更低。因此,愉悦度和激活度的散点图呈抛物线状,这可能反映了正、负和中性情感的固有特征。
4. 维度情感数据库
建立维度情感语音数据库需要使用维度情感描述模型,这使得任何自然语音中蕴含的情感信息都能被收录。维度情感语音数据库还是情感语音研究的基础资源,这些数据库提供了大量标注了情感维度的语音数据,为情感语音分析提供了有力的支持。目前被广泛采用的维度情感语音数据库主要包括VAM数据库、SEMAINE数据库和IEMOCAP数据库。
(一) VAM数据库
VAM数据库(Grimm et al., 2008)是一个无偿的、以科学研究为目的的语音和视频数据库。本数据库包含一档德语电视谈话节目“Vera am Mittag”的现场录音,由语料库、视频库、表情库三个部分组成。其中,VAM-audio库是其子库之一,包含947句来自47位节目嘉宾的录音数据,采用wav格式、16 kHz采样、16 bit量化。所有数据以句子为单位保存,以Valence、Activation和Dominance三种情感维度进行标注,标注值为−1到1,强度等级包括−1、−0.5、0、0.5和1五个等级。标注工作通过多个标注者联合进行,其最终情感值为相关标注者均值。
(二) SEMAINE数据库
SEMAINE数据库(McKeown et al., 2011)是一个无偿的数据库,它专注于人工智能和自然人机交互的研究。这个数据库中存储了20个用户与4个机器角色交谈的数据,这四个机器角色分别是Prudence、Poppy、Spike和Obadiah。收集这些数据时,使用了专业配置的录音室,并同时利用了5个高分辨率、高帧频摄像机和4个麦克风。该数据库所包含的音频特征采样率为48 kHz,采用24 bit量化表示,总时长约为7小时。标注工作由多名参与者利用标注工具FEELTRACE在Valence、Activation、Power、Expectation和Intensity这五个情感维度上进行。语音数据根据帧进行切分,每帧约为20 ms,在标注过程中,要求每位标注者对每帧语音进行[−1, 1]区间的标记。关于该数据库的一部分数据已被用于AVEC 2012竞赛数据库。
(三) IEMOCAP数据库
美国南加州福利亚大学录制的IEMOCAP数据库(Busso et al., 2008)为英语音视频情感数据库。该数据库由多位表演者演绎,在视听觉数据中共包含约12小时的内容。表演者以台词表演或即兴表演来表达情感,共有10名专业演员,均为男女各五位。每句话都被切分成单句,并根据停顿情况进行分割,情感标注使用了离散类别和维度空间。十种离散情感类别包括“高兴”“悲伤”“生气”“中性”“激动”“厌恶”“惊讶”“害怕”“沮丧”和“其他”,每句话至少由三位标注员进行标注。而维度空间的标注则从Valence、Arousal和Dominance三个维度进行,每句话至少由两位标注员标注。
5. 不足与发展
尽管当前关于维度情感模型的研究已经有很多,但其仍然面临着诸多不足与挑战。首先,维度情感模型虽然将情感视为一个多维连续体,但其在情感维度的确定上仍缺乏一致性,不同的研究者可能会提出各异的维度,导致模型间的差异和难以比较;其次,目前的维度情感标注方法主要依赖人工,这种方法不仅耗时耗力,还可能因标注者的主观性而影响标注结果的准确性;此外,在维度情感数据库方面,尽管维度情感语音数据库对情感分析至关重要,但公开可用的数据库数量有限,规模和多样性不足,这就限制了研究的深入和拓展;最后,维度情感模型在不同文化和领域的适用性尚未得到充分验证,情感表达和理解的差异性对模型的泛化能力构成了挑战。
在未来的研究中,建立一个统一的维度框架将是关键,这需要明确定义情感空间的基本维度和数量,以增强不同模型之间的一致性和可比较性;其次,研究者应致力于开发自动化或半自动化的标注方法,减少对人工标注的依赖,并通过利用机器学习算法提高标注的效率和准确性;此外,有必要收集和构建更大规模和更具多样性的维度情感语音数据库,以促进更全面和深入的研究;同时,为了提高维度情感模型在跨文化和跨领域的适用性,研究者也需要考虑文化和个人背景在情感表达和理解中的作用,并通过比较和分析不同文化和领域的情感数据来寻找共性和差异;最后,将维度情感模型的应用范围扩展到人机交互、情感机器人、心理治疗等更多领域,将有助于推动情感计算技术的进步和应用。这些发展方向不仅能够解决现有研究的不足,还能够开辟新的应用领域,推动整个情感计算领域的发展。
6. 总结
维度情感模型的主要优势在于其强大的表达能力和对情感的细致捕捉,与离散情感模型相比,维度情感模型能够更有效地处理自然数据,尤其是在复杂的情感表达中(Poria et al., 2017),这种模型不仅能够识别单一的情感状态,还能够追踪情感的发展和变化过程(Poria et al., 2017),为情感的时间序列分析提供了可能;此外,维度情感模型在衡量情感的相似度和差异方面也表现出色(Gunes & Schuller, 2013),通过计算情感在各个维度上的接近程度,我们可以更准确地比较和区分不同的情感状态,这种能力使得维度情感模型在情感识别和情感分类任务中具有更高的精度和可靠性;最后,心理学研究也为维度情感模型的优势提供了支持,研究表明,人类的认知过程,包括决策、推理、记忆、注意等,与维度情感模型中的三个维度(激活度、效价、优势度)有着密切的关联(Zou et al., 2011),这意味着维度情感模型不仅在技术上具有优势,而且在心理学上也有着坚实的理论基础。
总的来说,维度情感模型的优势在于其强大的表达能力、对情感变化的追踪能力、对情感相似度和差异的衡量能力,以及与人类认知过程的紧密关联,这些优势使得维度情感模型在情感计算、人机交互和心理健康等领域具有广泛的应用前景。然而,当前在这些方面仍存在一些不足和挑战,需要未来的研究进一步探索和解决,特别是在维度的确定、标注方法的改进、数据库的构建以及跨文化和跨领域适用性的验证方面。随着技术的不断进步和研究的深入,我们有理由相信,维度情感分析将在情感计算、人机交互等领域发挥更大的作用。