1. 引言
考试焦虑(Test Anxiety)是由一定的应试情景所引发的情景化的焦虑(Spielberger et al., 2015),通常发生在教育环境中,在类似的评价性情境中产生具有情景特异性的、不愉快的焦虑反应,在认知、情感、生理和行为方面均有不同程度的表现(Lotz et al., 2021; Roos et al., 2021)。考试焦虑作为学龄期青少年常见的焦虑问题始终受到各界的广泛关注。研究发现,我国高中生的考试焦虑检出率约为57.7%,且在总体上呈现出逐年上升的趋势(黄琼,周仁来,2019)。考试焦虑不仅会对学习表现产生影响,导致考试成绩下降(von der Embse et al., 2018),高水平的考试焦虑更是临床焦虑的风险因素之一(胡岑楼,周仁来,2022)。基于此,高中生的考试焦虑应当引起足够的重视。
为了更准确地了解学生的学习和表现能力,筛选出有高度考试焦虑的青少年,国内外学者对考试焦虑的维度展开了广泛研究,并开发了不同的量表来评估学生的考试焦虑。
Sarason开发了Test Anxiety Scale (简称TAS) (Sarason, 1978),是广泛应用的考试焦虑量表之一,但TAS在维度方面受到质疑。TAS量表将考试焦虑概念化为一维结构,将焦虑水平等同于情绪唤醒,只以综合测量的形式反映考试焦虑(Wine, 1980)。随后,Sarason也进一步提出考试焦虑的四因素模型,将认知成分划分为担忧和与考试无关的思维,将情绪成分划分为紧张和身体反应,并开发了新的量表Reactions to Tests scale (简称RTT)对考试焦虑进行测量,但RTT量表由于不稳定的因子结构而未被广泛使用(Hoferichter et al., 2016)。然而,RTT量表的提出证明了单维度的TAS量表并不能对具有多维度的考试焦虑进行充分测量,仍需要进一步开发有效的测量工具。其次,作为单维量表TAS包含37个项目,在研究中考试焦虑量表大多需要配合其他量表一同使用,而测量工具的长度是影响被试测量动机的重要因素之一(Taylor & Deane, 2002),有研究表明,TAS量表更适用于考试焦虑较低的被试(Xu et al., 2022),这可能由于较多的题目加大了高考试焦虑被试的测量负荷导致无法准确测量。
Liebert和Morris (Liebert & Morris, 1967)最初提出了考试焦虑的双维度模型,确定了考试焦虑的两个组成部分:担忧(Worry),代表认知成分,即对失败的想法和围绕考试表现及其后果的自我怀疑;情绪性(Emotionality),代表情绪成分,即对自主兴奋过程的感知和交流,以及伴随这些过程的不明确的情绪反应。为了捕捉这两个维度,Spielberger (Spielberger, 2010)开发了考试焦虑量表(Test Anxiety Inventory, TAI),中文版TAI由王才康(王才康,2003)进行修订。然而值得注意的是,虽然担忧和情绪化在概念上是不同的维度,但在TAI中存在着高度的重叠(Zeidner, 2007),TAI未能充分测量考试焦虑的认知维度,也没能对认知维度进一步细分,因此在后续研究中仍用TAI总分体现考试焦虑而没有反映不同维度的作用。此外,TAS和TAI无法具体区分考前焦虑、考中焦虑和考后焦虑,即无法对不同阶段的考试焦虑进行区分,因此从长远来看,不利于考试焦虑研究领域的进一步研究拓展。
为了解决以上考试焦虑量表中存在的问题,Hodapp (1991)在修订德语版的TAI量表(TAI-G)时进行了模型修改,使认知成分的划分得到了进一步完善。TAI-G最大的变化是增加了一个新的认知维度——缺乏信心。TAI-G由30个项目四个分量表组成,包括:担忧,评估对个人表现和失败后果的破坏性担忧;干扰,测量无关的想法对任务的注意力的分散;缺乏信心,评估信心水平对应对学业压力的影响;情绪性,检查情绪和身体的紧张程度。TAI-G是第一份正式将考试焦虑作为四维结构解决的问卷(Bischofsberger et al., 2021)。TAI-G的四因素模型已经在多个国家的不同样本中得到验证,包括美国(Hodapp & Benson, 1997)、加拿大(Harpell & Andrews, 2012)、澳洲(Mowbray et al., 2015)等。
为了提供一个有效且易于操作的工具,TAI-G再次经过缩短和修订形成了PAF量表(“Prufungsangstfragebogen”, PAF) (Hodapp et al., 2011)。PAF量表同样是基于TAI-G的四因素模型,是该量表的简化和标准化版本,共20项题目,每个分量表有5个项目,采用4点计分,主要用于调查青少年(Hodapp et al., 2011; Ringeisen et al., 2016)和大学生(Reiss et al., 2017)的考试焦虑。
PAF量表使用的必要性在于,它推动了学界对于考试焦虑认知成分的重新审视。已有研究表明,考试焦虑的认知方面与考试成绩的关系更为密切(von der Embse et al., 2018)。但是由于最初考试焦虑认知方面基本与担忧等同起来,使得许多学者在对考试焦虑学生的低考试表现进行解释时,都认为是对考试失败后果的担忧占据了学生的思想,最终导致成绩下降(Steinmayr et al., 2016)。但PAF量表的使用对这种解释造成了冲击,研究发现,相比于担忧,干扰和缺乏自信或许能够更好地解释考试焦虑学生的不良考试表现(Donati et al., 2020; Schillinger et al., 2021),并且对于高考试焦虑学生,考试焦虑的不同认知成分与成绩存在不同关系(Hammer et al., 2022; Möcklinghoff et al., 2021)。基于此,未来考试焦虑领域的研究需要更加聚焦于考试焦虑不同成分的独特影响,并能够量身制定干预措施(Mowbray et al., 2015)。此外,PAF在题目表述中增加了“在考试中”的用语,使整个量表明确聚焦在考试期间的考试焦虑上,这种情境—过程式的条目呈现使得测量的生态效度得以提升。目前,PAF量表已经在德国(Hodapp et al., 2011)、意大利(Donati et al., 2020)和美国(Hoferichter et al., 2016)等多个国家的不同样本中被修订和使用。但考虑到文化差异的影响,PAF量表是否适用于中国学生仍需进一步检验(Hodapp & Benson, 1997)。
近年来,对于考试焦虑的测量工具依然在不断更新完善,如韦嘉等人在2014年修订了中文版Friedman-Bendas考试焦虑量表(韦嘉等,2014),从生理–心理–社会三因素模型出发对考试焦虑进行测量。相比于当前广泛使用的考试焦虑量表,PAF一方面提供了当前最为完善的考试焦虑四因素结构,得到了实证数据支持(Hodapp & Benson, 1997; Keith et al., 2003),并且其项目数减少到每个分量表5个项目,即在简短的题目数内充分地测量考试焦虑的四因素;另一方面,PAF更专注于个人在考试情况下的反应,其题目中强调的考试的阶段性、过程性和情境性更契合考试焦虑的情景特异性概念。总而言之,PAF是评估多维考试焦虑的高效率测量工具(Hoferichter et al., 2016)。为了解决目前国内仍缺乏对包含担忧、干扰、缺乏自信和情绪性的多维考试焦虑测量工具的问题,并推动考试焦虑研究的进一步发展,本研究引入Hodapp编制的PAF考试焦虑量表(Hodapp et al., 2011),以高中生群体为样本施测,开发和验证PAF量表的中文版。
2. 对象与方法
2.1. 研究对象
本研究以黑龙江省大庆市高中生为总体,采用整群抽样的方法选取3所中学,在高一至高三年级随机抽取班级,以班级为单位进行整群施测,共选取1300名高中生,剔除规律作答、测谎题错答等无效答卷后,有效样本为1154份,有效回收率为88.77%。其中女性640名(55.46%),男性514名(44.54%),年龄在12~20岁之间(M = 16.84, SD = 0.99)。将样本随机分为两份,每个样本578人,其中样本1用于探索性因素分析,样本2用于验证性因素分析。
本研究已通过北京林业大学人文社会科学学院心理学系研究伦理审查。所有学生均知情同意。
2.2. 研究工具
(1) PAF量表
包括担忧(worry)、干扰(Interference)、缺乏自信(lack of confidence)和情绪性(emotionality) 4个分量表,每个分量表包含5个项目,总量表共20个项目。采用4点Likert计分,范围从“几乎没有”到“几乎总是”,量表得分越高,表明被试的考试焦虑水平越高,其中缺乏自信量表采用反向计分。原版PAF量表Cronbach’s α系数为0.88。
(2) 学业自我效能感量表
采用梁宇颂(2004)编制的学业自我效能感问卷,共22个题项,采用5点计分,量表总得分越高,表明被试的学业自我效能感越高。该量表的Cronbach’s α系数为0.82。
(3) 艾森克人格问卷简式量表中国版——神经质分量表
采用钱铭怡等(2000)修订的艾森克人格问卷简式量表中国版中的神经质分量表。该分量表共12个题项,采用是非选择计分,“是”记1分,“否”记0分,量表总得分越高代表神经质水平越高。该量表的Cronbach’s α系数为0.77。
2.3. 研究工具
2.3.1. 量表翻译
由2名心理学研究生分别将量表英文版翻译为中文进行比对,再请1名英文专家将题目回译为英文,随后与心理学专家进行讨论,对题目表述不清晰的地方进行修改,形成量表中文版。选取20名高中生对量表题目的可理解性进行测试,形成最终发放的初版问卷。
2.3.2. 数据分析
所有数据采用SPSS 26.0统计软件进行数据录入、项目分析、探索性因素分析、信效度检验等,用Amos 23.0进行验证性因素分析。
3. 结果
3.1. 项目分析
采用题总相关和极端分组法进行项目分析。首先,计算量表每个条目与总分、所在维度的相关系数,结果表明,每个条目与所在维度的相关系数均呈正相关,有统计学意义(p < 0.01),且高于与总分的相关。PAF中文版20个条目得分与总分的相关系数为0.33~0.76。随后,依据PAF考试焦虑量表总分进行高低排序,以前后27%作为高、低分组,对高低分组被试在每个项目上的得分差异进行独立样本t检验。结果表明,两组各项目得分差异均有统计学意义(p < 0.001)。

Table 1. Correlation (r) between the value of each entry in the PAF and the total score and the difference between high and low subgroups (t)
表 1. PAF中文版各条目值与总分的相关(r)及高低分组的差异(t)
注:*p < 0.05,**p < 0.01,***p < 0.001。
3.2. 探索性因素分析
首先对样本1进行是否适合进行探索性因素分析的检验,结果表明数据KMO值为0.92,Bartlett球形检验卡方值为6786.79 (p < 0.001),满足对数据进行探索性因素分析的前提条件。运用主成分分析法、Promax斜交旋转提取特征根大于1的因子,共提取出4个因子,与原量表一致,累积方差贡献率为68.52%。其中第9、14、19题项出现了交叉载荷,故删除。具体结果如表2所示:
3.3. 验证性因素分析
使用Amos 23.0对样本2进行验证性因素分析,结果表明在删除了第9、14、19题之后,中文版PAF的四因素结构拟合良好(χ²/df = 3.71, RMSEA = 0.07, GFI = 0.92, CFI = 0.94, NFI = 0.92, TLI = 0.93)。
3.4. 信度分析
对量表进行内部一致性信度检验,如表3所示,结果表明PAF总量表及4个分量表的Cronbach’s α系数为0.79~0.91,具有良好的信度。

Table 3. Cronbach’s α for total PAF scale and subscales
表3. PAF总量表及分量表Cronbach’s α系数
3.5. 效度分析
3.5.1. 会聚效度与区分效度
由表4和表5可知,各项目在4各因子上的标准化载荷均大于0.60,4因子的组合信度为0.79~0.90,均大于0.70,平均方差抽取量AVE均大于0.50,说明PAF量表具有良好的会聚效度。平均方差抽取量的平方根大于潜在因子的最大相关系数,说明PAF量表具有良好的区分效度。

Table 4. Standardized factor loadings for PAF entries
表4. PAF各条目标准化因子载荷
注:*p < 0.05,**p < 0.01,***p < 0.001。
3.5.2. 效标关联效度
本研究参考了以往考试焦虑量表及PAF的不同版本修订程序,选取学业自我效能感和神经质人格作为外部效标(祁莉等,2019;Donati et al., 2020; Hoferichter et al., 2016; Mowbray et al., 2015),对PAF量表的效标关联效度进行检验。已有研究发现,神经质人格与考试焦虑存在显著的相关性,且具有较高的效应值(王惠惠等,2014;von der Embse et al., 2018)。同时,选取了学业自我效能感作为外部效标,因为具有强烈自我感知能力的学生会将困难的任务当作一种挑战,因此在各维度上报告较低的考试焦虑。如表5所示,结果表明高中生考试焦虑及各维度的水平都与学业自我效能感呈负相关,与神经质呈正相关。

Table 6. Criterion-related validity
表6. 效标关联效度检验(r)
注:*p < 0.05,**p < 0.01,***p < 0.001。
4. 讨论
本研究以我国高中生群体为被试,翻译并修订了PAF考试焦虑量表,并检验了其信效度。首先通过多轮翻译的方式,形成了中文版PAF考试焦虑量表;随后,邀请高中生进行预填写以测试题目的可理解性并对不足之处进行优化;最后,对量表的信度和效度进行检验。项目分析结果显示,各题项与总分之间的相关均有统计学意义,说明各题项反应水平的高度一致性。
TAI提供了对考试焦虑水平的测量,以及对情绪性和担忧这两个维度的测量。很明显,两个维度不足以充分描述考试焦虑的复杂性。因此,PAF补充了“干扰”和“缺乏信心”两个维度。修订后的中文版PAF考试焦虑量表支持考试焦虑的四因素结构,即担忧、干扰、缺乏自信和情绪性,这与之前的研究一致(Donati et al., 2020; Hodapp et al., 2011; Hoferichter et al., 2016)。探索性因素分析的结果相比于原量表删除了3项具有交叉载荷的题目,即第9题(在考试中,我感到焦虑)、第14题(考试时我会想到考试的分数,这会影响我答题)和第19题(考试时我会因为太专注于一些个人问题而忘记了一些知识点)。由于PAF量表在最初编制时,力求使用简洁的项目描述来评估考试焦虑的各个维度,因此当处于中文语境时,学生可能无法清晰地区分以上题目归属于哪一种成分,而导致交叉载荷。量表所有条目的因子载荷均在0.50以上,累积方差贡献率为68.52%,其中缺乏自信解释了四因素模型的20.43%,干扰20.2%,情绪性14.74%,担忧13.15%。TAI很好地符合双因子结构,中文版PAF量表符合四因子结构,这与Hodapp和Benson的研究结论相一致(Hodapp & Benson, 1997)。
Putwain (2021)指出,两个不同的事物被命名为相同,是因为研究者没有很好区分他们的构造而赋予相同的名称,这被称为结构冗余谬误。当担忧被用作包罗万象的标签时就会发生结构冗余谬误。担忧泛指考试焦虑的认知成分,包括一个人的能力和表现与他人的负面比较、与考试无关的思维、认知干扰和分心(Putwain et al., 2021; Sarason, 1984);担忧也用于特指对自己在考试中的负面表现以及失败后果的担忧(Schillinger et al., 2021)。当考试焦虑的认知成分超出担忧维度所涵盖的特征时,对担忧维度的理解会进一步模糊,包括无价值感和对他人如何对一个人的负面表现做出负面反应的担忧(Cassady & Johnson, 2002)。担忧维度的概念模糊性也反映在其测量的模糊性上,为了修正这一点,干扰、缺乏信心包含在修订后的TAI-G和PAF中。当担忧被用作一个总括结构时,担忧的认知和动机成分与其他变量之间的关系无法单独分开。这反过来又阻碍了对整个担忧维度的理解的进步。所以,修订后的中文版PAF问卷为修正研究者在考试焦虑认知因素中的担忧维度的结构冗余谬误具有理论意义和实践价值。
Mowbray等人(2015)提出在不同文化群体之间,考试焦虑的模式和强度存在差异,并且这种差异能够在考试焦虑四因素模型的研究中观察到。本研究支持了这一观点,即与PAF在英文样本的修订相比,中国学生的考试焦虑更多受到缺乏自信和干扰的影响,而不是担忧(Hoferichter et al., 2016)。验证性因素分析表明,4因素模型能够较好地拟合数据,各项指标均达到了检验标准,具有良好的结构效度。Hodapp和Benson (1997)对当前存在的4种考试焦虑模型(模型1:担忧和情绪性两因素模型;模型2:担忧、情绪性和干扰三因素模型;模型3:担忧、情绪性、干扰和缺乏自信;模型4:担忧、情绪性、干扰、缺乏自信和自我效能感五因素模型)进行了考察,结果表明,具有担忧、干扰、情绪性和缺乏自信的四因素模型显示了最佳拟合,能够更好地支持考试焦虑的多维结构。本研究中,各维度的组合信度(CR)均大于0.80,平均方差抽取量(AVE)均大于0.50,说明PAF量表具有良好的会聚效度,平均方差抽取量的平方根大于潜在因子的最大相关系数,说明PAF量表具有良好的区分效度,这也证实了对学生考试焦虑成分进行区分的合理性。效标效度结果显示,中文版PAF与神经质人格呈正相关,与学业自我效能感呈负相关,表明中文版PAF能够较为客观地反映高中生的考试焦虑水平。
信度检验结果显示,中文版PAF各分量表的内部一致性系数为0.79~0.91,具有良好的信度,可以作为测量和评估高中生考试焦虑的工具。
与以往对PAF量表的验证研究一致,本研究在中文样本中支持了考试焦虑的四因素模型,进一步验证了PAF量表的跨文化适应性。未来研究也应更多考虑考试焦虑不同成分的影响,在教学及临床相关领域确定不同的考试焦虑特征,以更具有针对性的为考试焦虑的预防和早期干预提供依据和现实方案。