1. 引言
实验研究是研究者运用科学实验的原理和方法,以一定的理论或者假设为指导,有目的地控制自变量的变化,并观察应变量的变化,得到因果关系,发现规律的研究方法。
与自然科学一样,心理学实验研究以追求真理、确认事实为目的,从实际出发,尊重事实;与自然科学不同的是,许多心理现象难以直接观察,并且可能受到多个变量的影响,这就要求心理学研究者们做出更为严谨的实验设计、选择更加科学的分析手段。例如在一项研究中,研究者想要探寻紧张情绪和认知负荷对前瞻记忆的影响 (张晶晶,张茗,2011) ,如何准确地控制被试的情绪和认知负荷对于实验者是相当重要的,因为它们无法直观、精确地度量。
心理学研究中,研究者往往需要考察一个(或者多个)因素的不同水平对实验指标是否有影响,也就是从质量因子(自变量)的角度探讨各水平对实验结果影响的差异。一般来说,研究者是可以控制质量因子的,并能够根据需要取不同的水平。方差分析很好地满足了这一需求,并且在现有的研究中也得到了大量的应用。张孝义,贺晓玲,宋灿,郭英,张妍等人在关于创造力 (张孝义,2012) 、成就动机 (贺晓玲,2012) 、刻板印象 (宋灿,2012) 、认知偏向 (郭英,张妍,2012) 等研究中,都选择方差分析作为数据统计方法。
虽然方差分析在得到了极为广泛的应用,但是在此应用的过程中,多数研究者做的还是不过完善,主要表现在两个方面:首先,对于额外变量的统计控制不足;其次,研究结果中只报告方差分析的F值和p值。
2. 协方差分析对于方差分析的补充
方差分析将来自各子总体抽样样本汇总在一起,先假设他们来自一个总体(即假设没有差异),然后将这个汇总样本的总变动(SST)分解为两个部分。一部分是组内变动(SSW),代表着本组内(即某个子总体内;在多因素分析时则是按多因素进行划分的交互分组内)各案例值关于总平均值的分布离散程度。另一部分是组间变动(SSB),代表着各组平均值关于总平均值的分布离散程度。用公式表示为:SST = SSW + SSB。
然而在心理学实验研究中,存在着各种实验误差。这些实验误差对实验结果会产生不同的影响,常使实验结果不能达到预期的效果。为了克服实验误差的影响,研究者常采用恰当的实验设计来控制实验误差对实验结果的影响。但有些影响实验结果的因素不易通过实验设计的方法进行控制,这时汇总样本的总变动(SST)就不仅仅包括组内变动(SSW)和组间变动(SSB),它还包括不可控制变量造成的误差(SSE)此时:SST = SSW + SSB + SSE。
研究者可借助统计的方法对实验误差进行有效的统计分析方法。然而在现有的心理学实验研究中,对于这种不可控制变量造成的试验误差的有效规避是极为少见的 (高艳慧,万迪昉,郭海星,2012) (王洪利,王刊良,李艳,2011) 。
心理学的实验研究中,常常会出现既有可以控制的变量,又有不可以控制的变量同时影响实验结果的情况。这时就需要采用协方差分析的统计处理方法,将可控制变量和不可控制变量(即协变量)综合起来加以考虑。比如,要研究独生子女与非独生子女儿童的认知能力,而父亲的文化水平对儿童的认知能力又有一定的影响,要消除这一因素对实验结果的影响,就需要将父亲的文化水平这一因素作为协变量进行协方差分析,才能得到更准确的结果。由此可见,协方差分析在心理科学研究中有着广泛的用途 (于义良,李爱玲,1999) 。
协方差分析是建立在方差分析和回归分析基础上的一种统计分析方法,其基本思路是根据因变量对协变量的回归系数,从因变量中扣除受协变量影响的部分,从而正确分析自变量对因变量的关系。
协方差分析的步骤如下: (黄中,2000)
第一步:计算各组均值、平方和及协方和。

第二步:计算公共组内平方和及协方和

第三部:计算总平均值、总平方和及总协方和

其中
最后根据如上计算结果,列出协方差分析表:
当P个总体均值有显著差异时,就需要对均值排序,又由于有协变量的影响,所以需把协变量同时都取在相同的水平上,这时就有
其中
通过具体案例,我们可以更加清晰地看出协方差分析的重要性。
如果我们以某专业的五个班级的第一学期经济致学基础课(微积分)的期末统考成绩(y)和高考数学成绩(x)作为分析的原始数据。
首先研究五个不同专业的期末统考成绩有无显著差异。当不考虑协变量x的影响时,只需作单因素方差分析,由表1可见在显著性水平α = 0.01下差异是极其显著的。
按平均成绩由高到低排序为
但是这样得到的结论可能是有问题的。因为四班学生的入学数学成绩在五个教学班中最低( 119.4),而二班学生的入学数学成绩在五个教学班中最高(138.7),如果入学数学成绩对大学第一学期数学课成绩有影响,那么入学成绩(即学生的基础)与大学教学的效果就会混杂,这时四班的平均成绩低就很难判断是由大学教学效果的差异还是由学生基础所致。
学生的基础对学生后续课的学习有直接影响,这是众人的共识,因此上述的方差分析方法需要进行修正,即用协方差分析方法,对大学教学效果的评价扣除学生入学考试成绩的影响。
按照协方差分析计算步骤,我们列出协方差分析表如表2。
根据协方差分析可见,五个教学班第一学期数学统考成绩有极显著差异,注意到有协变量的影响,
所以对均值的排序,需要把协变量同时都取在相同的水平上,这时就有
,其中
。
先按
(I = 1, 2, 3, 4, 5)由大到小的顺序重新排列为
由此我们可以看出,单纯运用方差分析的结果与运用协方差分析的结果可能大不相同究其原因主要是由于协方差分析排除了协变量对固变量的影响作用,这种把回归分析和方差分析结合起来运用的方法正是协方差分析的实质和优点所在,使其所做结论更切合实际一些。
这启示我们在进行研究的过程中要综合考察各种可能影响研究结果的因素,在进行研究之前尽量通

Table 1. Analysis of variance of grades
表1. 成绩的方差分析表
**在0.01水平下显著。
表2. 协方差分析表
**在0.01水平下显著。
过完善的研究设计避免可能造成的影响。
3. 方差分析的统计检验力和效果大小报告不足
现有的大量实验研究中,研究者通常只报告数据分析中方差分析的F值以及p值,以此说明实验处
理是否产生影响,然而仅仅做到这些还是略显草率。例如在我们做相关分析的时候,尽管结果可能会显示相关系数在α = 0.01水平上显著,但是其值仅仅为0.25的话,我们也很难确定实验结果的可信度,因为相关分析的效果大小是R2 (郭志刚,1999) ,而.25的平方仅为0.0625。因此研究者在报告研究结果是应当连同统计方法的效果大小和统计检验效能一起报告。
效果大小(effect size, ES)是指某个特定总体中的某种特殊的非零的数值。这个数值越大,就表明由研究者所处理的研究现象所造成的效果越大。
目前,学术界对于如何评估方差分析效果大小至少存在两类不同的指标体系:一类以η2作为指标,另一类以粗体小写字母f值作指标。两类指标所根据的理论背景不同,被接受的程度也有所不同。其中,η2的含义是“实验处理之后各组间平方和在总体平方和中所占的比重”,η2的指标值大,反映实验效果大,η2的指标值小,则反映实验效果小,因此这一指标所反映的效果大小的内涵最容易让人们所理解 (胡竹菁,戴海琦,2011) 。
美国著名心里统计学家J. Cohen指出 (Cohen J., 1973) ,可以用η2来表示效果大小的指标,其计算公式为:
。
目前较多的西方学者采用这种方法来估计方差分析的效果大小。
比如有人研究了个人表现的反馈类型对其自尊的影响。让15名被试参加一项知识测验,每组各5名被试。不管被试在测验中的实际表现如何,对积极反馈组,都告诉他们水平很高;对消极反馈组,都告诉他们表现很差;对控制组,不提供任何反馈信息。最后,让所有的被试都参加一个自尊测验,测验总分为100分,得到的分数越高,表明自尊越强。实验结果如表1所示,问不同反馈类型的各组被试的自尊水平是否存在显著差异?
对表3的数据进行方差分析后可以得到如表4所示的方差分析表。
根据表4,我们可以算出效果大小

说明在该实验中,总体变异中约有51%是来自反馈类型的实验处理。由于η2的结果作效果大小指标的便于理解性,著名的统计软件SPSS就采用η2作为该软件“一般线性模型”模块中有关效果大小的指标。将表1中的数据输人SPSS运行后,SPSS给出的效果大小值是“η2 = 0.51”(注:英文版SPSS给出的结果标为“Partial Eta Squared”;中文版SPSS 18.0给出的结果标为“偏eta方”),与上述用η2作为效果大小的指标计算出的结果完全一样。
如前所述,J. Cohen认为,当用η2作方差分析效果大小的指标时,在η2 = 0.14时就属于大的效果,但0.51的效果大小还是远远大于0.14。因此有的统计学家认为用η2作为实验处理在总变异中所占比重的估计方法一般会高估实验处理的效果,提出另外一个含义与η2大致相同的指标ω2来反映实验处理效果大小,其计算公式为:


还是一表1和表2的的数据为例,将已知数据代入公式后可得:

虽然ω2 = 0.43比η2 = 0.51的值更小,但被认为能更准确地反映反馈类型对被试自尊水平实验中的效果。
在统计决策中,存在范I型错误和II型错误的可能性。错误地拒绝虚无假设H0为I型错误,我们可以通过α检验(p值)来判断。错误地接受虚无假设H0为II型错误,判断犯II型错误的可能性用检验效能来表示。检验效能等于1−β。我们一般通过采用更低的α水平来防止犯I型错误,但防止II型错误却没有那么容易,因为β很难求得。方差分析备择假设的期望分布值通常用希腊字母Ф表示。当用η2来作为方差分析效果大小的指标时,可以根据η2值,各组人数和分组数直接查相应的换算表求统计检验效能1-β的值。以表l的数据为例,分组数k = 3的相应换算表有如表5所示。
如表3所示,各组人数是n = 6,在表5中最接近的值是n = 10那一行,效果大小η2 = 0.51,虽然其值远远大于η2 = 0.14,也只能查最接近的叼η2 = 0.14那一列,结果为对本次实验数据进行方差分析的统计检验力1−β为51%。

Table 3. The scores of self-esteem under different feedback conditions
表3. 不同反馈类型条件下被试自尊水平测试得分表

Table 4. ANOVA of self-esteem under different feedback conditions
表4. 不同反馈类型对被试自尊水平影响的方差分析表
**在0.01水平下显著。

Table 5. Scores of the power of a statistical test when k = 3
表5. 分组数为k = 3的统计检验力换算表
尽管通过方差检验的F值和p值,我们可以看出实验处理能够起到预期的作用,但是这些还不够,我们还需要考察其效果大小或者统计检验效能,探索实验处理能发挥多大程度的作用,并且还要尽可能剔除其它因素对研究结果的影响。