1. 引言
假设检验在心理学研究中广泛使用,它通过样本统计量(分布理论)来对总体参数或总体分布进行估计或者检验(莫雷,2019)。温忠麟等(2022)分析2001~2020年在中国知网发表的有关于假设检验方法学论文169篇,发现存在对假设检验的哲学逻辑认识不足、p值误解、忽视检验力的分析等问题。笔者在教学实践中发现大部分统计学课程也只是简单介绍假设检验的步骤,并没有追溯到假设检验的底层逻辑,甚至连假设检验的原创者们的争论被移去,使得呈现给学习者们的是“完整”的逻辑模式(吕小康,2012)。
这个假设检验的逻辑模式使得学习者只关注统计软件输出的p值是否达到显著性水平,完全隐去了学者们对p值的争论(但冰如,谢志刚,1991)。的确贝叶斯的主观概率很容易在生活中得到理解:p值除了能够提供拒绝/接受零假设的统计决策,似乎还能提供信心程度的信息(0.001似乎比0.01能够提供更高的信心)。虽然一些学者试图在客观概率和主观概率之间建立某种“可换性”(李旭燕,2008),但假设检验应用的是客观概率。
这样的非专业统计学课程同样带来对统计检验力的忽视,大部分学习者面临这些问题:该选择多大的样本量?经验选择每组30个被试合适吗?某个特殊自变量“应该”能影响因变量,但结果不显著,处理效果不存在吗?该放弃这个研究吗?这是统计检验力能够回答的问题,一些学者十分强调事先计算统计检验力的重要性(温忠麟等,2021;吴艳,温忠麟,2011)。
在测查结束心理与教育统计课程学习的广西某高校本科生中,同样发现一样的问题。本文通过对假设检验的科学哲学的溯源,来加深研究者对假设检验方法的理解;通过假设检验方法中对概率的解释,廓清对p值的误解;使用示例进行检验力分析,提醒要重视实验的检验力。
2. 假设检验的哲学基础
在做假设检验时,首先需要作出研究假设和对应的零假设。我们来考虑将“所有天鹅都是白色的”作为实验假设,如何证明这个假设?逻辑实证主义(logical positivism)使用“归纳法”(induction)来解决,归纳法是从具体观察中推断普遍性的过程(林定夷,2016):天鹅1是白色的,天鹅2是白色的……天鹅n是白色的,因而得出结论天鹅都是白色的。这是非常直觉的过程:观察结果的不断重复,得出相应结论的可能性就会不断增加。
但我们的生活经验可知,存在非白色天鹅的存在。因此,休谟(Hume, 1748)认为永远不应使用过去的经验去推理其他未经检验的实例。然而,一个基于知觉的观点:从具体的观察出发,确实无法得出普遍性规律——但是,随着相应观察结果的增加,难道普遍性假设的可能性不会增加吗?比如每当观察到一只白色的天鹅时,我们的实验假设“所有天鹅都是白色的”可能性没有增加吗?
我们可以从概率学的角度发现其中的漏洞:假定“所有天鹅都是白色的”(集合1)为真,那么每一个观察结果“白色天鹅”都是集合1的元素;但是当“所有天鹅都是白色的”为假,即“部分天鹅不是白色的”(集合2)为真时,则每一个观察结果“白色天鹅”都是集合2的元素。两个集合是互斥的,观察结果只能归属于集合中的一个,那么我们怎么知道观察结果“白色天鹅”属于哪一个集合的元素呢?更重要的是,单个事件没有概率。简单地说,假设“所有天鹅都是白色的”为真,那么观察结果就一定是“白色天鹅”,也就是每个观察结果是“白色天鹅”的概率都是“1”。我们可以发现对单个事件赋予概率将是多么荒谬的事情,单单两个事件概率的和就大于1,这是不符合逻辑的。
波普尔(Popper, 1959; Popper, 1963; Popper, 1972)认为,理论永远只是对真理的一种猜测,尽管它是解释真理的最佳猜测。由此,归纳法无法成立。那么又怎样证实研究假设?波普指出,假如某些特定观察是正确的,虽然它不能用来证实某一理论,但却可以证伪某一理论。例如,只要接受“天鹅23是黑色的”,就能推翻“所有天鹅都是白色的”这一普遍性的论断。这里存在着不对等,也是我们假设检验的哲学基础,通过证伪零假设来间接接受实验假设。
3. 假设检验的常见误解
本文利用刚结束心理与教育统计课程的广西某高校本科生对假设检验的理解进行问卷调查,发放33份问卷,有效问卷32份,剔除一份空白问卷。问卷节选自Oakes (Oakes, 1990)编写Statistical Inference一书的题目:
比较控制组和实验组(每组各20人)的差异,t检验的结果是t (38) = 2.7,p = 0.01。请对下列表述的对错进行判断。
(1) 你已经完全排除了零假设(总体平均数之间没有差异)。
(2) 你已经得到了零假设为真的概率。
(3) 你已经完全证明了你的实验假设(两个总体平均数之间存在差异)。
(4) 你能够推断出实验假设为真的概率。
(5) 当你拒绝零假设时,你知道自己出错的概率。
(6) 你得到了一个可靠的实验结果,即假设大量重复这个实验,那么你将在99%的情况下得到显著的结果。
题目中是一个两样本t检验,这是大多数学习者开始学习统计分析接触的相对简单的假设检验。当然,大多数学习者只关注p值是否达到设定的显著性水平,对于假设检验的底层逻辑并无深究。题目下有6个问题,也是我们在得到统计结果时,需要追问的问题。
这些问题分为三个层次考查我们对假设检验的理解,六个问题中:
(1)和(3)测查对证伪法/反证法的理解,这是十分明显的问题,也是我们做假设检验的目的,预计大多数学习者能够理解假设检验无法完全证实或证伪研究假设,此为最低层次。
(2)、(4)和(5)测查的是对客观概率的理解,这就需要学习者扎实的概率论基础。大部分学习者(包括一部分教师)都混淆p值的理解,这是很自然的想法,p值越小似乎越能说明差异的显著性,当然这是错误的,将会在下文详细介绍。预计只有少部分学习者能够区分,此为中等层次。
(6)测查的是对统计检验力的理解,大多数学习者并没有理解什么是统计检验力,原因也很简单,大多数课程关注于检验的显著与否,着眼点还是在统计软件的p值上。预计只有极少学习者能够区分,此为高层次。
结果见图1所示,超过六成的学生回答正确(1)和(3),说明学习者还是能够很好理解证伪法/反证法。学习者很容易联想到黑天鹅事件,因此小概率事件也是有可能发生的,(1)和(3)错误。但只有三成的学生选对(2)、(4)和(5),可见相当多学习者混淆了假设检验的客观频率和贝叶斯统计的主观概率。只有不到二成的学生做对(6),说明大部分学习者没能理解统计检验力,自然也不会在实验设计之前能够考虑统计检验力对结果的影响。这也是大部分学过心理与教育统计课程的学生普遍存在的问题:统计软件实在是太强大了,大部分学生只需要操作统计软件的按钮就能得出结果,并不了解(似乎也不需要了解,统计软件计算能力比人脑强大得多)假设检验的背后的逻辑。但是,正确使用假设检验,就需要考虑统计软件输出的p值对研究假设的影响。如果p值没能达到显著性水平,是否就说明实验处理没有差异?这就要考虑实验设计的统计检验力是否达到应有的水平。鉴于大部分学习者都没能理解这两点,下面就假设检验的客观概率和统计检验力的正确理解进行梳理。
Figure 1. Accuracy
图1. 正确率
3.1. 对概率的理解
在进行假设检验后,统计软件都会输出p值,通过与事先设定的显著性水平比较,作出接受或拒绝零假设的决策。问卷结果显示大多数假设检验学习者并没有理解p值的实质,将频率学派和贝叶斯学派的概率观念混淆。
对概率的判断大致分为两种:主观概率判断和客观概率判断(黄涛,1998),分别对应频率学派和贝叶斯学派的观点。主观概率判断依赖于人的经验,是对事物持有的某种信念。与此相反,客观概率判断是现实世界的认定。频率学派认为客观概率就是长期相对频率(long-run relative frequency)。例如,抛硬币试验,出现正面的概率就是所有抛掷结果中出现正面的比例。也就是说客观概率在大量重复实施的随机试验基础上(范超,2016),才会稳定收敛于某值。这种大量重复实施抛掷被称为样本空间或者集合,由此,概率是集合中所有事件的共同属性,而非单个事件(李旭燕,2009)。也就是说,谈论下一次抛硬币出现正面朝上的概率没有意义,其结果无非是真或假。(2)、(4)和(5)描述的都是单个事件,因而没有客观概率,都是错误的。
3.2. 对统计检验力的理解
在零假设为假的情况下接受了零假设,这种错误被称为二类错误。从长期来看,零假设为假时,在所有决策中接受它的比例为β。统计检验力(Power)被定义为1 − β。因此,(6)实际说的是统计检验力,p = 0.01是在假设零假设为真的情况下计算出的结果,所以统计检验力肯定不是1 − p = 0.99,(6)也是错误的。
大多数研究在确定被试量时并没有系统地计算统计检验力,但实际上,不应忽略这一计算,需要提前确定犯一类和二类错误(α和β)的风险大小。很多研究者非常小心一类错误,但却不控制二类错误。忽视对二类错误的系统性控制,将导致研究者对结果的意义及下一步工作方向的误判(吴艳,温忠麟,2011)。
我们来考虑这样的情况:
已有一项实验研究一种降低人们焦虑的新疗法,安排实验组和控制组,每组20人。他们在两组被试的焦虑水平显著差异,两样本t检验的结果是p = 0.02。假设复现这个实验的结果,你需要多少被试?
假设与原实验一样,每组测试了20名被试,你的结果虽然和他们方向相同,但并不显著,t = 1.24 (p = 0.22)。
这一类情况在心理学研究中常见,也就是心理学实验可重复率不高。但是我们不应急于对这两个研究结果的差异进行解释,即认为实验没有很好控制无关变量和操纵自变量,我们应该首先计算研究的效应量:
我们知道每组被试量n = 20,t = 1.24,现在使用样本统计量g对总体效应量d进行点估计,可通过两样本均数之差再除以汇合方差的平方根(Sp)而获得(本例的g是d的有偏估计,暂不进行校正):
(1)
假设两组样本量相同,两样本检验的公式:
(2)
假设两组方差相同且与总体方差也一致(如此假设后,g是d的无偏估计),化简公式(2)可得:
(3)
因此联立公式(1)和(3),可得:
(4)
将本例中的n = 20,t = 1.24带入公式(4),可得g = 0.39。g < 0.5,可知本例的效应量偏小(蒲显伟,2016)。因为本例假设两组方差相同且与总体方差一致,t值同样也是期望t值(δ)。本例预测了效应的方向,因此采用单侧检验,α水平为0.05。由于统计检验力是δ和显著性水平(α)的函数,因此通过查表可得检验力为0.33,这就意味着重复相同实验,能获得显著性结果的可能性只有1/3。
我们综合本例的效应量与统计检验力可知,在效应量过低和检验力过低的情况下,未能获得阳性结果也不能说明什么。因为虽然效应量只有0.39,但实验处理效应确实是存在的。这需要提高实验设计的检验力,因此需要增加被试量。查表可知要达到0.8的检验力,期望t值(δ)为2.5,连同g = 0.39带入公式(4),就可求出每组被试量n = 82。也就是说实验中每组被试量达到82人才能使检验力达到0.8,这时只在20%的情况下错误接受零假设。要达到0.95的检验力,查表得δ = 3.3,求得每组被试量n = 143,这时只在5%的情况下错误接受零假设。
从上例可以了解统计检验力的重要性。总结一下,如果你的研究统计检验力比较低,那么,即使得到零结果也不能说明任何问题。因为无论零假设是否为真,零结果都可能出现。对于假设检验,在实验设计时,应该将统计检验力设置在一个较高的水平上,然后再进行实验。那样,当得到零结果的时候,才能接受零假设。依据这样的流程,犯二类错误的长期相对概率就会被控制得很小。本文只以两样本t检验为例,说明统计检验力对实验设计的重要性,其他检验方法的统计检验力计算,有兴趣的读者可以查阅专业统计学资料自行探索。
4. 结语
本文回顾了假设检验的哲学基础,其逻辑是利用证实与证伪的不对等来对零假设进行检验。很多人以为拒绝零假设就是间接接受备择假设,但是通过假设检验的哲学分析可以发现拒绝零假设并没有给我们带来关于备择假设的有用信息。因此我们在拒绝零假设时,应该小心对待备择假设,或许我们更应该关注实验的效应量。
对于统计分析的结果,很多研究者经常使用贝叶斯方法的角度看待p值,这是非常自然的——我们倾向于了解零假设(研究假设)为真/假的概率是多少。但假设检验使用的是客观概率进行解释概率,p值只是用来进行统计决策,在设定好显著性水平后(比如0.05),p值无论是0.01还是0.001,我们的决策都是:p值小于0.05,拒绝零假设,p值0.001并没有比0.01给我们带来更多的信息。
很多研究者对p值的执着,很大因素是忽视了统计检验力的影响。在非常大的样本量的实验中,p值必然是小于显著性水平。通过对统计检验力的操纵,想要p值小数点后有多少个零都能够实现。因此,无论是得到阳性结果还是阴性结果,都应关注研究的统计检验力。在高统计检验力的情况下才能接受零假设,而对阳性结果的解释需要结合统计检验力和效应量考虑。