1. 引言
假设检验是统计推断和决策的基本形式之一, 它是先对研究总体的参数做出某种假设,然后通过样本所提供的信息来检验假设是否成立。其中,包含假设检验的两个等价的方面:其一是建立拒绝域,考察样本观测值是否落入拒绝域而加以判断;其二是根据样本观测值计算检验的P值,通过将P值与事先设定的显著性水平
比较大小而做出判断。对于前者来说,
是一个通用的风险概率,但事实上根据不同的样本结果进行决策,所面临的风险事实上是有差别的,这是用拒绝域表示的缺点,这时P值的采用常常能够在精确反映决策的风险度的同时简化决策过程中的运算。但是我发现一部分同学在运用P值解决假设检验的相关问题时,仅仅记住做题过程甚至是解题模板,对P值往往是“知其然不知其所以然”,这对于之后更深入的学习统计学思想,培养统计学思维无疑是一个障碍。因此对P值进行比较全面和深入的探讨是十分必要的。归其本源,我们先从P值提出的背景——假设检验入手,尝试逐渐将P值相关描述具体化。
2. 假设检验的两种方法
假设检验是根据所提供的样本信息对未知总体分布某些方面的假设作出的合理判断, 在相关文献资料中一般将假设检验的两种方法称为:临界值法与P值法,两者是等价的,只是处理问题的角度不同,P值法的核心是计算出现样本值或更极端值的概率,而临界值法则着重于比较检验统计量的值与临界值的大小。
2.1. 临界值法:规定显著性水平
作假设检验
第一步:根据实际情况,提出原假设和备择假设
vs
[1];
第二步:选取一个适当的检验统计量
,使当
成立时(或
中某个具体参数下),T的分布完全已知,并根据
及
的特点,确定拒绝域W的形状 [1];
第三步:确定显著性水平
,确定具体的拒绝域W [1];
第四步:有样本观测值
,计算检验统计量的
,由
是否属于W,做出最终判断 [1]。
在这个方法下进行的假设检验所下的结论是在给定的显著性水平下给出的,因此,在不同的显著性水平下对同一检验问题所下的结论可能是完全相反的。例如,在显著性水平
时应拒绝原假设,但是有可能在显著性水平
时应接受原假设。因为降低显著性水平
会导致拒绝区域缩小, 从而就有可能使原来落在
的拒绝域的统计量的值变成落在
的接受域内。
从这个角度来说,在给定显著性水平的基础上,对于相同的样本容量和分布,临界值是固定的,也就是说拒绝域固定的,但是对于不同的样本计算出来的检验统计量的值是不同的,虽然说都落在相同的拒绝域,最终作出的都是拒绝原假设的判断,实际上,检验的把握程度是存在差异的。
2.2. P值法:假设检验的P值
P值是进行检验决策的另一个依据,它是由检验计量的样本观测值能够作出拒绝原假设的最小显著性水平,我们首先需要计算P值,大多数情况下借助计算机应用统计软件进行计算,然后由检验的P值与人们心目中的显著性水平
进行比较作出检验的结论。
2.2.1. P值的计算
若用u表示检验的统计量,
为u根据样本数据计算出的值,根据检验统计量u的具体分布,通常可由如下的公式计算得到P值。
1) 双边检验的P值
假设
;
。
a) 检验统计量为对称分布的双边检验
b) 检验统计量为非对称分布的双边检验
2) 单边检验的P值
a) 拒绝域为右边区域的右边检验
假设
;
。
b) 拒绝域为左边区域的左边邻域
假设
;
。
2.2.2. P值与给定的显著性水平
作比较
如果
,则在显著性水平
下拒绝原假设;
如果
,则在显著性水平
下接受原假设 [1]。
实际中,p很小时(如
)即可作出拒绝结论,p很大时(如
)即可接受。只有当p与
接近即统计量的值
接近临界值才需比较,为慎重起见,可增加样本容量,重新进行抽样检验。
2.3. 显著性水平
与检验的P值区别与联系
在假设检验的两个方面中,前者是将拒绝域作为进行决策的最终概念条件,而其中的显著性水平
我们可以将其理解为在给出拒绝域具体表示的过程中的一个重要的中间概念条件;相比之下,后者是将检验的P值作为进行决策的中间概念条件,而其中的显著性水平
便作为了进行决策的最终概念条件。总的来说,显著性水平
和检验的P值分别在统计决策中发挥着不同的作用,具体两者的相同之处和不同方面如表1所示。

Table 1. Comparison of significance level and P value of test
表1. 显著性水平与检验的P值的比较
与此同时,在几何图示中我们也可以更加直观的认识给出显著性水平
之后临界值和检验的P值之间的关系。比如说,在总体方差已知时,我们以右侧假设检验
;
为例,假设显著性水平为
在
为真的条件下,
,
为临界值,可通过标准正态分布表查出具体数值,如
时,
。P值是由检验计量的样本观测值能够作出拒绝原假设的最小显著性水平,正态分布概率密度函数条件下,假设检验的临界值和P值几何意义在图1得以展现。

Figure 1. Diagram of critical value and P value under normal distribution probability density function
图1. 正态分布概率密度函数下临界值和P值图
3. 在辩证中深化对P值的认识
通过之前对于假设检验的讨论,我们能够体会到在假设检验问题中,P值的定义里蕴含了“显著性检验”的基本统计思维方法。由于P值在统计推断中扮演者的重要角色,它几乎被广泛地应用于学科领域的主流统计分析之中,因此对它的准确理解不仅是通向掌握各种具体统计学测试的大门,更影响着人们对统计分析结果的解读和表达。基于此,那么我们如何更深入的理解P值的本质?在实际应用过程中,我们往往会陷入哪些理解误区?用P值进行假设检验的优势是什么?其应用的局限性又是什么?这些问题亟待我们在对P值进行全面而细致的解读之后给出答案。
3.1. P值的正确理解与错误认识
P值在文献中的普遍解释为“当原假设为真时所得到的样本观察结果或更极端结果出现的概率”,细细读过之后,我发现它足够精炼但是对于脱离了具体的假设检验实例而单纯去理解却不够直观。因此,我更想用通俗的语言去解释它的含义,以此加深对其的理解。当原假设
是既定正确时,P值也就是衡量这个样本奇不奇怪、极不极端的数值,所以P值很小的时候,因为它的极端性,我们不太可能得到这种样本,这就说明说明如果
是正确的,那么这个样本就太奇怪了,所以我们得出拒绝原假设
的结论。其中,P值是在原假设
成立的情况下,检验统计量X大于或小于样本统计量C的概率,而不是X大于或小于C条件下原假设
成立的概率。从条件概率的角度,前者可以表示为
,而后者可以表示为
,两者之间并不是等价关系。实际上,
很小时,
不一定很小。基于以上讨论,以下给出对P值更深入的理解与认识。
1) P值只解释数据与假设之间的关系并不解释假设本身。
P值是基于特定假设和实际样本进行统计推断的一个工具,虽然说P值就是一个概率值,也可以理解为可能性,这从其英文全称Probability-value也能看出些端倪,其所代表的是原假设
成立的可能性,因此我们不能将P值理解为衡量原假设为真的概率、备择假设为假的概率或者是样本数据仅由随机因素产生的概率。对于任何一个假设,它为真的概率都是固定的,而P值是根据具体的样本数据计算得出的,样本数据的不同,计算出的P值也有所不同,所以说P值仅仅只是描述样本与原假设的相悖程度。
2) P值仅表达的是数据与模型不匹配的程度而非两者之间差异的大小。
举个例子来说,我们对一组样本数据的均值进行正态总体参数的单侧检验,原假设
,计算得到P值小于0.05的结果,这意味着我们可以有大于95%的把握认为这组数据的均值不是
,也就是样本数据所服从的分布模型与均值为
的正态分布不相匹配。进一步来说,P值越小,说明数据与模型之间越不相匹配,越有理由说明两者之间存在差异,但是仅凭P值来说是无法判断两者差异的大小的,更不存在P值的大小与差异程度成正比或者反比的说法,通常情况下差异的大小在均值和置信区间的形式中将得以反映。同样地,P值的大小就更不能判断样本均值与
相比增加或减少了多少。
3) P值或统计显著性并不度量某个效应的大小或某种结果的重要性。
统计上的显著性要与科学、人文或经济上的重要性区别开来。较小的P值并不一定意味着有更大或更重要的效应;较大的P值也不代表重要性缺乏或更小的效应。所以,不管某个效应的影响有多小,当样本量足够大或测量精度足够高时,有可能得到一个较小的P值;反之,无论某个效应影响有多大,当样本量很小或测量精度不够高时,也可能会得到一个较大的P值。相类似,当估计的精度不同时也会得到不同的P值。
3.2. P值的优势与局限
在P值因为其自身在显著性检验中的优势,在被提出的数百年时间里已被广泛地应用于医学、生物、教育统计等诸多领域之中 [2],相比之下,在应用的广度方面统计学中其他概念中似乎无出其右者。与此同时,拜应用广泛所赐,P值长期以来又一直倍受争议。基于此,我们将对比假设检验中的其他方法,如下将对P值的优势和局限进行深入分析。
3.2.1. 使用P值的优点
1) P值方便易得且作检验时不需要查表求临界值。
实际假设检验推断统计所用到P值我们往往借助统计分析软件进行求值。无论是参数的假设检验(如方差分析和回归分析),还是非参数的假设检验(如中位数检验、尺度检验和总体分布的检验),统计分析软件均能够给出P值(有的用“P-value”表示,有的用“Sig.”表示),然后只需直接用得到的P值与显著性水平
相比 [3],即可得出是否拒绝
的结论。相比来说,在临界值法中查表求出临界值的过程比较繁琐。
2) P值作检验时可以准确地知道检验的显著性 [3]。
在假设检验的临界值法中我们或许会遇到这样的问题:有时候在一个较大的显著水平下得到拒绝原假设的结论,而在一个较小的显著水平下却得到相反的结论。这是因为在临界值法中,若拒绝了
,我们只知道犯第一类错误的概率不超过事先设定好的显著性水平
,并不知道确切的犯第一类错误概率。基于这一点,P值就可以很好的解决这样的问题,因为P值又称为观察到的显著水平,从其本质上说是在拒绝
时犯第一类错误的概率,所以说在利用P值法检验时,只需将其与人们心目中的显著性水平
进行比较就可以很容易地做出检验的结论,因为对于任何大于P值的显著性水平
均可以拒绝
。
换一个角度来说,因为得到了P值也就得到了检验的真实显著性,与其人为地把
固定在某一水平,不如干脆让检验者自己决定是否在给定的P值水平上拒绝或接受原假设,毕竟在问题的研究者当中,每人对于风险的接受程度是不同的 [3]。
3.2.2. 使用P值的缺点
1) P值在样本容量很大时几乎失效。
古典统计学适合于小型的问题,最多也就是几百个数据点和几个参数。当样本容量很大时,P值并不十分有效。当样本容量足够大时,几乎任何一个原假设都会对应一个非常小的P值,进而任何原假设都会被拒绝,P值检验在这种情况下几乎失效,这也就是著名的“Lindley”悖论,由此也引发学术界对于大数据时代P值消亡的感慨 [4]。
2) P值不宜处理多重假设检验问题 [5]。
P值进行显著性检验时只可以用来做单个对比,而不适合一次进行上千次比较,因此不宜处理涉及三个及三个以上的多重假设检验问题,因为即使利用了P值检验法也不好做出判断,但是在实际工作中我们可以使用贝叶斯学方法来弥补解决问题的单一思路。
3) P值本身并不能对统计模型或研究假设的可信度进行一个充分的评价。
P值在没有充分的专业理论背景和其他相关证据时所能够提供的信息非常有限。从数据分析的角度来说,不存在哪个单一的指标能够揭示可靠的研究证据,我们还应在一份严谨的数据分析报告中体现一些可以对P值进行补充的分析方法,比如置信区间、贝叶斯方法、似然比等等 [4]。再者,我们从研究目的的角度考虑,不能仅仅计算P值,而应该探索其他更贴近数据的模型,进而更好地控制误差,对研究过程中所出现的数据结果的进行解释。
3.3. P值相关的规范性表达
1) P值写作0的表达方式并不科学,最好给出具体值或直接表达成
。
虽然说在原假设
成立的条件下,作为随机变量的P值的分布服从区间[0, 1]的均匀分布,但是P值绝不等于0。当统计分析软件经过小数位数的保留之后,呈现出来的直观结果对应了一个非常小的P值时,在结果表达上我们也不可以在文中直接把P值表述成
、
、
或者
,这看起来是荒谬而不严谨的。
2) 合理选择与之比较的显著性水平
,注意规避逻辑错误 [3]。
运用P值做假设检验时,显著性水平
总是与之密不可分的,关于这个方面的规范性表述主要分为以下两个方面:一方面来说,显著性水平
没有统一的标准,通常取0.05、0.1和0.01,但并不意味着只能取这3个小数 [6],
可以是任意一个在区间[0, 1]内接近0的小数,而且不同研究领域对显著性水平的要求不同,像与医学和制药工程相关的领域会对显著性水平的要求更加苛刻 [7],这也是主要为了降低犯第一类错误的概率,所以P值在与显著性水平
做比较时,要根据研究的内容先选择合适的显著性水平。另一个方面来说,检验的显著性水平
应该在接触数据前由解释数据的机构来决定,也就是说可以给定不同的显著性水平,但是这并不意味着可以根据检验完成后同P值或任何其他计算的统计量比较来选择显著性水平,因为这样会导致为了通过检验而去选择“适当”的
值,从而产生逻辑错误。虽然说针对同一问题的不同指标采用不同的
让人难以接受,但是研究者需要在同一个研究中采用不同的显著性水平,从而根据P值选择显著性水平
进行接受度相关的研究时,这种情况就另当别论了。
3) 完整给给出P值和相关分析,不过分依赖给定的阈值 [4]。
在给出统计分析的结果时,合理的推断过程需要完整的报告和透明度。我们应该给出研究过程中检验过的假设的数量,所有使用过的方法和相应分析结果的P值等,而不能有选择地给出或者只报告有显著性的因素,这就会使得P值无法进行解释。另外,值得我们注意的是,经过统计分析得出的科学结论、商业决策或政策制定不应该仅依赖于P值是否超过一个给定的阈值,还应该包括实验的设计,数据的获取,数据外部的信息和证据,假设的合理性等等,如果仅仅是看P值是否小于0.05是非常具有误导性的。
4. P值的计算
现如今,许多软件都可以实现P值的计算,本文以Excel为例和R软件为例实现P值的计算。
4.1. Excel
用Excel进行P的计算有两个方法:其一,运用内置函数。首先明确假设形式和检验形式,其次选择Excel中相应的内置函数计算相应分布的概率,如表2中所示,其中,需要注意的是除标准正态函数外,其余函数中x必须大于0,最后根据函数所得出的概率带入P计算的具体公式中即可求出P值;其二,运用数据分析功能。首先需要在Excel中添加数据分析功能,具体操作流程为“菜单栏—工具—加载宏—分析数据库—确定”,然后直接加载出数据分析功能,即“菜单栏—工具—数据分析”,在实际计算是根据数据情况选择F-检验:双样本方差、t-检验:平均值的成对而样本分析、t-检验:双样本等方差假设、t-检验:双样本异方差假设或z-检验:双样本平均差检验得出P值。

Table 2. Built in functions in Excel and their corresponding distribution and probability
表2. Excel中内置函数及其对应分布和概率
4.2. R语言 [8]
利用R语言实现P值的计算如下表3所示:

Table 3. R language functions under different test forms
表3. 不同检验形式下的R语言函数
5. 总结
P值和假设检验的使用具有其存在的广泛价值,但是在使用过程中要注意到P值存在的局限性 [5]。在具体应用中,我们要综合把握其优缺点,合理使用统计分析结果。