1. 引言
在现实生活中,人们可能会面临这样一类问题,判断某一对象属于哪个类别。比如一个公司是不是潜在客户,一个广告方案能否成功。这就需要选择对象所包含的变量作为解释变量,根据一定的判别准则,定义对象与类别之间的“距离”,所观察对象与哪个类别“距离”近,就说明该对象属于哪个类别。常用的判别方法有判别分析和Logistic回归分析,两者既有区别又有联系,本文通过一个实例来比较两种判别方法之间的异同。
2. 判别分析的基本思想
回归模型用来预测和解释度量变量,在回归模型中,解释变量和被解释变量都是度量变量,也就是定量变量。而实际生活中,往往面对被解释变量是非度量变量,也就是定性变量,在这种情况下,传统的回归分析是失效的。而判别分析正是用来解决被解释变量是非度量变量的情形。
判别分析的步骤:
1) 选择恰当的解释变量,解释变量不是越多越好,要“越有代表性越好”,解释变量多了会出现多重共线性的结果,影响判别分析方法的使用。
2) 判断解释变量是否满足判别分析的假设条件:
i. 每个解释变量不能是其他解释变量的线性组合;
ii. 各组变量的协方差阵相等;
iii. 各个解释变量间具有多元正态分布 [1] 。
3) 选择合适的准则判别对象和类别之间的距离。常用的判别方法有:
i. 距离判别;
ii. Bayes判别;
iii. Fisher判别;
iv. 逐步判别。
4) 对模型的拟合效果进行显著性检验。
5) 对模型的结果进行分析和解释。
3. Logistic回归的基本思想
当被解释变量只有两组时,Logistic回归也可以用于预测和分类 [1] 。而且不需要解释变量满足多元正态性和相等协方差阵假设,Logistic回归就可以得到良好的结果。
当研究某一随机现象发生的概率p的大小,比如一个公司是不是潜在客户,一个广告方案能否成功,以及讨论p与哪些因素有关。但是因为概率p的取值是0到1之间的实数,变化范围非常小,这就意味着,当p作为被解释变量的时候,可能对解释变量的变化不够敏感,也就造成了判别方法的失效,所以直接对概率p进行数学上的处理有一定的难度。为了数学上处理的方便,我们构造p的一个严格单调函数
。
与p同增同减,
在
或者
的附近微小变化要很敏感,因
或者
的极端情形,往往正是研究者所关心的问题。也就要求
应与
成比例,于是令
上述变换称为Logit变换 [3] 。
然后,我们可以将Q看作新的被解释变量,然后构造Q和解释变量的函数关系,并从中解出p值。比如
,则
。
当比例只取0和1两个值时,被解释变量y取1的概率
就是要研究的对象。将影响被解释变量y的解释变量,记为
,这些
中既可以包含定性变量,也可以包含定量变量。因为下式成立
所以
是
的线性函数,满足上面条件的称为Logistic线性回归 [2] 。
Logistic回归的步骤:
1) 选择恰当的解释变量和被解释变量 [2] 。
2) 令
。
3) 使用极大似然估计
。
4) 解出p值。
5) 对模型的拟合效果进行显著性检验。
6) 对模型的结果进行分析和解释。
4. 数据背景
为了比较判别分析与Logistic回归的异同,以中小企业的破产模型为例,收集21个破产企业和25个财务良好的企业破产前两年的年度财务数据。将财务数据作为解释变量,检验这些解释变量对企业是否破产有怎样的影响。
财务数据涉及四个解释变量:
= 现金流量/总债务;
= 净收入/总资产;
= 流动资产/流动债务;
= 流动资产/净销售额 [2] 。
5. 判别分析
上面两张表(表1,表2)是关于解释变量的协方差是否相等的Box’M检验。根据进行判别分析所需的假设条件,只有解释变量协方差相等,判别分析才是适用的,判别分析的结果才是可靠的。上表显示解释变量通过检验。
Wilks’s Lambda准则用来评估判别函数的判别效力的显著性。Spss默认引入变量的临界值为3.87,剔除变量的临界值为2.71。
第一步:表3步骤0中表明x3 (流动资产/流动债务)的F值最大,为26.610,大于引入变量的临界值3.87,Wilks’s Lambda最小,为0.632,x3 (流动资产/流动债务)第一个进入模型,这在表4中反映出来 [1] 。
第二步:表3步骤1中,在x3 (流动资产/流动债务)进入模型后,模型外的三个变量中x2 (净收入/总资产)的F值最大,为7.446,大于3.87,Wilks’s Lambda = 0.531最小,因此第二个进入模型的是x2 (净收入/总资产) [2] 。表4步骤2中,x2 (净收入/总资产),x3 (流动资产/流动债务)的F值都大于2.71,因此,x2(净收入/总资产),x3 (流动资产/流动债务)都进入模型。
第三步:表3步骤2中,x1 (现金流量/总债务),x4 (流动资产/净销售额)的F值都小于3.87,分别为0.403,1.163,不能进入模型。
判别分析的自变量选择结束,x1 (现金流量/总债务),x4 (流动资产/净销售额)对判别函数的贡献不显著,其他两个自变量进入判别方程。
Table 3. Variables not in the analysis
表3. 不在分析中的变量
Table 5. Classification function coefficients
表5. 分类函数系数
Table 6. Canonical discriminant function coefficient
表6. 典型判别式函数系数
a) 由表5可以看出两类的Fisher判别函数分别是
b) 由表6可以看出非标准化的判别函数为
c) 根据Fisher线性判别函数对原始数据进行回判,根据非标准的线性判别函数计算每个观测的Z得分。由表7判别函数在y = 1的重心为−1.003,而在y = 2的重心为0.842。计算分割点为0,可以根据待判样品的每个观测的Z得分进行分类 [1] 。
Table 7. Functions at group centroids
表7. 组质心处的函数
表8是对两个判别函数的Wilks’ Lambda检验,说明判别函数在0.05的显著性水平上是显著的,模型拟合比较好 [1] 。
通过逐步分析法,x2 (净收入/总资产),x3 (流动资产/流动债务)贡献比较大的保留下来。另外两个变量x1 (现金流量/总债务)、x4 (流动资产/净销售额)对因变量影响较小而被剔除。表9和表10判别载荷和标准判别函数证实了这一点 [2] 。
Table 10. Canonical discriminant function coefficient
表10. 标准化的典型判别式函数系数
6. Logistic回归分析
表11、表12是对整个模型的拟合效果的检验,表中的结果表明模型是非常显著的,拟合效果良好,可以用来做解释和预测。
Table 11. Omnibus test of model coefficients
表11. 模型系数的综合检验
Table 13. Hosmer and Lemeshow test
表13. Hosmer和Lemeshow检验
表13是Hosmer-Lemeshow检验,检验因变量实际值与预测值的分布是否有显著的差异,结果表明不显著,也就是说因变量实际值与预测值的分布没有显著差异,模型拟合较好 [1] 。
表14中输出了全部自变量的系数和各变量的相关统计量,Sig是Wald检验的显著性概率。可以看到因素x2 (净收入/总资产)的系数的Wald检验在显著性水平0.05上仍然不显著,将其剔除。用y对x1 (现金流量/总债务)、x3 (流动资产/流动债务)、x4 (流动资产/净销售额)三个自变量做回归,输出结果见表15。
从表15中得到结论,自变量x4 (流动资产/净销售额)的系数的Wald检验在显著性水平0.05上仍然不显著,将其剔除,再用y对x1 (现金流量/总债务)和x3 (流动资产/流动债务)做回归。
从表16中可以得到下面模型:
a.切割值为0.500。
由表17可以看出,组1的正确判断率为85.7%,组2的正确判断率为96%,总的正确判断率为91.3%。Logistic回归方程判别效果良好。
7. 判别分析与Logistic回归分析的比较
本例中, Logistic回归的判别效果比判别分析好。
从解释变量的贡献程度来看,Logistic回归分析的结论是x1 (现金流量/总债务)和x3 (流动资产/流动债务)贡献较大,而x3 (流动资产/流动债务)的贡献最大(wald值最大)。判别分析的结论是x2 (净收入/总资产)和x3 (流动资产/流动债务)贡献较大,而x3 (流动资产/流动债务)贡献最大(载荷因子最大)。两种分类方法中,解释变量x3 (流动资产/流动债务)贡献最大,解释变量x4 (流动资产/净销售额)都被剔出了。两种方法有一致性。
8. 结论
在所有参加Logistic回归分析的4个因素中,x2 (净收入/总资产)首先被剔除,其次x4 (流动资产/净销售额)被剔除,说明它们对中小企业是否破产影响不大。我们把两个重要指标x1 (现金流量/总债务)和x3 (流动资产/流动债务)引入模型,事实上x1 (现金流量/总债务)和x3 (流动资产/流动债务)可能存在共线性,其中某一个因素的引入可能会影响另一个因素进入方程,在判别分析中x1 (现金流量/总债务)就被剔除。
在参与判别分析的四个因素中,x2 (净收入/总资产)和x3 (流动资产/流动债务)被保留下来,而且由表9和表10可知,x3 (流动资产/流动债务)的影响强于x2 (净收入/总资产),也与Logistic回归的结论一致性。