中小企业破产模型的判别分析与Logistic回归分析
The Discriminant Analysis and Logistic Regression Analysis of SMEs Bankruptcy Model
摘要: 多元统计分析中,判别分析和Logistic回归分析都是用来预测和解释一个对象所属类别的分类方法。回归模型用于预测和解释度量变量,而判别分析和Logistic回归分析用来解决被解释变量是非度量变量的情况。被解释变量包含两类时,判别分析和Logistic回归分析都适用;而被解释变量包含两类以上时,只有判别分析适用。但是,只有解释变量满足多元正态性和相等协方差阵假设时,判别分析才适用。而Logistic回归不需要解释变量的一系列的假设,仍可以得到良好的结果。本文分别用判别分析和Logistic回归分析对中小企业的破产模型进行分析,并对比两种分类方法的异同。
Abstract: In multivariate statistical analysis, discriminant analysis and Logistic regression analysis are both used to predict and interpret the classification. Regression models are used to predict and interpret metric variables, while discriminant analysis and Logistic regression analysis are used to solve situations where explanatory variables are non-metric variables. When the explanatory variable contains two types, both discriminant analysis and Logistic regression analysis are applicable; when the explanatory variable contains more than two types, only discriminant analysis is applicable. However, discriminant analysis is only applicable when the explanatory variables satisfy the multivariate normality and the equivalent covariance matrix hypothesis. Logistic regression does not require a series of assumptions about explanatory variables, and good results can still be obtained. In this paper, the bankruptcy model of SMEs (Small and Medium Enterprises) was analyzed by discriminant analysis and Logistic regression analysis respectively, and the differences and similarities between the two classification methods were compared.
文章引用:裴亚蕾. 中小企业破产模型的判别分析与Logistic回归分析[J]. 理论数学, 2018, 8(6): 604-612. https://doi.org/10.12677/PM.2018.86081

1. 引言

在现实生活中,人们可能会面临这样一类问题,判断某一对象属于哪个类别。比如一个公司是不是潜在客户,一个广告方案能否成功。这就需要选择对象所包含的变量作为解释变量,根据一定的判别准则,定义对象与类别之间的“距离”,所观察对象与哪个类别“距离”近,就说明该对象属于哪个类别。常用的判别方法有判别分析和Logistic回归分析,两者既有区别又有联系,本文通过一个实例来比较两种判别方法之间的异同。

2. 判别分析的基本思想

回归模型用来预测和解释度量变量,在回归模型中,解释变量和被解释变量都是度量变量,也就是定量变量。而实际生活中,往往面对被解释变量是非度量变量,也就是定性变量,在这种情况下,传统的回归分析是失效的。而判别分析正是用来解决被解释变量是非度量变量的情形。

判别分析的步骤:

1) 选择恰当的解释变量,解释变量不是越多越好,要“越有代表性越好”,解释变量多了会出现多重共线性的结果,影响判别分析方法的使用。

2) 判断解释变量是否满足判别分析的假设条件:

i. 每个解释变量不能是其他解释变量的线性组合;

ii. 各组变量的协方差阵相等;

iii. 各个解释变量间具有多元正态分布 [1] 。

3) 选择合适的准则判别对象和类别之间的距离。常用的判别方法有:

i. 距离判别;

ii. Bayes判别;

iii. Fisher判别;

iv. 逐步判别。

4) 对模型的拟合效果进行显著性检验。

5) 对模型的结果进行分析和解释。

3. Logistic回归的基本思想

当被解释变量只有两组时,Logistic回归也可以用于预测和分类 [1] 。而且不需要解释变量满足多元正态性和相等协方差阵假设,Logistic回归就可以得到良好的结果。

当研究某一随机现象发生的概率p的大小,比如一个公司是不是潜在客户,一个广告方案能否成功,以及讨论p与哪些因素有关。但是因为概率p的取值是0到1之间的实数,变化范围非常小,这就意味着,当p作为被解释变量的时候,可能对解释变量的变化不够敏感,也就造成了判别方法的失效,所以直接对概率p进行数学上的处理有一定的难度。为了数学上处理的方便,我们构造p的一个严格单调函数 Q = Q ( p ) 与p同增同减, Q ( p ) 或者 p = 1 的附近微小变化要很敏感,因 p = 0 或者 p = 1

的极端情形,往往正是研究者所关心的问题。也就要求 d Q d p 应与 1 p ( 1 p ) 成比例,于是令

Q = ln p 1 p

上述变换称为Logit变换 [3] 。

然后,我们可以将Q看作新的被解释变量,然后构造Q和解释变量的函数关系,并从中解出p值。比如 Q = b x ,则 p = e b x 1 + e b x

当比例只取0和1两个值时,被解释变量y取1的概率 p ( y = 1 ) 就是要研究的对象。将影响被解释变量y的解释变量,记为 x 1 , x 2 , , x n ,这些 x i ( i = 1 , 2 , , n ) 中既可以包含定性变量,也可以包含定量变量。因为下式成立

ln p 1 p = b 0 + b 1 x 1 + + b n x n

所以 ln E y 1 E y x 1 , x 2 , , x n 的线性函数,满足上面条件的称为Logistic线性回归 [2] 。

Logistic回归的步骤:

1) 选择恰当的解释变量和被解释变量 [2] 。

2) 令 Q = ln p 1 p = b 0 + b 1 x 1 + + b n x n

3) 使用极大似然估计 b 0 , b 1 , , b n

4) 解出p值。

5) 对模型的拟合效果进行显著性检验。

6) 对模型的结果进行分析和解释。

4. 数据背景

为了比较判别分析与Logistic回归的异同,以中小企业的破产模型为例,收集21个破产企业和25个财务良好的企业破产前两年的年度财务数据。将财务数据作为解释变量,检验这些解释变量对企业是否破产有怎样的影响。

财务数据涉及四个解释变量:

x 1 = 现金流量/总债务;

x 2 = 净收入/总资产;

x 3 = 流动资产/流动债务;

x 4 = 流动资产/净销售额 [2] 。

5. 判别分析

Table 1. Ogarithmic determinant

表1. 对数行列式

Table 2. Test results

表2. 检验结果

上面两张表(表1表2)是关于解释变量的协方差是否相等的Box’M检验。根据进行判别分析所需的假设条件,只有解释变量协方差相等,判别分析才是适用的,判别分析的结果才是可靠的。上表显示解释变量通过检验。

Wilks’s Lambda准则用来评估判别函数的判别效力的显著性。Spss默认引入变量的临界值为3.87,剔除变量的临界值为2.71。

第一步:表3步骤0中表明x3 (流动资产/流动债务)的F值最大,为26.610,大于引入变量的临界值3.87,Wilks’s Lambda最小,为0.632,x3 (流动资产/流动债务)第一个进入模型,这在表4中反映出来 [1] 。

第二步:表3步骤1中,在x3 (流动资产/流动债务)进入模型后,模型外的三个变量中x2 (净收入/总资产)的F值最大,为7.446,大于3.87,Wilks’s Lambda = 0.531最小,因此第二个进入模型的是x2 (净收入/总资产) [2] 。表4步骤2中,x2 (净收入/总资产),x3 (流动资产/流动债务)的F值都大于2.71,因此,x2(净收入/总资产),x3 (流动资产/流动债务)都进入模型。

第三步:表3步骤2中,x1 (现金流量/总债务),x4 (流动资产/净销售额)的F值都小于3.87,分别为0.403,1.163,不能进入模型。

判别分析的自变量选择结束,x1 (现金流量/总债务),x4 (流动资产/净销售额)对判别函数的贡献不显著,其他两个自变量进入判别方程。

Table 3. Variables not in the analysis

表3. 不在分析中的变量

Table 4. Variables in the analysis

表4. 分析中的变量

Table 5. Classification function coefficients

表5. 分类函数系数

Table 6. Canonical discriminant function coefficient

表6. 典型判别式函数系数

a) 由表5可以看出两类的Fisher判别函数分别是

f 1 = 2 . 789 + 2 . 4 0 2 x 2 11.169 x 3

f 2 = 5.908 + 4.043 x 2 1.028 x 3

b) 由表6可以看出非标准化的判别函数为

f ( x ) = 1.771 + 5.497 x 2 + 0.89 x 3

c) 根据Fisher线性判别函数对原始数据进行回判,根据非标准的线性判别函数计算每个观测的Z得分。由表7判别函数在y = 1的重心为−1.003,而在y = 2的重心为0.842。计算分割点为0,可以根据待判样品的每个观测的Z得分进行分类 [1] 。

Table 7. Functions at group centroids

表7. 组质心处的函数

Table 8. Wilks’ Lambda

表8. Wilks的Lambda检验

表8是对两个判别函数的Wilks’ Lambda检验,说明判别函数在0.05的显著性水平上是显著的,模型拟合比较好 [1] 。

通过逐步分析法,x2 (净收入/总资产),x3 (流动资产/流动债务)贡献比较大的保留下来。另外两个变量x1 (现金流量/总债务)、x4 (流动资产/净销售额)对因变量影响较小而被剔除。表9表10判别载荷和标准判别函数证实了这一点 [2] 。

Table 9. Structure matrix

表9. 结构矩阵

Table 10. Canonical discriminant function coefficient

表10. 标准化的典型判别式函数系数

6. Logistic回归分析

表11表12是对整个模型的拟合效果的检验,表中的结果表明模型是非常显著的,拟合效果良好,可以用来做解释和预测。

Table 11. Omnibus test of model coefficients

表11. 模型系数的综合检验

Table 12. Model summary

表12. 模型汇总

Table 13. Hosmer and Lemeshow test

表13. Hosmer和Lemeshow检验

表13是Hosmer-Lemeshow检验,检验因变量实际值与预测值的分布是否有显著的差异,结果表明不显著,也就是说因变量实际值与预测值的分布没有显著差异,模型拟合较好 [1] 。

Table 14. Variables in the function

表14. 方程中的变量

表14中输出了全部自变量的系数和各变量的相关统计量,Sig是Wald检验的显著性概率。可以看到因素x2 (净收入/总资产)的系数的Wald检验在显著性水平0.05上仍然不显著,将其剔除。用y对x1 (现金流量/总债务)、x3 (流动资产/流动债务)、x4 (流动资产/净销售额)三个自变量做回归,输出结果见表15

Table 15. Variables in the function

表15. 方程中的变量

表15中得到结论,自变量x4 (流动资产/净销售额)的系数的Wald检验在显著性水平0.05上仍然不显著,将其剔除,再用y对x1 (现金流量/总债务)和x3 (流动资产/流动债务)做回归。

Table 16. Variables in the function

表16. 方程中的变量

表16中可以得到下面模型:

Table 17. Classification table

表17. 分类表a

a.切割值为0.500。

表17可以看出,组1的正确判断率为85.7%,组2的正确判断率为96%,总的正确判断率为91.3%。Logistic回归方程判别效果良好。

7. 判别分析与Logistic回归分析的比较

本例中, Logistic回归的判别效果比判别分析好。

从解释变量的贡献程度来看,Logistic回归分析的结论是x1 (现金流量/总债务)和x3 (流动资产/流动债务)贡献较大,而x3 (流动资产/流动债务)的贡献最大(wald值最大)。判别分析的结论是x2 (净收入/总资产)和x3 (流动资产/流动债务)贡献较大,而x3 (流动资产/流动债务)贡献最大(载荷因子最大)。两种分类方法中,解释变量x3 (流动资产/流动债务)贡献最大,解释变量x4 (流动资产/净销售额)都被剔出了。两种方法有一致性。

8. 结论

在所有参加Logistic回归分析的4个因素中,x2 (净收入/总资产)首先被剔除,其次x4 (流动资产/净销售额)被剔除,说明它们对中小企业是否破产影响不大。我们把两个重要指标x1 (现金流量/总债务)和x3 (流动资产/流动债务)引入模型,事实上x1 (现金流量/总债务)和x3 (流动资产/流动债务)可能存在共线性,其中某一个因素的引入可能会影响另一个因素进入方程,在判别分析中x1 (现金流量/总债务)就被剔除。

在参与判别分析的四个因素中,x2 (净收入/总资产)和x3 (流动资产/流动债务)被保留下来,而且由表9表10可知,x3 (流动资产/流动债务)的影响强于x2 (净收入/总资产),也与Logistic回归的结论一致性。

参考文献

[1] 郭蕾. 2型糖尿病的判别分析和Logistic回归分析[D]: [硕士学位论文]. 长沙: 中南大学, 2007.
[2] 何晓群. 多元统计分析[M]. 第4版. 北京: 中国人民大学出版社, 2014: 105-305.
[3] 郭志刚. 社会统计分析方法: SPSS软件应用[M]. 第2版. 北京: 中国人民大学出版社, 2015: 177-306.