基于主成分分析和Logistic回归的财务风险预警研究
Research on Early Warning of Financial Risk Based on Principal Component Analysis and Logistic Regression
摘要: 本文选取了沪深A股市场中的100家上市公司为样本,选取了包括20个财务预警指标和2个非财务预警指标。通过主成分分析将20个财务预警指标提取7个主成分因子,并将7个主成分因子和2个非财务预警指标作为自变量,企业类型为因变量利用python进行二元logistic回归建模和实证性检验,取得了比较理想的预测结果,且模型优劣评价的AUC值超过0.85,KS值达到0.67,证实了模型的预测结果具有较高的可靠性,表明该模型能够为企业经营者及时发现财务风险隐患,调整经营策略提供一定的实用价值。
Abstract: In this paper, 100 listed companies in Shanghai and Shenzhen A-share market are selected as samples, including 20 financial early warning indicators and 2 non-financial early warning indicators. The 20 financial warning indicators were extracted from 7 principal component factors through principal component analysis, and the 7 principal component factors and 2 non-financial warning indicators were used as independent variables, and the type of enterprise was used as the dependent variable to carry out binary logistic regression modeling and empirical testing using python, and the prediction results were satisfactory, and the AUC value of the model’s merit evaluation exceeded 0.85, and the KS value reached 0.67, which confirms the high reliability of the model’s prediction results, indicating that the model can provide certain practical value for business operators to discover financial risks in time and adjust business strategies.
文章引用:张秀琼. 基于主成分分析和Logistic回归的财务风险预警研究[J]. 电子商务评论, 2024, 13(4): 5776-5785. https://doi.org/10.12677/ecl.2024.1341815

1. 引言

在当今全球化和高度竞争的经济环境中,企业面临着日益复杂和多样化的财务风险挑战。这些挑战不仅限于单一的市场环境变化,还涉及到宏观经济波动、资本市场变动以及全球贸易条件的变化。随着经济全球化的加深和市场的高度互联互通,企业的财务健康已经不再仅仅取决于其内部运营和市场策略,而同样受到宏观经济环境的影响。当前,国际经济发展呈现出一种既有挑战也有机遇的复杂局面。全球主要经济体的增长放缓,贸易摩擦的升温,以及紧张局势的加剧,无不对企业的财务稳定性提出了新的考验。在这种背景下,对企业财务风险进行预警和管理显得尤为重要。

因此,本文通过将主成分分析和logistic模型联合运用构建一个企业财务预警模型,并将选取的样本企业相关财务数据带入模型,以此验证模型的准确性。通过深入研究财务风险预警的方法,以期为企业管理人员预测财务风险提供参考,及时发现财务隐患并制定整改措施,促进其稳健发展和长期竞争优势的确立。

2. 文献综述

企业财务风险预警作为财务管理中至关重要的一环,吸引了国内外学者的广泛关注和深入研究。在国外研究方面,Fitzpatrick (1932年)用一元判别法对企业破产进行预测,研究得出了负债权益比率和净资产收益率这两个具有极强的财务风险预警能力的指标[1]。Ohlson (1980年)开创logistic回归建立企业财务风险预警模型的研究先河,利用logistic回归建立多变量的财务风险预警模型,其预测准确率高达96.12%,其良好的预测效果使logistic在财务风险预警研究方面得到广泛应用[2]。Beckmann (2006年)对logistic回归建模进一步完善,并将其运用于样本企业对其财务风险进行预测,研究结果表明经过完善后的模型预测准确率有显著提升[3]

在国内研究方面,财务风险预警的研究始于借鉴国外的理论研究成果基础上构建适用于中国企业的财务风险预警模型,周首华等(1996)增加现金流方面指标成功弥补Z计分模型的缺陷,并建立了企业财务风险预测的F分数模型,对62家样本企业进行财务风险预测,得出比较理想的预测效果[4]。李月英(2010)利用多元回归分析法构建了适用于我国农业上市公司的财务风险预警模型,研究发现,当把风险预警的阈值设置为1.5时,该模型表现出最佳的预测能力[5]。盛小琪(2016)通过对比Z分数模型、F分数模型和logistic回归模型的预测效果,发现logistic回归模型的预测效果最佳[6]。田珅等(2019)结合主成分分析和logistic回归构建适用于房地产上市企业的财务风险预警模型[7]。贺平等(2021)基于Logistic回归构建风险预测模型,对我国股票市场风险进行预测,取得良好预测效果[8]。陈欣欣和郭洪涛(2022)将因子分析与logistic回归联合运用于我国农业上市公司,取得了高达95.5%的预测结果[9]

回顾国内外关于企业财务风险预警的研究,发现当前关于企业财务预警研究的方法相当多样化,其中以logistic回归为基础的建模研究应用最为广泛,与其他研究方法相比存在较大优势。一元判别法割裂企业各财务分析指标之间的内在联系,在实践中存在较大局限性,故其预测准确率较差;Z计分模型和F分数模型分别未考虑现金流量状况和发展能力状况的相关指标对企业财务风险的影响;而主成分分析与logistic回归相结合则充分考虑企业各财务指标之间的内在联系,较为全面地囊括了影响企业财务风险的因素,能有效弥补以上三种研究方法的缺陷,且现有文献研究发现该方法在预测精确度上最高,充分验证了该研究方法的科学性。故本文选择将主成分分析与logistic回归相结合的方法进行企业财务风险预警模型的构建。

3. 研究样本和预警指标选取

3.1. 样本选取和数据来源

本文选取的研究对象为沪深A股上市企业,原因如下:(1) 沪深A股上市企业是我国证券市场主体,所需的相关财务数据相对容易获取且质量较高;(2) 沪深A股涵盖不同行业和规模的企业,能够提供广泛样本以反映整体市场的特征和变化,使得研究结果具有较高的市场代表性和普适性,有助于更好地理解和预测整体市场的财务风险。通过剔除相关财务数据缺失严重和存在异常值的企业,本文选取了沪深A股2023年被ST或*ST且2021年和2022年均未被*ST的41家ST或*ST企业和59家非ST企业共100家企业作为研究样本。由于被ST或*ST的处理的企业依据大多来自前一年的财务数据出现各种情况异常,若采用被ST或*ST企业前一年相关财务数据进行财务风险预测,会使得构建的模型预测准确率虚高,故为规避该风险,本文选取了被ST或*ST的前两年即2021年的样本企业相关数据开展后续研究。文中涉及相关数据主要从CSMAR数据库、东方财富和同花顺财经等网站获取,并用python对取得的数据进行处理分析。

3.2. 财务风险预警指标选取

在参考大量已有研究文献的基础上,遵循财务风险预警指标的选取原则,选取了20个财务数据指标和2个非财务数据的指标构建财务风险预警指标体系,较为全面地考虑了对企业财务风险影响的各种因素,为提高财务风险预警模型的预测准确性打下良好基础。该指标体系的财务预警指标可分为偿债能力、营运能力、盈利能力、发展能力和现金流能力五个方面,非财务预警指标主要选取了审计和内控两个方面,具体指标设定见表1

4. 主成分分析

4.1. 主成分分析的适用性检验

为判断本文选取数据是否适合进行主成分分析,利用python对数据进行了KMO和巴特利特球形度检验。一般情况下,KMO值 > 0.5,意味着数据通过主成分分析的变量相关性检验;巴特利特的P值显著(通常小于0.05),则表明该数据的相关性支持进行主成分分析。由表2可知,本文数据检验的KMO值为0.730,巴特利特检验的P值为0.000,两个检验都取得了比较理想的效果,说明本数据各变量之间存在较高的相关性足以支持主成分分析的有效应用。

Table 1. Early warning index

1. 预警指标

指标类别

指标代码

指标名称

指标释义

财务预警指标

偿债能力指标

A1

流动比率

流动资产/流动负债

A2

速动比率

速动资产/流动负债

A3

资产负债率

现金及现金等价物/流动负债

A4

权益乘数

负债总额/资产总额

A5

产权比率

总资产/股东权益总额

营运能力指标

A6

存货周转率

营业成本/存货平均占用额

A7

流动资产周转率

营业收入/流动资产平均占用额

A8

总资产周转率

营业收入/总资产平均占用额

A9

固定资产周转率

营业收入/固定资产平均占用额

盈利能力指标

A10

资产报酬率

(利润总额+财务费用)/平均资产总额

A11

总资产净利润率

净利润/总资产平均余额

A12

投资收益

本期投资收益/(长期股权投资本期期末值 − 持有至到期投资本期期末值 + 交易性金融资产本期期末值 + 可供出售金融资产本期期末值 + 衍生金融资产本期期末值)

A13

流动资产净利润率

净利润/流动资产平均余额

A14

固定资产净利润率

净利润/固定资产平均余额

发展能力指标

A15

资本保值增值率

年末所有者权益总额/年初所有者权益总额

A16

资本累积率

所有者权益年增长额/年初所有者权益总额

A17

总资产增长率

总资产年增长额/年初资产总额

A18

每股净资产增长率

每股净资产年增长额/年初每股净资产额

现金流能力 指标

A19

营业收入含金量

经营活动产生的现金流量净额/营业总收入

A20

全部现金回收率

经营活动的现金流量净额/资产总额

非财务 预警指标

审计层面

B1

审计意见类型

虚拟变量,持保留意见为1,否则为0

内控层面

B2

内控是否存在缺陷

虚拟变量,存在缺陷为1,否则为0

Table 2. KMO and Bartlett sphericity tests

2. KMO和巴特利特球形度检验

检验

结果

KMO取样适切性量数

0.730

巴特利特球形度检验

上次读取的卡方

2426.075

自由度

190

显著性

0.000

4.2. 提取主成分

主成分的提取主要是依据特征值和累积贡献率来确定的,一般情况下,主成分的特征值均超过1,累积贡献率达到80%以上,才能称之为有效降维,能够较好地解释所有变量的绝大部分信息。运用python对100家样本企业的财务指标数据进行主成分分析,计算出的特征值和累积贡献率如表3所示,由表可以看出前7个主成分的特征值均大于1,且累积贡献率达到83.844%,主成分分析的结果比较理想,说明前7个主成分能够代替20个财务预警指标数据,对其进行总体概括。此外,展示特征根的变化趋势碎石图如图1所示,由图可以较为清晰地看出在横坐标为7的时候由陡峭变得相对平稳,意味着提取的主成分分析个数为7较为合适。故本文将选取前7个主成分进行后续研究。

Table 3. Table of total variance interpretation

3. 总方差解释表

成分

初始特征值

提取载荷平方和

旋转载荷平方和

总计

方差百分比

累积%

总计

方差百分比

累积%

总计

方差百分比

累积%

1

7.550

37.749

37.749

7.550

37.749

37.749

5.764

28.820

28.820

2

2.248

11.240

48.988

2.248

11.240

48.988

2.909

14.545

43.364

3

2.029

10.143

59.131

2.029

10.143

59.131

2.496

12.481

55.845

4

1.590

7.948

67.080

1.590

7.948

67.080

1.997

9.987

65.833

5

1.252

6.261

73.340

1.252

6.261

73.340

1.301

6.505

72.337

6

1.099

5.493

78.833

1.099

5.493

78.833

1.156

5.779

78.116

7

1.002

5.010

83.844

1.002

5.010

83.844

1.146

5.728

83.844

8

0.931

4.657

88.500

9

0.677

3.384

91.885

10

0.548

2.739

94.624

11

0.373

1.863

96.486

12

0.271

1.355

97.841

13

0.173

0.863

98.705

14

0.111

0.556

99.261

15

0.076

0.379

99.640

16

0.055

0.274

99.914

17

0.014

0.068

99.982

18

0.004

0.018

100.000

19

3.984E−6

1.992E−15

100.000

20

−9.467E−17

−4.733E−16

100.000

4.3. 主成分解释

利用最大方差正交旋转法对因子载荷矩阵进行转换,能够更为准确地解释各主成分因子的经济含义,主成分因子载荷越大,对相应指标的解释能力越强。旋转后的载荷矩阵如表4所示。

Figure 1. Gravel map

1. 碎石图

Table 4. The component matrix after the rotation

4. 旋转后的成分矩阵

成分

F1

F2

F3

F4

F5

F6

F7

A10

0.939

−0.025

0.135

0.021

−0.034

0.115

0.171

A11

0.938

−0.048

0.155

0.016

−0.023

0.102

0.175

A13

0.862

−0.170

0.134

−0.018

0.030

0.075

0.196

A17

0.791

−0.106

0.115

0.143

−0.140

−0.340

0.001

A16

0.764

−0.490

0.168

0.064

−0.106

−0.178

−0.158

A15

0.764

−0.490

0.168

0.064

−0.106

−0.178

−0.158

A14

0.762

0.079

0.142

0.079

0.032

0.225

−0.012

A18

0.743

−0.515

0.114

0.045

−0.056

−0.129

−0.098

A4

−0.139

0.944

−0.140

−0.026

−0.027

−0.047

−0.022

A5

−0.139

0.944

−0.140

−0.026

−0.027

−0.047

−0.022

A1

0.227

−0.127

0.945

−0.046

0.013

0.005

0.065

A2

0.208

−0.125

0.937

−0.058

0.020

0.013

0.094

A3

−0.335

0.504

−0.632

−0.021

0.052

−0.016

−0.138

A8

0.097

−0.082

0.007

0.959

0.048

−0.031

−0.044

A7

0.059

0.009

−0.119

0.932

−0.066

−0.022

0.076

A19

−0.221

0.123

0.069

−0.134

0.712

−0.055

−0.233

A6

0.051

−0.152

−0.157

0.018

0.686

−0.010

0.327

A9

0.027

0.014

0.177

0.380

0.503

−0.060

−0.303

A12

0.046

−0.049

0.025

−0.047

−0.085

0.930

−0.045

A20

0.134

0.011

0.218

0.012

−0.055

−0.054

0.832

由上表可知,F1与A10、A11、A13对应的载荷较高,且这三个指标均属于盈利能力指标,故F1为反映企业盈利能力的因子;F2与A3、A4、A5对应的载荷较高,且这三个指标均属于偿债能力指标,故F2为反映企业偿债能力的因子;F3与A1、A1对应的载荷较高,且这两个指标为偿债能力指标,故F3同样为反映企业偿债能力的因子;F4与A7、A8指标对应的载荷较高,且这两个指标均属于营运能力指标,故F4为反映企业营运能力的因子;F5与A6、A9、A19指标对应的载荷较高,且A6和A9属于营运能力指标,A19为现金流能力指标,故F5为反映企业营运能力和现金流能力的因子;F6与A12对应的载荷较高,且该指标为盈利能力指标,故F6为解释企业盈利能力的因子;F7与A20对应的载荷较高,且A20属于现金流能力指标,故F7为反映企业现金流能力的因子。

根据表5可列出各个主成分因子表达式,将样本企业的财务指标数据带入便可求得每一家样本企业的七个主成分因子的具体得分。主成分因子表达式如下:

F 1 =0.059A10.063A2+0.056A3+0.094A4+0.094A5+0.041A60.035A70.036A8+0.022A9       +0.213A10+0.209A11+0.017A12+0.181A13+0.194A14+0.116A15+0.116A16+0.156A17       +0.115A18+0.024A190.044A20

同理,可得出F2、F3、F4、F5、F6、F7的主成分因子表达式。

Table 5. The component score coefficient matrix

5. 成分得分系数矩阵

成分

F1

F2

F3

F4

F5

F6

F7

A1

−0.059

0.083

0.456

0.015

−0.011

−0.008

−0.039

A2

−0.063

0.078

0.450

0.010

−0.004

−0.003

−0.011

A3

0.056

0.124

−0.229

−0.024

0.038

−0.018

−0.073

A4

0.094

0.412

0.062

0.004

−0.029

−0.072

−0.055

A5

0.094

0.412

0.062

0.004

−0.029

−0.072

−0.055

A6

0.041

−0.106

−0.172

−0.023

0.580

0.011

0.367

A7

−0.035

0.013

−0.020

0.484

−0.076

0.035

0.102

A8

−0.036

−0.002

0.039

0.493

0.005

0.040

−0.010

A9

0.022

0.059

0.122

0.177

0.361

0.001

−0.258

A10

0.213

0.106

−0.048

−0.023

0.049

0.107

0.084

A11

0.209

0.098

−0.041

−0.026

0.057

0.096

0.088

A12

0.017

−0.041

−0.006

0.033

−0.031

0.819

−0.092

A13

0.181

0.028

−0.065

−0.046

0.096

0.074

0.125

A14

0.194

0.143

0.005

0.019

0.079

0.212

−0.082

A15

0.116

−0.100

−0.028

−0.024

−0.054

−0.126

−0.177

A16

0.116

−0.100

−0.028

−0.024

−0.054

−0.126

−0.177

A17

0.156

0.075

−0.018

0.018

−0.077

−0.283

−0.040

A18

0.115

−0.126

−0.068

−0.033

−0.007

−0.084

−0.113

A19

0.024

0.051

0.059

−0.089

0.540

−0.028

−0.176

A20

−0.044

0.001

0.027

0.034

0.002

−0.088

0.742

5. 建立Logistic财务危机预警模型

5.1. 财务指标Logistic模型构建

本文回归分析中的被解释变量为二分类型变量(ST或*ST企业和非ST企业),故应采用二元logistic回归模型进行分析,将主成分分析得出的7个主成分因子以及无法进行主成分分析的2个非财务预警指标作为自变量,因变量为企业类型Y,Y为虚拟变量,在构建回归模型时,假定Y = 1时,表示企业类型为ST或*ST企业,当Y = 0时,表示为该企业类型非ST企业。运用python对自变量与因变量进行二元logistic回归建模,根据回归结果便可得logistic回归方程。具体系数见表6

各自变量所对应的财务风险预警模型如下:

ln( p 1p )=0.3462.083 F 1 +0.847 F 2 +0.737 F 3 +0.281 F 4 +0.289 F 5 +0.223 F 6 0.524 F 7 +0.044 B 1 +0.129 B 2

Table 6. Variables in equation

6. 方程中的变量

常数项

F1

F2

F3

F4

F5

F6

F7

B1

B2

−0.346

−2.083

0.847

0.737

0.281

0.289

0.223

−0.524

0.044

0.129

5.2. 模型预测

通常情况下将P = 0.5作为企业是否发生财务风险的判别点。当P < 0.5时,认为企业具有较小可能发生财务风险,视为正常经营的企业,即非ST企业;当P > 0.5时,认为企业具有相对较大发生财务风险的可能性,视为非正常经营的企业,即ST或*ST企业。运用python进行二元logistic回归得出的80家建模样本的预测结果如表7所示。

Table 7. The results of the forecast

7. 建模样本预测结果

实测

预测

企业类型

准确率

非ST公司

ST或*ST公司

步骤1

企业类型

非ST公司

41

6

87.23%

ST或*ST公司

10

23

69.70%

总体准确率

78.47%

由上表可知,47家非ST企业中,41家被预测正确,有3家被误判为ST或*ST企业,对于非ST企业的预测正确率达到87.23%;33家ST或*ST企业中,23家被正确预测,10家企业被误判为非ST企业,其正确率达到69.70%,总体的预测正确率为78.47%,相比两种类型企业预测的准确性,虽然对ST企业的预测准确率低于非ST企业,但总体上达到了一个相对理想的预测效果,该模型具有一定的实用价值。

为再次验证模型的预测效果,本文通过python随机抽取的20家检验样本带入模型进行预测,预测结果如表8所示。

Table 8. Test the sample prediction results

8. 检验样本预测结果

实测

预测

企业类型

准确率

非ST公司

ST或*ST公司

步骤1

企业类型

非ST公司

9

3

81.82%

ST或*ST公司

1

7

87.5%

总体准确率

84.66%

从上表可以看出,对20家检验样本的非ST企业的预测准确率为81.82%,ST企业的预测准确率达到了87.5%,总体的预测准确率达到84.66%,对检验样本的预测取得理想效果。为进一步检测模型的预测能力,使模型的预测结果更具说服力。运用python分别计算出了模型的AUC值和KS值,用以评估该模型的拟合能力和预测效果。AUC是衡量模型分类性能的重要指标,可有效帮助判断模型的优劣,一般情况下,AUC值能、达到0.75以上以及可以接受,若能达到0.85以上,表示模型的训练效果较为理想,计算得出建模样本的AUC值为0.93,检验样本的AUC值为0.89,均超过0.85,说明模型的预测结果可信度较高。KS值是通过对预测值和实际观测值的累积分布函数进行比较得出,可以有效地衡量模型的准确性和稳定性,一般来说,KS值大于0.2便可以认为模型有效,本模型通过python计算得出的KS值为0.67远高于合格值0.2,说明该模型预测能力较强,预测结果稳定。

6. 结论

财务风险预警不仅仅是对企业财务状况进行监控和分析,更是提前识别并应对潜在风险的关键机制,因此,本文主要研究如何构建一个具有良好预测效果的企业财务风险预警模型。为尽可能全面地囊括对企业财务风险可能产生影响的因素,建立了包括20个财务指标和2个非财务指标的指标体系,并对20的财务指标数据进行主成分分析,选取出7个主成分因子作为自变量对20个财务指标进行替代,2个无法进行主成分分析的非财务指标单独作为自变量与7个主成分因子一起构成自变量,以企业类型为因变量利用python进行二元logistic回归分析,从而构建企业财务风险预警的模型,本文将选取100家样本数据利用python随机抽取划分为80家建模样本和20家检验样本,该模型对建模样本的预测准确率为78.47%,检验样本的预测准确率为84.66%,均取得了相对理想的预测结果,为进一步验证模型的预测能力,利用python计算模型的AUC值和KS值充分验证了模型预测结果的可靠性,该模型所表现出的较高的准确性和预测能力,具有一定的现实意义和参考价值。

参考文献

[1] Weaver, J.E. and Fitzpatrick, T.J. (1932) Ecology and Relative Importance of the Dominants of Tall-Grass Prairie. Botanical Gazette, 93, 113-150.
https://doi.org/10.1086/334244
[2] Ohlson, J.A. (1980) Financial Ratios and the Probabilistic Prediction of Bankruptcy. Journal of Accounting Research, 18, 109-131.
https://doi.org/10.2307/2490395
[3] Beckmann, D., Menkhoff, L. and Sawischlewski, K. (2006) Robust Lessons about Practical Early Warning Systems. Journal of Policy Modeling, 28, 163-193.
https://doi.org/10.1016/j.jpolmod.2005.10.002
[4] 周首华, 杨济华, 王平. 论财务危机的预警分析——F分数模式[J]. 会计研究, 1996(8): 8-11.
[5] 李月英. 我国农业上市公司财务危机预警研究[D]: [硕士学位论文]. 呼和浩特: 内蒙古农业大学, 2010.
[6] 盛小琪. 我国农业上市公司财务危机预警方法优化研究[D]: [硕士学位论文]. 上海: 上海工程技术大学, 2017.
[7] 田珅, 陈文熙. 房地产退市风险企业财务预警研究: 基于主成分分析与logistic模型对比[J]. 沈阳建筑大学学报(社会科学版), 2019(4): 376-381.
[8] 贺平, 兰伟, 丁月. 我国股票市场可以预测吗?——基于组合LASSO-logistic方法的视角[J]. 统计研究, 2021, 38(5): 82-96.
[9] 陈欣欣, 郭洪涛. 因子分析和Logistic回归在农业上市公司财务预警中的联合运用[J]. 数理统计与管理, 2022, 41(1): 11-24.