1. 引言
随着全球经济的不断发展和金融市场的日益复杂,金融上市公司在经济体系中占据着至关重要的地位。然而,金融行业面临着诸多风险和不确定性,财务困境的出现可能对公司自身、投资者、金融系统乃至整个经济社会产生重大影响。
在这种情况下,建立有效的财务预警系统对于金融上市公司及其利益相关者具有重要意义。一方面,公司管理层需要及时察觉潜在的财务危机信号,以便采取针对性措施加以应对,避免陷入严重困境。另一方面,投资者也渴望准确评估金融上市公司的财务健康状况,做出明智的投资决策。传统的财务预警方法存在一定局限性,如变量过多、信息重叠等。PCA分析可以有效对多维变量进行降维处理,提取关键信息,而Logistic模型则具有较强的分类和预测能力。将两者结合应用于金融上市公司的财务预警分析,能够更准确、高效地识别财务风险的早期迹象,为各方提供更有价值的参考。
同时,当前金融环境的动态变化以及新的金融业务和风险的不断涌现,也对财务预警分析提出了更高的要求。目前Logistic模型在财务预警的应用很多,但将其应用到金融行业上市公司的研究相对比较少,结合PCA和Logistic模型的研究也不是很多,因此,本文建立一个适用于我国金融上市公司的财务预警模型,深入研究基于PCA分析和Logistic模型的金融上市公司财务预警,并通过聚类分析对上市公司进行分类,完善金融业上市公司财务预警的相关研究,有助于提升上市公司财务预警的准确性和及时性,更好地适应金融市场的发展需求。
2. 文献综述
财务预警一直是企业管理与研究中的重要领域,随着时间的推移与技术的发展,相关研究不断深入且方法日益多样。研究者们开始探索新的方法,其中包括多变量财务比率方法、基于PCA分析的降维技术以及基于机器学习的方法。这些新的方法不仅在预测的准确性上有所提升,而且在处理大量财务数据和复杂关系时也表现出了更好的效果。
2.1. 财务比率方法
早期的财务预警研究主要集中在传统的财务比率方法上,如债务比率、流动比率、盈利能力比率等。Fitzpatrick (1932)首次采用单变量财务比率来预测财务危机,这个方法虽然简单易行,但可能忽视了一些重要的非线性关系和数据间的复杂交互作用[1]。而现今用的是多变量财务比率方法,是指通过构建多个财务比率的组合模型来提高预警准确性。其中,Z-score模型等具有代表性。Altman (1968)是最早使用多变量来预测企业财务预警的人,该模型通过选取一系列财务指标,运用多元线性回归等方法构建模型,能够较为准确地预测企业是否面临财务困境或破产风险[2]。赵瑞(2008)采用了单变量和多变量方法进行财务预警模型分析,发现Z分数模型具有更大的实用价值[3]。张炯(2017)认为Z模型更简单易懂,因此基于Z-Score模型对我国林业上市公司财务危机进行分析[4]。马东俊等(2023)对Z评分模型进行了修正,并对适用我国房地产上市公司的财务风险预警进行了研究。修正后的临界值预测准确率达到91.43%,提高了公司财务风险预警的能力[5]。
2.2. 基于PCA分析的降维技术
通过PCA分析,研究者们可以提取出最具代表性的财务指标,从而简化模型并提高预测准确性。研究表明,两者的结合能有效提高财务预警的准确性。钟琴(2023)在Z值多元模型的基础上采用主成分分析建立综合评价指标,通过降维将多个相关财务指标转化为少数几个综合指标,简化分析过程[6]。张爱民等(2001)利用PCA来提取关键财务信息,提高预警模型的准确性和解释力[7]。将PCA处理后的数据应用于Logistic模型,可以进一步提升模型性能。白加丽(2022)和王俊鹏(2022)都结合了主成分分析法和Logistic回归方法分别建立了属于电力行业的财务预警模型和林业上市公司财务预警模型,经检验准确率都达80%以上[8] [9]。
2.3. 基于机器学习的方法
近年来,随着机器学习技术的发展,越来越多的研究开始采用机器学习方法来进行财务预警分析。李星辰(2020)分别采用机器学习中的逻辑斯蒂回归、支持向量机、决策树模型对因子数据进行训练,结果表示三种模型均有较好的预测能力[10];另外,Logistic回归模型是一种常见的选择,它能够有效地处理分类问题。朱永忠等(2012)运用Logistic回归模型,能够较好地拟合财务危机与非财务危机状态,模型对训练样本的分类准确率达到了95.7% [11]。康雨舟(2018)用Logistic回归模型对制造业上市公司财务状况进行预警,总体准确率达到95.2%,预测结果较好[12]。
3. 相关理论和模型介绍
3.1. 主成分分析思想
主成分分析是一种降维算法,它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息。假如我们的数据集是n维的,共有m个数据。我们希望将这m个数据的维度从n维降到k维,希望这m个k维的数据集尽可能的代表原始数据集。我们知道数据从n维降到k维肯定会有损失,但是我们希望损失尽可能的小。
主成分分析的计算步骤:
假设有n个样本,P个指标,则可以构成大小为n*p的样本矩阵X:
然后计算X矩阵的样本相关系数矩阵:
计算R的特征值和特征向量:
特征值:
(R是正定矩阵,且
)。
特征向量:
。
计算主成分贡献率以及累计贡献率:
,
写出主成分:一般提取累计贡献率超过80%的特征值所对应的第一、第二、……、第n (n < p)个主成分,第i个主成分:
根据系数分析主成分代表的意义:对于某个主成分而言,指标前面的系数越大,代表该指标对于该主成分的影响越大。
3.2. Logistic回归模型
逻辑回归是机器学习中最常见的一种用于二分类的算法模型,它与普通的线性回归模型不同的是,Logistic模型输出的是概率值而不是实数值。因此它可以用来预测某种情况发生的概率,以及判断某种情况的概率有多大,其实质是将数据拟合到Logistic模型中,从而预测事件发生的可能性。由于其数学原理简单易懂,作用高效,其实际应用非常广泛。
Logistic模型有两个假设,第一个是数据具有线性可分性,即可以通过一个超平面将两个不同的类别分开。第二个是数据服从伯努利分布,即每个样本的标签属于两个可能的类别之一。Logistic模型的目标是通过学习一组参数,使得给定输入样本的条件概率能够最好地预测其所属的类别。
其表达式为
;
经过logit变换,
。
在线性模型中,β解释为,其他变量保持不变时,x每增加⼀个单位,y增加β个单位所以在Logistic回归中,β解释为,其他变量保持不变时,x每增加一个单位,ln(p/1 − p)增加β个单位。
Logistic回归就是基于线性回归的分类预测模型,它可以预测⾃变量与分类因变量之间的关系。经典的Logistic是基于线性回归的二分类,也可以解决多分类问题和有序分类问题。
4. 研究设计
4.1. 财务预警指标选择
一个企业财务状况的好坏取决于企业的偿债能力,盈利能力,营运能力,发展能力,现金流量能力,因此,一个全面合理的财务预警体系,要涵盖偿债能力,赢利能力,营运能力,发展能力,现金流量能力等方面的财务比率指标。
在指标选取方面,国内外大量的财务预警研究为指标的选取提供了参考,在以往研究中,出现率较高的相关财务比率具有一定的合理性,同时也经过了实践检验,目前大多文献采用多财务比率指标进行建立财务预警体系,Altman选取息税前利润/资产总额、营运资本/资产总额、销售收入/资产总额、留存收益/资产总额、股权市价总值/负债的账面价值5个指标来预测财务危机[2];宋晓娜选择偿债能力、营运能力、发展能力、盈利能力和获取现金能力5个方面的22个财务指标作为财务危机预警指标体系构成要素[13]。因此,本文借鉴国内外文献,以及借鉴国泰安数据库中上市公司财务指标数据的指标分类,选取了每股指标,盈利能力,偿债能力,发展能力,经营能力这五个方面的22个具体指标,每股指标能直观反映出每股股票所蕴含的价值和收益情况;盈利能力是企业生存和发展的关键,直接关系到企业的财务稳定性;偿债能力关乎企业的资金安全和信用状况,是财务预警的重要方面;发展能力体现企业的成长潜力和未来前景,对企业的长期财务稳定至关重要;经营能力反映企业对资产的管理和运营效率。通过综合考量这些指标,可以构建起一个较为全面且系统的财务预警体系,及时捕捉企业财务状况的变化和潜在风险。具体指标见表1。
Table 1. Name of financial indicator
表1. 财务指标名称
财务指标类别 |
变量名 |
指标名称 |
公式 |
每股指标 |
X1 |
每股净资产 |
股东权益总额/股本总股数 |
X2 |
每股营业总收入 |
营业总收入/股本总股数 |
X3 |
每股营业利润 |
(净利润 − 营业净收入)/股本总股数 |
X4 |
每股未分配利润 |
未分配利润总额/股本总股数 |
X5 |
每股收益 |
净利润/股本总股数 |
盈利能力指标 |
X6 |
营业净利率 |
净利润/营业收入 |
X7 |
净资产收益率 |
税后利润/净资产 |
X8 |
总资产净利率 |
净利润/平均资产总额 |
X9 |
销售净利率 |
净利润/销售收入 |
X10 |
营业利润率 |
营业利润/营业收入 |
偿债能力指标 |
X11 |
产权比率 |
负债总额/股东权益 |
X12 |
股东权益负债率 |
股东权益总额/负债总额 |
X13 |
资产负债率 |
负债总额/资产总额 |
发展能力指标 |
X14 |
每股收益增长率 |
(本期每股收益 − 上期每股收益)/上期每股收益 |
X15 |
营业利润增长率 |
(本年营业利润 − 上年营业利润)/上年营业利润 |
X16 |
营业收入增长率 |
(本年营业收入 − 上年营业收入)/上年营业收入 |
X17 |
净利润增长率 |
(本年净利润 − 上年净利润)/上年净利润 |
X18 |
净资产增长率 |
(期末净资产 − 期初净资产)/期初净资产 |
X19 |
总资产增长率 |
(年末资产总额 − 年初资产总额)/年初资产总额 |
经营能力指标 |
X20 |
股东权益周转率 |
销售收入/平均股东权益 |
X21 |
总资产周转率 |
营业收入净额/平均资产总额 |
4.2. 样本选择
本文根据证监会2023年上半年上市公司行业分类标准,选取2022年和2023年的数据为研究样本,本文样本数据均来源于锐思数据库。另外,在金融业A股上市公司剔除数据缺失较多的公司,大部分文章选取的是ST公司和非ST公司作为财务危机和财务正常样本,由于ST公司较少,样本数据不足,因此本文采用李怡雯(2022)等界定上市公司是否处于财务危机的分类方法,将具有相似指标特征的公司归为一类,有助于发现处于不同财务状况的群体,从而界定哪些公司可能处于财务危机状态[14]。本文采用公司2023年的净资产收益率,营业收入增长率,净利润增长率这三个指标对金融上市公司进行聚类分析,并剔除了ST公司,最后有85家金融上市公司,采用穷举法得出最佳聚类数为5。聚类分析结果见表2。
从聚类结果来看,类别2和类别3的个数较多,属于正常类别,类别1、类别4、类别5的个数分别为1、1、4,个数很少,属于异常类别。另外,类别2的净资产收益率、营业收入增长率,利润增长率这三个指标都为正值,将类别2视为财务正常的公司;而类别3的营业收入增长率和净利润增长率为负值,营业收入增长率为负值表明公司的业务规模可能在收缩,意味着公司在市场开拓、产品或服务销售方面遇到了较大阻碍,净利润增长率为负值说明公司的盈利能力在下降,不仅难以实现利润的增长,甚至出现亏损的趋势。这两个关键的增长指标同时为负,反映出公司的经营和盈利状况同时出现恶化,这种双方面的负面表现往往是财务危机的重要前兆。因此将类别3视为财务危机的公司。
在类别2和类别3随机选取24家财务正常的公司和15家财务危机的公司作为建模组,剩下的财务正常的25家公司和财务危机的15家公司作为检验组。
Table 2. Results of cluster analysis
表2. 聚类分析结果
类别 |
频数 |
净资产收益率 |
营业收入增长率 |
净利润增长率 |
百分比% |
1 |
1 |
−0.14160 |
0.27122 |
−5.99655 |
1.118 |
2 |
46 |
1.15922 |
0.57097 |
0.36218 |
54.118 |
3 |
33 |
0.06965 |
−0.73351 |
−0.09916 |
38.824 |
4 |
1 |
0.10320 |
4.34276 |
2.43977 |
1.118 |
5 |
4 |
−0.11539 |
−1.66850 |
−2.56111 |
4.706 |
为了确定哪些财务指标对于区分正常公司和可能面临财务危机的公司具有显著的差异和判别能力,因此对财务指标进行显著性检验,这有助于筛选出最具代表性和相关性的指标,避免纳入一些对财务预警作用不大的指标,从而提高预警模型的准确性和有效性。
首先用K-S方法对财务指标进行正态性检验,符合正态分布,则计算T值,不符合正态分布,则进行非参数检验,并进行显著性判断。利用SPSS进行正态分布检验,21个指标的显著性水平都接近0,不符合正态分布。则对这21个指标进行非参数检验,检验结果见表3,可以看出在10%的显著性水平下,每股营业总收入、每股未分配利润、净资产收益率、总资产净利率、产权比率、股东权益负债率、资产负债率、净资产增长率、股东权益周转率、总资产周转率这10个指标通过了检验。则用这10个指标作为Logistic回归模型的自变量。
5. 实证分析
5.1. KMO检验
KMO检验是一种用于评估变量间相关性和偏相关性的指标其结果可用于确定是否适合进行主成分分析,KMO值越接近1,说明变量间的相关性越强,一般认为KMO值大于0.5能够进行主成分分析,sig也即显著性一般小于0.05较为适宜。利用python进行检验,结果见表4所示:可得KMO值为0.566,显著性为0.00,说明适合进行主成分分析。
Table 3. Results of non-parametric tests
表3. 非参数检验结果
指标名称 |
独立样本非参数检验 |
每股净资产 |
0.633 |
每股营业总收入 |
0.007 |
每股营业利润 |
0.161 |
每股未分配利润 |
0.087 |
每股收益 |
0.122 |
营业净利率 |
0.781 |
净资产收益率 |
0.02 |
总资产净利率 |
0.001 |
销售净利率 |
0.874 |
营业利润率 |
0.253 |
产权比率 |
0.000 |
股东权益负债率 |
0.000 |
资产负债率 |
0.000 |
每股收益增长率 |
0.521 |
营业利润增长率 |
0.297 |
营业收入增长率 |
0.781 |
净利润增长率 |
0.551 |
净资产增长率 |
0.001 |
总资产增长率 |
0.306 |
股东权益周转率 |
0.003 |
总资产周转率 |
0.05 |
Table 4. Results of KMO test
表4. KMO检验结果
KMO和巴特利特检验 |
KMO取样适切性量数 |
0.566 |
巴特利特球形度检验 |
近似卡方 |
716.730 |
自由度 |
45 |
显著性 |
0.000 |
5.2. 提取主成分
通过主成分分析提取特征值,一般提取特征值大于1的主成分,见表5可得,前三个主成分的特征值大于1,累计贡献率达到77.22%,说明它们能较大程度地涵盖原始数据的重要信息,能够有效反映金融上市公司财务的关键方面,见碎石图(图1)可得,前三个主成分的特征值较大,能够解释大部分的方差,因此,本文通过提取前三个主成分进行后续研究。
Table 5. Explanatory table for total variance
表5. 总方差解释表
总方差解释 |
成分 |
初始特征值 |
提取载荷平方和 |
旋转载荷平方和 |
总计 |
方差
百分比 |
累积% |
总计 |
方差
百分比 |
累积% |
总计 |
方差
百分比 |
累积% |
1 |
3.730 |
37.303 |
37.303 |
3.730 |
37.303 |
37.303 |
3.567 |
35.674 |
35.674 |
2 |
2.246 |
22.462 |
59.765 |
2.246 |
22.462 |
59.765 |
2.283 |
22.826 |
58.500 |
3 |
1.746 |
17.458 |
77.223 |
1.746 |
17.458 |
77.223 |
1.872 |
18.723 |
77.223 |
4 |
0.978 |
9.776 |
86.999 |
|
|
|
|
|
|
5 |
0.550 |
5.505 |
92.504 |
|
|
|
|
|
|
6 |
0.402 |
4.024 |
96.527 |
|
|
|
|
|
|
7 |
0.193 |
1.933 |
98.460 |
|
|
|
|
|
|
8 |
0.081 |
0.814 |
99.275 |
|
|
|
|
|
|
9 |
0.046 |
0.460 |
99.735 |
|
|
|
|
|
|
10 |
0.027 |
0.265 |
100.000 |
|
|
|
|
|
|
Figure 1. Gravel diagram
图1. 碎石图
根据前面内容,我们成功地提取出了三个特征值大于1的主成分,研究发现,这三个主成分具有显著的特征和意义。见表6载荷矩阵,在主成分1当中,产权比率(X11)和资产负债率(X13)的负荷量比较大,这两个指标主要代表了企业的偿债能力,意味着主成分1在衡量企业偿债情况起到了重要作用。在主成分2中,每股营业总收入(X2),每股未分配利润(X4),股东权益周转率(X20)的负荷量比较大,它们主要代表企业的每股指标和经营能力指标。在主成分3中,净资产收益率(X7),总资产净利率(X8)以及净资产周转率(X18)负荷量比较大,代表企业的盈利能力和发展能力,净资产收益率和总资产净利率是衡量企业盈利能力的关键指标,能直观地反映企业获取利润的能力,而净资产周转率则在一定程度上反映了企业资产的运营效率和发展活力。
Table 6. Rotational load matrix
表6. 旋转载荷矩阵
旋转载荷矩阵 |
|
元件 |
1 |
2 |
3 |
X2每股营业总收入 |
0.365 |
0.812 |
−0.206 |
X4每股未分配利润 |
0.518 |
0.625 |
0.016 |
X7净资产收益率 |
0.211 |
0.404 |
0.8 |
X8总资产净利率 |
−0.688 |
0.306 |
0.611 |
X11产权比率 |
0.83 |
−0.012 |
0.163 |
X12股东权益负债率 |
−0.861 |
0.123 |
0.189 |
X13资产负债率 |
0.956 |
−0.05 |
0.027 |
X18净资产增长率 |
0.336 |
−0.008 |
0.688 |
X20股东权益周转率 |
0.028 |
0.758 |
−0.356 |
X21总资产周转率 |
−0.595 |
0.589 |
−0.166 |
见表7成分得分系数矩阵,用F1,F2,F3表示这三个主成分,从而可得各主成分的表达式,表达式如下:
F1 = − 0.18878639X2 − 0.26819231X4 − 0.1091934X7 + 0.35623262X8 − 0.42959111X11 + 0.445745X12 − 0.49494517X13 − 0.17395555X18 − 0.01456341X20 + 0.30810263X21
F2 = 0.54155688X2 + 0.41729525X4 + 0.26970284X7 + 0.20434702X8 − 0.00784832X11 + 0.08174547X12 − 0.03305592X13 − 0.00545005X18 + 0.50580487X20 + 0.39291044X21
F3 = 0.15625368X2 − 0.01242136X4 − 0.60561362X7 − 0.46208848X8 − 0.12306645X11− 0.14298264X12 − 0.02065046X13 − 0.52043416X18 + 0.26926931X20 + 0.12555231X21
Table 7. Matrix of component score coefficients
表7. 成分得分系数矩阵
成分得分系数矩阵 |
|
成分 |
1 |
2 |
3 |
X2每股营业总收入 |
0.188786 |
0.541557 |
−0.15625 |
X4每股未分配利润 |
0.268192 |
0.417295 |
0.012421 |
X7净资产收益率 |
0.109193 |
0.269703 |
0.605614 |
X8总资产净利率 |
−0.35623 |
0.204347 |
0.462088 |
X11产权比率 |
0.429591 |
−0.00785 |
0.123066 |
X12股东权益负债率 |
−0.44575 |
0.081745 |
0.142983 |
X13资产负债率 |
0.494945 |
−0.03306 |
0.02065 |
X18净资产增长率 |
0.173956 |
−0.00545 |
0.520434 |
X20股东权益周转率 |
0.014563 |
0.505805 |
−0.26927 |
X21总资产周转率 |
−0.3081 |
0.39291 |
−0.12555 |
5.3. 模型检验
5.3.1. 模型的构建
将2021年金融上市公司财务数据F1、F2和F3的得分系数作为模型的自变量,因变量为虚拟变量,Y = 0时,代表为财务正常公司,Y = 1时,代表为财务危机公司。利用python对因变量和自变量进行二元Logistic回归建模。得出常数项k0为−0.5152379,F1,F2,F3的系数分别为0.48971588,−0.9835242,0.54942967。
从而可以建立Logistic回归财务预警模型:
5.3.2. 模型的检验
在基于PCA分析和Logistic模型的金融上市公司财务预警分析中,Logistic模型的检验是非常重要的一步,可以判断观测值与模型预测值之间的一致性。运用上面Logistic回归财务预警模型对79家金融上市公司的数据进行检验,对随机抽取的建模组和检验组进行预测。
建模组预测结果见表8所示,建模组样本一共39家,财务正常的公司有24家,财务危机的公司有15家,从预测结果来看,在24家财务正常的公司,有20家预测准确,4家预测失误,准确率为83.33%;在15家财务危机的公司中,9家被预测准确,6家预测失误,准确率为60%,总体准确率为71.67%。
Table 8. Predicted results of modelled samples
表8. 建模样本预测结果
检验样本预测结果 |
观测值 |
预测值 |
准确率 |
公司类型 |
|
0 (财务正常) |
1 (财务危机) |
步骤1 |
公司类型 |
0 (财务正常) |
21 |
4 |
84% |
1 (财务危机) |
3 |
12 |
80% |
总精度 |
|
|
|
82% |
检验组预测结果见表9所示,检验组样本一共40家,财务正常的公司有25家,财务危机的公司有15家,从预测结果来看,25家财务正常的公司,有20家预测准确,4家预测失误,准确率为84%;在15家财务危机的公司中,12家被预测准确,3家预测失误,准确率为80%,总体准确率为82%,高于建模组。
Table 9. Test sample prediction results
表9. 检验样本预测结果
建模样本预测结果 |
观测值 |
预测值 |
准确率 |
公司类型 |
|
0 (财务正常) |
1 (财务危机) |
步骤1 |
公司类型 |
0 (财务正常) |
20 |
4 |
83.33% |
1 (财务危机) |
6 |
9 |
60% |
总精度 |
|
|
|
71.67% |
根据以上结果综合来看,该模型在预测财务正常公司方面表现尚可,但在财务危机公司的预测上有待进一步提高。同时,检验组的结果较为乐观,显示模型具有一定的应用潜力,但还需要进一步优化和完善,以提高对财务危机公司预测的准确性,从而更好地为相关决策提供依据。
6. 结论及对策建议
6.1. 结论
本研究基于PCA分析和Logistic模型对金融上市公司财务预警进行了深入分析。首先运用聚类分析对金融业上市公司进行分类,能够揭示数据中的分类结构和自然分组,有效地检测出一些异常数据。结果表明该方法具有一定的有效性,能够在一定程度上对公司的财务状况进行区分和预测,能够较为准确地将公司划分为财务正常和财务困境两类。
另外,通过进行主成分分析,有效降低了上市公司财务指标数据的维度,简化分析的复杂性,通过提取特征值大于1的主成分有效地减少了数据处理量和计算负担,提高了预警模型构建和运行的效率。
通过建立Logistic回归模型可以帮助金融业上市公司及时发现潜在的财务危机信号,以便尽早采取应对措施。然而,研究过程也凸显出一些局限性,如对财务危机公司预测准确率有待提升,模型在不同情境下的稳定性和适应性还有待进一步检验。该模型使金融业上市公司能够根据财务状况及时采取措施应对,通过建立财务危机预警模型,及时防范财务风险。
6.2. 对策建议
金融业上市公司应当加强财务监测与管理。定期审计和检查财务数据,以便及时反映公司最新的财务数据和及时发现异常情况并采取必要的纠正措施。
依据模型预警结果,建立分层级的风险应对机制,针对不同程度的财务风险制定差异化的应对策略。并设立专门的风险监控部门,实时跟踪和评估财务预警情况,及时调整策略。
持续对PCA分析和Logistic模型进行优化,不断纳入新的变量和因素,提高模型的准确性和适应性。积极探索和引入其他先进的分析模型和技术,与现有模型进行融合和互补。