摘要: 本文使用Logistic模型对台湾客户是否违约支付建立预测模型,通过这个模型可以在银行给客户贷款时判断客户是否会违约。首先,由于数据中有23个变量,其中有些变量并不显著,遂采用最优子集的方法判断出模型最优的变量个数为8。再通过Forward Stepwise Selection方法选择出8个变量并对此建立Logistic模型。通过将数据分为训练集和测试集来得到模型的精准度:模型整体预测准确率为80.2%,总体精度还算可以,模型对客户不违约的预测还是非常准确,但对客户违约的预测非常不理想。同时,采用另一种可视化的方法衡量模型的优劣,即ROC曲线,计算出AUC的值为0.66。模型的结果优于我们随机猜测,具有预测价值。
Abstract:
In this paper, the Logistic model is used to establish a prediction model for the default payment of Taiwan customers. Through this model, the bank can judge whether the customer will default when lending to the customer. First of all, since there are 23 variables in the data, some of which are not significant, the optimal number of variables in the model is judged to be 8 by the optimal subset method. Then the Forward Stepwise Selection method selects 8 variables and establishes the Logistic model. The accuracy of the model was obtained by dividing the data into training set and test set: the overall prediction accuracy of the model was 80.2%, and the overall accuracy was reasonable. The prediction of non-default by the model was still very accurate, but the prediction of default by the customer was very unsatisfactory. At the same time, another visual method was used to measure the merits of the model, namely the ROC curve, and the value of AUC was calculated as 0.66. The results of the model are better than our random guesses and have predictive value.
1. 引言
美东时间3月8日,美国Silicon Valley Bank (硅谷银行)因资不抵债遭金融监管部门关闭。事实上,在硅谷银行遭到接管的48小时以后,位于纽约的Signature Bank同样遭到了关闭与政府接管。硅谷银行的倒闭,是美国历史上第二大银行倒闭案,仅次于在2008年金融危机中倒闭的Washington Mutual (华盛顿互助银行)。3月10日,美国银行业动荡,风波也在向美国以外的国家传导,英国和韩国正在密切关注风波影响 [1] 。
如此大范围的影响不禁让人联想到2008年的由雷曼兄弟破产而引发的全球金融危机。银行为了消化过剩产能,向人们发放大量贷款拉动内需,刺激消费。此次房贷包括了巨额次级贷 [2] 。次级贷,指的是次级抵押贷款(subprime mortgage loan)。次级抵押贷款的受贷人一般信用等级比较低,信贷记录差,因而违约风险大 [3] 。随着楼市降温,短期利率上升,次贷还款利率也大幅上升,这部分购房者的还贷压力随之陡增。2006年夏,美国媒体上关于次贷购房者违约的报道多了起来,越来越多的人还不起房贷,被银行扫地出门。银行虽然收回房子,但却卖不出高价,因而面临大面积亏损,次贷危机爆发。
胡冰在次贷危机对我国商业银行的启发中阐述了次级贷危机爆发的根源,其中就有宽松的贷款条件积累了大量的信用风险 [4] 。任重在美国次级贷危机的成因分析中提出要对个人住房贷款坚持严格的审查标准,防止无偿还能力的低收入者任意进入房屋抵押贷款市场 [3] 。
如今,银行会对贷款客户的财务指标进行量化分析,计算出该客户的初始违约概率并对其划分一个初始信用等级,然后根据信用等级将客户归于某一类债务人,并根据一组具有相同风险特征的债务人的历史违约记录确定客户的最终违约概率。这样得到的最终违约概率既考虑了客户的财务数据又考虑了客户的历史违约情况,提高了银行测算公司类客户贷款是否违约的准确度 [5] 。
2. 研究设计
数据来源于UCI Machine Learning Repository:Data Sets数据库网页中default of credit card clients Data Set。此数据集的内容是针对台湾客户的违约支付,共有3000个数据,其中有23个变量为解释变量,Y是二分类变量:违约支付(是 = 1,否 = 0)作为响应变量。本文采用R软件对数据集进行分析。
我们想要了解银行贷款的客户是否可以信赖,能否按时还上贷款,数据中已有的二分类变量作为响应变量,故采用二元Logistics回归模型进行分类。以便银行在给客户贷款时可以将客户数据输入模型中可以得到客户是否会违约,在一定程度上可以有效避免次级贷危机的出现。
Logistics模型的基本形式如为:
模型中,
表示判断客户是否违约的第i个变量,k为变量个数,
为截距项,
为
的系数,反应该变量对客户违约的程度,通常用极大似然估计法求得。客户违约的概率与客户不违约的概率比值为事件发生比
[6] 。我们选择的变量内容见表1。
3. 研究结论
3.1. 模型应用
本研究首先将运用R软件对台湾客户的违约支付的23个变量进行二元logistic回归分析,其中我们发现有些变量并不显著,希望能够减少变量个数,选择出较为显著的变量进行二元logistic回归分析。
最优子集法能使模型更简洁、更有效地筛选出影响客户违约的因素,根据这些选择出的变量个数能为银行提供更有效的指导 [7] 。于是采用最优子集方法进行变量最优个数的选择,根据调整后
越大越好,Cp和BIC越小越好的原则选择个数。
最优子集选择变量的个数与调整后
、Cp和BIC的关系见图1。
在R软件中,我们画出上图,图中的红点是当变量数为13时,调整后
、Cp和BIC的值。绿点是变量数为8时,红点是变量数为4时。结合图中点的位置综合考虑,我们将变量数选择为8个变量。再通过Forward Stepwise Selection方法选择出变量
、
、
、
、
、
、
、
。再通过这8个变量进行二元logistic回归方程,得到表2。

Table 2. Logistic regression equation
表2. Logistic回归方程
从表2我们可以得到各变量的系数和常数项,同时发现婚姻情况和常数项非常显著,过去付款历史是否按时还款、延期几个月和最近两期的支付金额在模型中是非常重要的变量,这有助于银行在贷款时着重考虑这几个变量去衡量这个客户能否每月按时还款。
3.2. Logistic回归模型的预测精度
本文通过将数据集划分为训练集(2500个数据)和测试集(500个数据)。通过训练集中的8个变量对模型重新建模,将得到的模型在测试集中进行预测,就得到表3 Confusing matrix。不用原模型预测是因为用该数据建模再对同样的数据进行预测会使模型的预测精度高于模型的真实预测精度。
我们发现:
1) 模型对客户不违约的预测是非常准的(384/(384 + 7) = 0.982);
2) 模型对客户违约的预测非常不理想(17/(92 + 17) = 0.156);
3) 模型的整体预测准确率为0.802((384 + 17)/(384 + 7 + 92 + 17)),预测精度还可以。
模型对客户不违约的预测精准,而对客户违约预测非常差,我认为可能原因是模型对非平衡数据非常敏感,即构建模型的训练集中客户不违约的个数为2332,违约个数为668,两者相差非常大。
通过对模型的预测精度进行验证,也说明了模型的整体预测能力比较理想。接下来我们通过另一种可视化的方法衡量模型的优劣,即ROC曲线(图2),该曲线可以在出现类不平衡现象中基本保持原貌。这里的AUC为ROC曲线和y = 0直线之间的面积,得到AUC = 0.66,模型的结果优于我们随机猜测,具有预测价值。
4. 总结
近日,硅谷银行的倒闭,是美国历史上第二大银行倒闭案,仅次于在2008年金融危机中倒闭的Washington Mutual (华盛顿互助银行),这不禁让我们想起08年的全球金融危机。正是因为银行没有考虑贷款客户的信贷记录以及还款情况,大量发放次级贷拉动内需。最后次贷违约的人越来越多,面临大面积亏损,导致全球金融危机爆发。如今,银行需要对个人住房贷款坚持严格的审查标准,防止次级贷危机的产生。
本文通过对default of credit card clients Data Set数据集进行分析并建立二元Logistics回归模型,银行可以通过模型得到客户是否违约的情况,能更好的帮助银行对个人住房贷款进行审查,从一定程度上可以有效避免次级贷危机的发生。由于数据中有23个变量,我们发现有一些变量并不显著。于是,想要通过最优子集方法综合考虑,最终选择建立模型的变量个数为8个。再采用Forward Stepwise Selection方法选择出变量
、
、
、
、
、
、
、
,使用这8个变量建立二元Logistics回归模型,得到各变量的系数和常数项,同时注意到婚姻情况和常数项非常显著,过去付款历史是否按时还款、延期几个月和最近两期的支付金额在模型中是非常重要的变量。
由于数据集中有3000个数据,本文再将数据分为训练集(2500个)和测试集(500个)来得到模型的预测精准度:模型对客户不违约的预测还是非常准确,精度可以达到98.2%,但对客户违约的预测非常不理想,精度仅有15.6%。模型整体预测准确率为0.802,总体来说还算不错。通过另一种可视化的方法衡量模型的优劣,即ROC曲线,计算出AUC的值为0.66。模型的结果优于我们随机猜测,具有预测价值。