P2P网络借贷违约风险预测模型实证研究

doi:10.12677/FIN.2022.124036

期刊菜单

P2P网络借贷违约风险预测模型实证研究
Empirical Research on Default Risk Prediction Model of P2P Network Lending

DOI: 10.12677/FIN.2022.124036, PDF, HTML, XML, 科研立项经费支持
作者: 陈思年：云南财经大学统计与数学学院，云南昆明；邓家奇, 王玭：西华师范大学数学与信息学院，四川南充
关键词: P2P网络借贷；风险预测；个人信用；机器学习；随机森林；P2P Network Lending； Risk Prediction； Personal Credit； Machine Learning； Random Forest

摘要: 本文的实证研究数据来自Kaggle网站的比赛数据，该数据集爬取自某上市公司的用户信息，主要包含了6万多个借贷人的情况及贷款状态(是否违约)。本文依次基于传统的logistic回归模型、贝叶斯决策树、支持向量机和随机森林算法构建违约预测模型。按照文章中构建的评估指标来进行比较，得到随机森林模型的预测效果最佳。结果表明，本文选出的影响客户信用好坏的特征和风险预测模型有解释性，可以通过随机森林模型来预测客户的违约风险，有利于P2P网贷的发展同时也极大地为借贷公司减小损失。

Abstract: The empirical research data of this paper is from the contest data of Kaggle website. The data set is extracted from the user information of a listed company, mainly including the situation and loan status (default or not) of more than 60,000 borrowers. This paper constructs default prediction model based on traditional Logistic regression model, Bayesian decision tree, support vector machine and random forest algorithm successively. According to the evaluation indexes constructed in this paper, the prediction effect of random forest model is the best. The results show that the characteristics and risk prediction models selected in this paper are explanatory, and the default risk of customers can be predicted through the random forest model, which is conducive to the develop-ment of P2P lending network and greatly reduces the loss of lending companies.

文章引用：陈思年, 邓家奇, 王玭. P2P网络借贷违约风险预测模型实证研究[J]. 金融, 2022, 12(4): 363-370. https://doi.org/10.12677/FIN.2022.124036

1. 引言

P2P (Peer To Peer)网贷模式 [1] [2] [3] 自出现在人们的视野后就成为了金融行业的焦点，围绕此模式衍生出的平台也渐渐浮出市场，加之我国科学技术和经济社会的高速发展，使得P2P网贷的发展更为安稳。本文将某公司作为研究对象，构建适用的P2P平台风险评估模型，主要选取了传统的logistic回归模型、贝叶斯决策树、支持向量机和随机森林算法，以便于为平台提供具有参考价值高的数据，更好的判断客户的借贷行为是否可靠，将公司的损失降到最低。

2. 文献综述

在美国等西方国家，个人信用评价体系已比较成熟。尤其以美国为例，它作为世界上信贷消费最高的国家，开创了信用评价的先河。正是因为美国倡导先消费、后还款的生活理念，美国人的一生都将伴随着信用交易，这些信用记录贯穿在他们生活的方方面面，包括申请贷款、就业、购置保险、交通出行等。

David Durand是个人信用体系构建史上第一个认识到能将所学的数学公式等方法应用在信用评价上的学者，他首次使用线性判别来判断消费贷款以及个人信用的好坏，他成功地拉开数学方法应用在个人信用评价的序幕 [4]。紧接着1941年较为完善的信用评价模型Z-score模型被Altman建立，同时也奠定了他在企业信用研究方面的地位 [5]。1977年，Altman、Haldeman和Narayanan在Z-score模型的基础上，加入二次判别模型思想，形成了第二代信用评价模型，ZETA信用风险模型(ZETA Credit Risk Model) [6]。ZETA模型内含多种数理分析方法：Logistic分析与判别方法、神经网络分析法、聚类分析法、判别分析法(Discriminant Analysis，简称DA)、多元判别分析法(Multivariate Discriminant analysis)、层次分析法等等 [7]。

第一个应用且至今仍在使用的信用体系评价模型是基于线性判别分析，在众多学者的研究过程中，不断地引入了新的统计模型和算法模型。目前我国对于个人信用体系模型构建的研究主要分为两个方面，一方面是评价指标体系的构建，另一方面则是评价体系信用分计算和风险预测。何建奎和岳慧霞结合我国现实情况与西方国家经验总结出适合中国个人信用体系构建的模式应是 [8]：政府推动与市场运作相结合的模式，即采取以政府和中央银行为主导，以股份制资信公司为支撑，以现有信用中介公司为主体，以地区会员制为框架的全国个人信用体系 [9]。

3. 模型简述

3.1. Logistic回归模型

本文研究的因变量是贷款状态，违约者赋值为1，未违约者赋值为0。对于这种二元离散现象的数量分析，首先使用Logistic模型进行回归分析，模型的被解释变量Y是一个0~1变量，事件的发生概率是依赖于解释变量，即 $P (Y = 1) = f (X)$ ，依赖于其影响因子解释变量的研究需要。

$Logit (p) = β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}$ (1)

根据Logit变换的定义： $Logit (p) = \ln [p / (1 - p)]$ ， $p / (1 - p)$ 称为发生比(odds)，得到最终的Logistic回归模型：

$P = \exp (β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}) / (1 + β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p})$ (2)

3.2. 贝叶斯决策树

贝叶斯决策树是一种利用先验信息处理数据间非同质关系的树型分类法。该模型不需要分布的假定，它的求解采用非参数技术；贝叶斯(策树算法的关键是选择节(的分裂属性，常将((Entropy)、卡方(χ²)以及基尼系数(Gini Index)作为计算信息增益的算法。熵是表示随机变量不确定性的度量，将 $p_{i}$ 定义为分类变量U取值为i时的发生概率，若事件类型共有s类，则随机变量的熵定义为：

$H (p_{1}, p_{2}, L, p_{3}) = - \sum_{i = 1}^{s} (p_{i} \log_{2} p_{i}) = H (U)$ (3)

在本文中，s取值为2；又假设自变量为自变量 $X_{1}, X_{2}, \dots, X_{s}$ ，则自变量i对应的2，因子水平k记为 $X_{i k}$ ；将信息增益定义为：

$I = H (U | X_{i}) = \sum_{k = 1}^{n} P (X_{i k}) H (U | X_{i k}) = \sum_{k = 1}^{n} P (X_{i k}) (- \sum_{i = 1}^{s} P (U_{i} | X_{i k}) \log_{2} (P (U_{i} | X_{i k})))$ (4)

因此，对于自变量 $X_{1}, X_{2}, \dots, X_{s}$ ，计算其对应的 $I (U, X_{i})$ ， $I (U, X_{i})$ 取值越大，则表示自变量 $X_{i}$ ；对于贝叶斯决策树分类具有更多的信息，则优先将 $X_{i}$ ；作为识别。

3.3. 支持向量机

支持向量机(Support Vector Machine, SVM)是基于统计学习VC 维理论和结构风险最小原理共同建立的，它区别于经典统计学模型的最大特点是只需要将小样本作为特定的训练样本，通过训练得到学习精度和学习能力的最佳选择，便于获得最好的推广。上世纪九十年代，Cortes和Vapnik提出了线性支持向量机，而后Boser、Guyon与Vapnik引入核技巧，提出了非线性支持向量机，功能较为完整的支持向量机应用于当今社会的诸多方面。总的来说，SVM主要解决了两类问题，一是寻找到最优的超平面二是能够划分非线性可分的样本 [10]。

由于非线性均在线性的基础上进行研究，如图1所展示的线性支持向量，其中小叉叉和空心圆点分

别表示两类样本，w表示该平面的法向量，H₁和H₂为上边界和下边界，且令 $margin = \frac{2}{‖ w ‖}$ 为间隔距离，

H为最优分割线。

3.4. 随机森林

随机森林(Random Forest，简称RF)是Bagging的一个扩展体，它在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了属性选择。随机森林相比于单纯的决策树算法消除了许多局限性，减少了数据集的过拟合、提供了一种处理丢失数据的方法，因此提高了精度 [10]。具体算法结构如图2所示：

Figure 1. Schematic representation of the linear classification

图1. 线性分类示意图

Figure 2. Random forest algorithm structure

图2. 随机森林算法结构

3.5. 评价指标

评估指标是用来衡量模型优劣水平的算法，对于分类很多指标可以对其进行评价，如精确率、召回率(precision-recall)、错误率(error rate)、精度(accuracy)、误差(error)、训练误差、泛化误差等等。对于本文的分类模型，就是区分客户是否违约，分别对应正、负样本数，用P、N来表示。在统计分析当中，我们可以用一个混淆矩阵(见表1)来表示分类正确与否的情况，并在此基础上计算：

Table 1. Classifies the resulting confusion matrix

表1. 分类结果混淆矩阵

正确率(precision/accuracy)：测试集上被模型正确分类的样本数所占的百分比。即：

$\frac{TP + TN}{P + N}$ (5)

错误率(precision/accuracy)：测试集上被模型错误分类的样本数所占的百分比。即：

$\frac{FP + FN}{P + N}$ (6)

召回率/真正率(sensitive/recall)：即在所有实际为正样本的情况下，成功预测为正样本的百分比。即：

$TRP = \frac{TP}{TP + FN}$ (7)

精度(sensitive/recall)：即即在所有预测为正样本的情况下，实际上为正样本的百分比。即：

$\frac{TP}{TP + FP}$ (8)

假正率(False Positive Rate, FPR)即被预测为正的负样本结果数/负样本实际数。

$FRP = \frac{FP}{FP + FN}$ (9)

F度量即(F₁和F_P)度量的方法就是将精度与召回率的计量方法结合后组成新的计量方法。定义如下：F₁是精度和召回率的调和平均数

$F_{1} = \frac{2 * precision * recall}{precision + recall}$ (10)

F_P加的权系数是召回率和精度的β倍：

$F_{P} = \frac{(1 + β^{2}) * precision * recall}{β^{2} * precision + recall}$ (11)

当β = 1时，模型对于准确率和召回率都一视同仁。

当β < 1时，模型主要重视准确率。

当β > 1时，模型主要重视召回率。

β的取值通常是2或者0.5，基于本文是研究客户的违约风险，故越精确越好，也就是尽可能地避免有违约风险的客户被预测为没有违约风险，这里选取β的取值为2，即

$F_{P} = \frac{5 * precision * recall}{4 * precision + recall}$ (12)

ROC全称是“受试者工作特征”(Receiver Operating Characteristic)，AUC (area under the curve)其实就是ROC曲线的面积，两者相结合还有AUROC (area under the receiver operating characterstic curve)指标。

ROC曲线和AUC曲线常常作为衡量二分类分类器的重要指标，其中ROC曲线越靠近左上角说明在FPR很小时TRP很大，AUC在分析中常类似成绩一样地被分为五个区间：

$AUC \in (0.9, 1)$ 意味着优秀(Excellent)；

$AUC \in (0.8, 0.9)$ 意味着良好(Good)；

$AUC \in (0.7, 0.8)$ 意味着尚可(Fair)；

$AUC \in (0.6, 0.7)$ 意味着不好(Poor)；

$AUC \in (0.5, 0.6)$ 意味着失败(Fail)；

也有学者对AUC的评价准则做出了不同的解释：

AUC = 1，最好的分类器，若使用此种分类器，可以得到不止一个阈值的最优预测结果。但是大部分的猜测状况下并不会出现最好的分类器。

0.5 < AUC < 1，优于随机猜测，这个分类器若是选择合适的阈值，会有预测价值；

AUC = 0.5，与随机猜测原理相同，模型是没有预测价值的；

AUC < 0.5，比随机猜测还差；

但不管是哪种评价准则，都有样的规律，即AUC值越大，分类结果越好。

4. 实证结果分析

数据说明

本研究使用的数据集主要包含各种属性，例如资金金额，位置，贷款，余额等，具体说明如表2：

Table 2. Variables introduction table

表2. 变量介绍表

将数据集的前百分之八十作为训练集用以训练模型，将后百分之二十作为测试集，比较不同模型的预测结果(表3)：

Table 3. Comparison table of the model prediction effect

表3. 模型预测效果对比表

比较模型预测结果，以得到以下结论，logistic回归模型和决策树模型在精度上都较低，支持向量机模型和随机森林模型的精度较高，但效果最好的是随机森林模型。为了更好的观察随机森林模型的预测效果，接着做出ROC曲线图AUC图进行观察，通过图3可以看出，该模型的ROC曲线远离纯随机分类器的ROC曲线(AUC等于0.5)，AUC等于0.889∈(0.8, 0.9)，故该模型的违约风险预测效果良好。

Figure 3. The ROC plot of the random forest model

图3. 随机森林模型ROC图

5. 结论

本文基于某公司信贷数据集，通过比较logistic回归模型、贝叶斯决策树、支持向量机和随机森林算法构建违约预测能力，根据结果得知对于此数据集，随机森林的预测效果最佳。

随着市场经济的不断发展与成熟，信息时代的到来，金融信用发展到一个新的层次与水平，加之我国法制的进步和人民法院强制执行力的不断加强，我们越来越频繁地从媒体上听到“老赖”这个词，一旦被列入“老赖”行列，既坐不了高铁，也乘不了飞机，出行非常不方便，而且还会影响到孩子的教育。但是近年来，在个人消费的各个方面出现的失信行为，信用缺失已成为当前经济社会发展的“瓶颈”，不仅影响到人们的日常生活，也影响到我国市场经济的健康发展。

为了国家更好的建设和完善社会信用体系，也为了自身的金融信用、日常生活不受影响，客户要做到以下几点：

1) 按时归还欠款，防止贷款逾期或欠息；

2) 若无法一次性付清借款可分期；

3) 理性做好规划，加强个人金融管理，避免超前消费和过度消费。

同时我国现在处于建全违约风险相关法律法规的重要阶段，国家和政府的相关部门也需要付出相应的行动，以下是对相关部门提出的建议：

1) 加快个人征信体系的建设；

2) 加强对借贷人的教育；

3) 推动金融惠普发展。

模型考虑的影响因素较单一，基本为微观数据，后期尝试引入部分宏观影响因素如：国际环境、国家政策、社会舆论等，自2019年新冠疫情的爆发，不仅对我国经济发展造成了严重的影响，甚至对国际经济而言影响都很大，故在后续的研究当中，会收集资料将新冠疫情也作为影响因素之一构建借贷风险预测模型。

基金项目

国家级大学生创新创业项目(202110638006)。

参考文献

[1]	邓春生. 演化博弈视角下P2P网络借贷的信用风险及其法律规制研究[D]: [博士学位论文]. 成都: 西南财经大学, 2020. https://doi.org/10.27412/d.cnki.gxncu.2020.000320
[2]	傅一帆. 社会网络视角的P2P平台机制设计研究[D]: [硕士学位论文]. 杭州: 浙江大学, 2015.
[3]	戴宙松. P2P网络借贷相关会计核算问题研究[D]: [硕士学位论文]. 西安: 长安大学, 2015.
[4]	Grobben, M. (1943) Risk Elements in Consumer Instalment Financing. David Du-rand. Journal of Political Economy, 51, 185-186. https://doi.org/10.1086/256026
[5]	Zhang, X.Y., Xie, Q. and Song, M. (2021) Measuring the Impact of Novelty, Bibliometric, and Academic-Network Factors on Citation Count Us-ing a Neural Network. Journal of Informetrics, 15, Article ID: 101140. https://doi.org/10.1016/j.joi.2021.101140
[6]	Ptak-Chmielewska, A. (2021) Bankruptcy Prediction of Small- and Medium-Sized Enterprises in Poland Based on the LDA and SVM Methods. Statistics in Transition New Series, 22, 179-195. https://doi.org/10.21307/stattrans-2021-010
[7]	Altman, E.I., Esentato, M. and Sabato, G. (2020) As-sessing the Credit Worthiness of Italian SMEs and Mini-Bond Issuers. Global Finance Journal, 43, Article ID: 100450. https://doi.org/10.1016/j.gfj.2018.09.003
[8]	鲁秀秀. P2P网络借贷借款人的信用风险研究[D]: [硕士学位论文]. 济南: 山东大学, 2021.
[9]	何建奎, 岳慧霞. 中国个人信用体系模式选择[J]. 消费经济, 2004(3): 49-52.
[10]	史小伍. 基于支持向量机的组合预测模型及其个人信用评价方法[D]: [硕士学位论文]. 镇江: 江苏科技大学, 2012.

为你推荐

友情链接