1. 引言
回顾我国互联网金融行业的发展,以P2P网贷平台为代表,从萌芽到生长再到全面清退,历经13年。近期,由于互联网金融行业中网贷平台问题层出不穷,导致全部清零,重点在于风险防控缺少具体策略的实施。而互联网金融行业信用风险防控措施所需预案不足,风险预警方法准确率低一直是该行业的痛点。传统的预警方法仍未解决互联网金融风险防控所缺乏科学性、全面性以及创新性。对于互联网金融中任何一个平台来说,大力加强和改进互联网金融风险防控工作,既有利于进一步优化和完善互联网金融平台管理体系,同时也能够为防范和控制互联网金融风险创造更为有利的条件 [1]。而互联网金融平台的风险预警研究将互联网金融行业风险防控上升到更高层面,因此对互联网金融平台进行风险预警研究对该行业有巨大的推动作用。
现关于互联网金融行业的信用风险研究状况有如下几方面。其中关于借款人信用状况利用神经网络等方法的研究较多,例如肖会敏等人基于神经网络对借款人的信用进行了风险评估 [2]。吴斌等人结合果蝇优化算法对BP神经网络进行优化,对借款人的信用风险进行了评估 [3]。Chenqi Jiang等人结合传统的商业银行贷款选择标准基于Logit模型为投资者提供了信息审查参考途径,来判断借款人的情况,降低投资风险 [4]。张泽等人提出基于思维进化算法优化SKohonen神经网络的借款人风险评估模型 [5]。
关于互联网金融平台的信用风险基于不同方法的研究不断出现,例如,张丹丹采用因子分析法从监管力度不够和平台风险评价机制两个方面对平台进行了风险评估 [6]。张春晖基于2016版的COSO-ERM框架对互联网金融中网贷平台麻袋理财的借款人、投资者以及平台自身进行了风险评估 [7]。孙宝文等人采用二元变量回归模型,从投资者角度出发,对平台潜在的风险进行分析 [8]。胡晓霁基于声誉视角对网贷平台风险的影响因素进行了探讨 [9]。王旭等人运用全面风险管理理论,从不同维度构建了民营系平台的内部风险管理体系,对平台风险管理进行了探究 [10]。Chen Dongyu等人研究了影响平台风险的因素,结果表明借款人的信用和中介机构的信用是重要影响因素 [11]。Daniel Felix Ahelegbey等人基于潜在位置模型,根据潜在因素的空间位置来区分关联企业和非关联企业的社区,提高了网贷平台评分模型的预测性能 [12]。
关于互联网金融的信用风险的研究,不仅限于平台本身,更多的是注重方法创新研究,例如李占玉利用SMOTE算法与随机森林相结合,构建了互联网金融公司的财务风险预警模型 [13]。谭中明等人基于“有限理性”的“最优反应动态”机制结合博弈树对网贷平台产生风险的主体(平台和借款人)进行分析 [14]。肖曼君等人基于排序选择模型对平台风险的影响因素进行了探究,从投资者的角度对平台来进行风险评估 [15]。Cathy W.S. Chen等人基于logistic回归(LQR)模型结合预测方法,对违约概率和重大影响变量两个方面进行风险评估,研究了不同分位数的变量对违约风险的影响 [16]。Kwang-Ho Le等人基于结构方程模型,运用资源交换理论与社会交换理论对于价值创造要素、信任要素与平台诚信之间的结构关系进行了研究 [17]。胡忠义等人基于多分类器动态集成模型对违约平台进行风险评估,结果显示运用K均值聚类结合神经网络的模型效果最好 [18]。除了以上风险评估方法以外,还有学者利用机器学习中的神经网络对互联网金融风险进行了研究,如沈一春基于Logistic模型和BP神经网络对网贷平台的财务风险进行了预警研究 [19]。姜晨等人应用GA-BP神经网络模型针对借款人违约信用风险进行预测研究,得到结果准确率高于BP神经网络模型 [20]。
综上,互联网金融行业现行的相关研究主要在于信用风险方法方面的研究,本文以互联网金融中网贷平台的数据为例,针对信用风险评估这一问题将应用RBF神经网络,从以下视角进行研究。本文采用MATLAB软件构建RBF神经网络,将所得到的RBF神经网络与现有的BP神经网络算法进行对比,通过比较来优化传统的神经网络预测法,最后通过实例将RBF神经网络引入到互联网金融平台的信用风险预警之中。通过运用RBF神经网络对互联网金融行业信用风险进行预警研究,为其他行业信用风险评估提供新思路。
2. 构建RBF神经网络信用风险预警模型
RBF神经网络,又称为径向基神经网络,是前馈型神经网络的一种。与BP神经网络相比,RBF神经网络将问题转换为线性可分之后便解决了BP神经网络中局部极小值问题。RBF神经网络也是由输入层、输出层和隐含层组成,与BP神经网络不同的是,RBF神经网络仅有一个隐含层而不是多层隐含层,所以为了实现相同的功能,RBF神经网络就需要更多的隐含层神经元。
RBF神经网络的优点是网络的训练时间更短,需要人工调整的训练参数更少,它对于预测结果可以精确到任意值,其中隐含层中的神经元越多,预测结果就可以越精确。
本研究应用RBF神经网络的自适应性构建了与BP神经网络不同的风险预警模型,避免了反复调试隐含层神经元的数目这一工序。从刚开始训练的时候只有0个隐含层神经元,通过误差检查对比自主的增加隐含层神经元的个数,经过多次反复检查,最后使神经元的个数达到预测需求值,这便是RBF神经网络的自适应性。
在MATLAB软件中本研究使用newrb函数构造一个径向基神经网络。在创建过程中,会不断调试隐含层神经元的个数,直到网络满足要求。隐藏层的作用是把向量从低维m映射到高维P,低维线性不可分的情况到高维就线性可分了,代码如下所示。
net = newrbe (P_train,T_train,30);
P_train和T_train同BP神经网络设置的一样,分别是训练集的输入域和输出域,30是RBF神经网络独有的参数spread,这个参数在MATLAB中创建RBF网络时是要事先设定好的,其默认值为1。spread越大,函数拟合越平滑,但是逼近误差会变大,需要的隐藏神经元也越多,计算也越大。spread越小,函数的逼近会越精确,但是逼近过程会不平滑,网络的性能差,会出现过适应现象。所以具体操作的时候要对不同的spread值进行尝试,spread即要大到使得神经元产生响应的输入范围能够覆盖足够大的区域,同时也不能太大,而使各个神经元都具有重叠的输入向量响应区域。本研究中RBF神经网络中健康平台输出值为0,代表风险较低。问题平台输出值为1,代表风险很高。
在本研究中,经过大量测试后,得到的RBF神经网络的网络结构图,如图1所示,它包括1个输入层,10个隐藏层神经元,1个输出层。
Figure 1. Structure diagram of RBF neural network
图1. RBF神经网络结构图
3. 基于RBF神经网络的互联网金融风险预警算例
3.1. 指标的选取及指标体系的建立
依据信用风险预警指标选取的原则,为保证所选取的指标具有适用性、全面性、可理解性、公平性、合法性等原则,结合RBF神经网络模型研究的需求,本文将选取以下几个因素作为研究指标,其中与平台相关的指标:(X1)运营时间、(X2)注册资本;与借贷人相关的指标:(X3)投资人数、(X4)借款人数;与资金相关的指标:(X5)人均借款金额、(X6)人均投资金额、(X7)资金净流入、(X8)平均借款周期、(X9)待还余额占比。具体情况如表1所示。
Table 1. Credit risk evaluation index system of Internet Financial Platform
表1. 互联网金融平台信用风险评估指标体系表
为了结果的准确性,本文所选取的9个指标均为定量指标,其中待还余额占比这一指标是经过网贷之家所公布的待还余额这一指标通过对数据的预处理得到的,其余指标的数据均为网贷之家所公布的截止2019年10月底的真实数据。
3.2. 数据的获取和预处理
由于P2P网贷平台已经全部清零,为了研究的有效性以及客观性,本文所选取的研究数据截止于2019年10月30日。本文通过爬虫软件客观地获取了“网贷之家”“网贷天眼”等第三方网站所公开发布的一手数据。获取过程主要分为以下几个步骤。
1) 分析所要解决的问题确定所要选择的指标,本文所选取的9个指标是通过对数据指标确立原则的研究所确立。其中,平台性质这一指标作为输出结果,预先对其就行编码,健康平台的输出值为0,问题平台的输出值为1,以便最终输出结果作比较。
2) 通过爬虫软件从第三方网站获取数据通过爬虫软件获取数据之后,整理为Excel表格。获取的数据均为第三方网站网贷之家及网贷天眼所公布的真实有效数据。
3) 数据的预处理检查数据完整性、一致性,筛选有效数据。为了保证数据的完整性,所选取的80家健康平台的数据是来自于第三方网站排名靠前的数据,50家问题平台的数据是出现问题前一个月的各项指标的数据。最终,将数据分为训练和测试两组数据,为了训练结果的准确性,选取60组健康平台、40组问题平台的数据对神经网络进行训练,其余20组健康平台、10组问题平台的数据用来做测试。如表2、表3所示。
Table 2. 100 network loan platform training data statistics
表2. 100家网贷平台训练数据统计
数据来源:网贷之家2019年10月30日的数据。
Table 3. 30 network loan platform test data statistics
表3. 30家网贷平台测试数据统计
数据来源:网贷之家2019年10月30日的数据。
由于各种数据的单位不一致,而且不同数据网站的所采用的数据单位不相同,所以神经网络方法在录入数据和划分出训练集和测试集之后需要对数据进行归一化处理。
归一化代码如下:
[p_train, ps_input] = mapminmax(P_train,0,1);
[t_train, ps_output] = mapminmax(T_train,0,1);
换算成数学公式如下。
(1)
X是原始样本数据,Y是数据X的映射,
代表此类数据的最小值,
代表此类数据最大值,通过这种归一化将各种数据之间的差异最小化。通过0代表无关,1代表相关。从而各种数据都在[0,1]这个区间中,然后可以训练神经网络来实现对数据的预测。
3.3. 算例分析
采用RBF神经网络预测方法进行风险预警研究,将训练集的数据进行归一化后导入到RBF神经网络开始训练,进行算例验证,RBF神经网络的训练过程如图2所示。
Figure 2. Training process diagram of RBF neural network
图2. RBF神经网络训练过程图
RBF神经网络训练效果,如图3所示。
Figure 3. Training effect diagram of RBF neural network
图3. RBF神经网络训练效果图
本模型中RBF神经网络共进行了26次迭代运算,精确度逐步提高,当迭代到第20次时达到最优值。其中与BP神经网络不同的一点是MATLAB软件中RBF神经网络有ROC曲线图,如图4所示。
Figure 4. ROC curve of RBF neural network
图4. RBF神经网络的ROC曲线图
受试者工作特征曲线简称ROC曲线,ROC曲线越靠近左上角试验的准确性就越高。从图4中可以看出训练的ROC曲逐渐趋近于1,代表所设计的RBF神经网络准确度高。
绘制出RBF神经网络的训练结果图代码如下所示。
figure;
plot(1:N, dataY', 'or', 'MarkerSize', 12);
hold on;
plot(1:N, predY, 'sg', 'MarkerSize', 12, 'MarkerFaceColor', 'g');
legend({'真实值', '预测值'});
title('RBF神经网络预测对比图');
saveas(gcf, '预测对比图.png');
经过MATLAB软件绘制出结果后,RBF神经网络的结果成图如图5所示。
可以看出训练的效果很好前60个健康平台的数据只有2个高于0.5,后40个问题平台中也有2个低于0.5。故模型准确概率为96%,如图7所示,可以直接看出每次的训练的准确度。由于数据太多不容易直观看出训练的效果,采取一个近似化处理。将预测的似然值小于0.5的结果归为0类,将预测的似然值大于等于0.5的结果归为1类。如图6所示。
Figure 6. Approximate training effect diagram
图6. 近似化后的训练效果图
这样可以直观的看出训练模型的准确概率达到了96%,更便于观察出预测的结果。本模型采取问题平台的信用风险输出是1,健康平台的信用风险输出是0。当输入一个未知的网贷平台数据时,如果输出的值为1,代表该平台的信用不好,投资者需要慎重选择,如果输出为0,代表该平台的信用风险较小,可以选择。为了进一步探究该模型的准确性,本文选取30组数据作为测试集,进行验证。
如图7所示,30组数据中选取的20家健康平台数据只有1组高于0.5,10家问题平台的数据只有1组低于0.5,故测试结果准确率达到93.33%。
3.4. 算例结果分析
本文中,RBF神经网络的训练数据包括100个平台数据(60个健康平台和40个问题平台),测试数据包括30个平台数据(20个健康平台和10个问题平台),其结果输出为0代表健康平台,输出为1代表问题平台。为了对平台有良好的风险预测功能,本文所选取的健康平台数据均来自网贷之家、网贷天眼等网站排名靠前的平台。当我们输入一个未知的互联网金融行业中网贷平台数据时,如果输出值为1,代表该平台的信用不好,投资者、贷款者需要慎重选择,如果输出为0,代表该平台的信用风险较小,可以选择。
利用本文中所使用的数据,进行BP神经网络进行验证时,训练结果迭代到第10次达到了最优值,误差较小。由于神经网络算法属于黑箱操作,我们不能用肉眼直接观察到计算过程,所以为了结果的准确性,通常要求当样本数量大于300,但是结合我们现有的BP神经网络算法研究,本文优化后的RBF神经网络算法利用130个样本数据达到了一个理想的结果,其中RBF 神经网络基于BP神经网络的模型的优点是结构更简单,可调参数比较多,可调性范围比较大。RBF神经网络模型可以自主增加隐含层神经元的个数,自主性更高,比较适合于高精度的预测。
4. 结论
针对众多互联网金融信用风险问题,本文利用MATLAB软件工具基于RBF神经网络算法建立信用风险预警模型,通过分析平台的发展数据,结合构建指标体系原则,构建信用风险评估指标体系,以截止2019年10月30日的P2P网贷平台数据为算例,通过100个平台数据的训练模型得到30个平台测试数据的准确率达到93.33%的预测模型,以此得到了准确率较高的RBF神经网络互联网金融信用风险预测模型。
相较于现有的BP神经网络,本研究所应用的RBF神经网络模型更加具有机器学习的特性。由于RBF神经网络可以自主增加隐含层的数目,节约了调试隐含层数目的时间,并且RBF神经网络也不用设置学习效率、迭代次数等参数,属于自主的调节模型,其ROC曲线相较于回归曲线更能反映学习的效率,错误直方图更能直观的反映模型的效率。总结来说RBF神经网络比现有的BP神经网络更加的高效,准确率更高。在风险预测中,为了投资者、借贷者能够很好地规避风险,结合BP神经网络的RBF神经网络更加具有现实意义。同时,应用RBF神经网络在互联网金融行业的信用风险预警中,能够更好的避免传统评估方法中的数据处理不规范,准确率低等问题。
致谢
感谢国家自然科学基金资助项目和教育部人文社会科学研究项目的资助。
基金项目
国家自然科学基金资助项目(71601059,71673069),教育部人文社会科学研究项目(19YJA790087)。