1. 引言
我国的P2P网贷平台发展迅速,2009年P2P平台的数量仅有9家,现如今已有六千余家。P2P平台快速发展的同时,问题平台相继出现,例如平台跑路、倒闭等情况时有发生,阻碍了网贷平台的可持续发展。据网贷天眼研究院不完全统计,截至2019年9月30日,我国P2P网贷平台数量累计达6698家,其中问题平台5785家,在运营平台913家,较去年同期减少750余家。整个9月份,无新增网贷平台,新增问题平台3家(新增的3家问题平台中,1家是因暂停运营,1家因平台清盘,1家是因警方介入)。2019年10月,P2P网贷行业成交额为776.41亿元,环比下降13.84%,贷款余额为9139.03亿元,环比下降10.70% .近两个月,平台发标量减少,行业成交额降幅相对较大,跌破800亿。截至2019年9月30日,网贷行业贷款余额为8161.15亿元,较上月大幅下降。受监管三降和合规备案的要求,网贷行业贷款余额已连续10个月下降。
现关于P2P平台信用风险,国内外状况不同。少数商业巨头所占领的国外市场,征信体系完善,监管制度成熟,平台存在的风险系数较低,主要信用风险来源于借款人 [1] [2]。Emekert和Baklouti通过Lending Club网贷平台数据发现,借款期限、借款总额和利率等信息会显著影响违约率 [3] [4]。Lin通过Prosper网贷平台的数据证实,社会网络中的关系社会资本,会导致更好的借贷投资结果,包括更高的贷款资金可能性,更低的违约风险和更低的利率 [5]。国内有研究表明,P2P网贷借款人的信用是平台信用风险的根源,肖会敏和张卫国等人认为评估借款人的信用是P2P网贷公司控制风险的重要步骤,对于网贷公司的正常运行有着极其重要的意义 [6] [7]。Shen Wei和Andreas Mild等人提出了决策支持的应用,他们通过分析单一的贷款市场,建立了不仅有利于借款人,同时也是对借款人的一种制约的模型 [8] [9]。
关于P2P风险研究不仅局限于借款人,信用风险评价开始拓宽到各项影响因素,开发不同评价方法也成为研究重点 [10]。例如,Chen, Dongyu、Lai, Fujun和Lin, Zhangxi针对影响P2P平台借贷双方的因素,进行了实证研究。其结果表明对借款人的信任和对中介机构的信任是影响贷款人借贷意愿的重要因素 [11]。姜琪主要针对成交量这一影响因素进行了探讨,他认为P2P平台整体生产效率低,而技术是推动生产效率增长的主要因素 [12]。杨立等人以信息经济学和博弈论为基础,提出了社交网络信用风险缓释机制的理论框架,从三个环节分析了P2P借贷信用风险成因;古定威等人则是以博弈论为基础,通过完善征信体系以及平台是否合法运营,建立了政府–平台–用户的双层信用风险控制体系 [13] [14]。Yanhong Guo和Wenjun Zhou等人提出数据驱动的新兴市场投资决策框架,将P2P借贷中的投资决策作为一个有边界约束的投资组合优化问题进行了研究 [15]。张蜀林等人通过对比分析决策树、支持向量机和 Ada Boost算法对借款人的信用进行的评级同时也对平台进行了分类研究 [16]。林春雨等人将模型的建立与大数据相结合,利用机器学习的方法对多维度历史数据进行研究,对平台进行风险监测 [17]。王丹、张洪潮运用层次分析法(AHP)通过构建基于模糊数学综合评价方法的定量指标评价模型和基于专家评分表的定性指标评价模型,对P2P网贷平台进行了风险评估 [18]。郭艳红等人提出投资者构成分析法,通过分析投资者信息遴选出最有价值的投资,辅助投资者进行投资决策的方法 [19]。夏克雨通过数据运用随机森林算法对跑路的平台进行了研究 [20]。
综上所述,已有的相关研究主要是针对借款人的信用评估以及对不同评价方法的开发,但是对P2P网贷平台信用风险的研究,不仅局限于借款人,而是合理预测健康平台运行状况。本文针对健康平台进行分析,采用K-means聚类方法对网贷平台进行信用风险评估,利用网络爬虫获取80家正在运行网贷平台的数据,建立指标体系,构建K-means聚类模型,对现有的P2P网贷平台进行信用评估,给投资者和借款者选择安全稳定的P2P网贷平台提供参考。
2. 指标的选取及指标体系的建立
影响我国P2P网贷平台发展的因素很多,判断选取的指标是否科学合理,会对样本平台的评估结果产生影响,使得结果产生的偏差较大。为了真实反映样本的可靠度,本文依据全面性、科学性、适用性、时效性、定量与定性相结合等原则选取信用风险评估指标。
依据指标选取原则,选取的指标应具有代表性,不能偏向某一方面的特例,结合第三方网站所选取的指标,本文一共选取了9个指标的,主要包括:成交量、投资人数、借款标数、借款人数、资金净流入、平均预期收益率、运营时间、注册资本、待还余额。具体情况如下表1所示。

Table 1. Credit risk evaluation index system of P2P lending platform
表1. P2P网贷平台信用风险评估指标体系表
3. 数据的获取和预处理
本论文的样本数据均来自第三方网站的“网贷之家”和“网贷天眼”。按照指标的获取原则选择指标,采集网贷平台的客观数据和最新数据,以保证结果的准确率。通过八爪鱼网络爬虫软件对网贷之家80家网络平台的数据进行采集,并导出为excel文件进行数据分析。
数据获取之后,首次预处理,形成模型所需数据类型,确保数据的完整性、可靠性,考虑数据缺失对结果是否有影响。最终选取了截至于2019年9月30日网站排名前80的健康平台数据作为研究对象,具体数据如表2所示。

Table 2. Data statistics of Top 80 online lending platforms
表2. 排名前80家网贷平台数据统计
数据来源:网贷之家2019年9月30日的数据。
从P2P网贷平台获取的指标可以看出,指标的单位各有不同,如万元、小时和人等单位,所以需要将数据进行标准化处理。在P2P网贷平台信用评估指标中有两类:一类是正向指标,指标数值越大表明平台的信用水平越高,如注册资本,成交量和资金净流入量等指标;另一类是负向指标,指标数值越小说明平台信用水平越高,本文选取的指标暂时没有涉及负向指标,所以只进行正向指标的标准化,将原始数据标准化为[0, 1]之间的数据具体公式如下所示:
其中,
表示第i个平台的第h项指标值;
表示为h项标准化后第i个平台第h项的指标值,指标体系中共有m项指标。最终统计结果如表3所示。

Table 3. Top 80 online lending platform data after normalization
表3. 归一化处理之后的排名前80网贷平台数据
4. 评级构建及实证分析
基于以上研究,构建评级结构,如图1所示,首先运用软件将80个平台的数据进行归一化处理,使其标准化,其次进行K-means聚类,经过调试,将类别设置为3类,之后进行评估分析,其具体评估流程如图1所示。

Figure 1. Credit risk assessment flow chart of online loan platform
图1. 网贷平台信用风险评估流程图
本文采用的聚类分析是机器学习中无监督学习算法,其实质是按照距离的远近将数据分为若干个类别,使得类别内的“差异”尽可能小,类别间的“差异”尽可能大,这是在分类目标事先不知道的情况下进行的分类。采用欧几里得距离,对于两条数据
和
其主要计算公式为:
(2)
本文中K-means聚类算法的核心思想如下:
以成交量(万元)为例:
给定训练样本:
,其中
为成交量(万元)。
(1) 首先确定聚类的类别数3类,即1,2,3三类;
(2) 随机选取3个案例初步确定每个类别的初始聚类中心,质心点为0、1、1,
;重复以下步骤直至收敛:
(3) 对于每个样本i,计算其所属类
(3)
计算各个样本和质心的相似度,选择距离最短的质心点,衡量相似度有很多不同种方法,本文选择欧氏距离判别相似度。所有成交量求得最近质心点后,将质心点相同的归为一类,实现对成交量的初步分类。
(4) 对于每一个j,重新计算质心点
(4)
使用属于该类的样本数据,重新计算该类的质心点,完成质心点更新。本文用同一类样本的平均值来更新质心点,按照步骤(4)过程迭代,得到结果收敛,即找到最终质心点0, 1, 1。
5. K-Means聚类分析及数据验证
利用SPSS软件中的K-means聚类方法,结合八爪鱼所抓取的数据,进行聚类分析。按照选取的指标,系统选取初始聚类中心通过运行程序得到聚类表,如表4所示。

Table 4. Cluster members of top 80 online lending platforms
表4. 排名前80网贷平台聚类成员表
根据表5可知,经验证该分类是符合标准的,但是根据sig值可以发现,由于各平台平均预期收益率差异不明显,且各平台的运营数据拘泥于近期政策的极力打压,存在不确定性,有可能存在盲目乐观。同样,各个平台的注册资本也在不断追加,变化较大,同样不能作为分类标准,所以要剔除该指标。由于这两项指标在构建模型时不具备分类作用,所以不能作为评级标准,因此在建立模型这一过程中需将指标剔除。剔除该指标之后,该模型的单因素方差分析表格如表6所示。

Table 5. Initial table of one way ANOVA
表5. 单因素方差分析初始表

Table 6. Single factor analysis of variance after optimization
表6. 优化后单因素方差分析表
最后用标准化的数据进行聚类,得到1、2、3三类,将这3类分为3个级别,分别对应A,B,C。这80组数据均为有效值,其中第一类75个,属于A级别,属于运行状况良好;第二类为4个,属于B级别,属于存在问题不明显的平台;还有1个平台存在一些问题,属于风险平台。具体情况如表7所示。

Table 7. Number of cases and platform names in each cluster
表7. 每个聚类中的个案数目及平台名称
文中实证分析数据为2019年9月30日的,根据该模型的分类结果,截至2019年10月31日,第三方网站对此80家正在运行平台的数据统计可以看出,A级别的75家平台,目前运行状况良好,各项指标的数据处于稳定状态,没有显著风险,以“有利网”为代表的健康平台运行状况均为良好;B级别的4家平台,目前依旧在网站是排名靠前,以“微网贷”为例,它目前在网站排名第一,投资人数达到33,774人,成交量15,615.32万元,待还余额达到1,319,213.9万元,这三项指标数值均为榜首,但是近一个月资金净流入为−1795.21万元,其他三家平台具有同样的问题,资金净流入为负,说明平台近一个月内流动资金出现较为严重的问题,这类平台风险较小,但对于投资者来说,盈利时间可能需要较长,存在较小的风险;C级别的1家平台为“爱钱进”,目前它在网站排名也比较靠前,但是它目前的借款人数下降1.66%,投资人数下降0.31%,人均投资额也在减少,整体的成交量下降4.20%,流动资金过少,各项指标均不稳定,且截至10月25日开始至31日网站对该平台各项指标的数据开始不完整,所以存在风险较大。
6. 结论和展望
本文将K-means聚类分析方法引入到对P2P平台进行风险评估中,构建了网贷平台信用风险指标体系,通过对“网贷之家”上抓取的80家健康平台的数据进行训练和学习,得到了聚类分析风险评估模型,并合理预测平台运营情况。
文中所使用的实证分析数据为2019年9月30日的,根据该模型的分类结果,结合截至2019年10月31日80家健康平台运行的实际状况所披露的数据,可以看出,A级别的75家平台,目前运行状况良好,各项指标的数据处于稳定状态,没有显著风险;B级别的4家平台,目前依旧在网站是排名靠前,但是近一个月资金净流入均为负,说明平台近一个月内流动资金出现较为严重的问题,这类平台风险较小,但对于投资者来说,盈利时间可能需要较长,时间越长,投资者能够控制的流动资金越少,导致收益状况不佳,对该平台的投入资金会受到相应影响,所以该类平台存在较小的风险;C级别的1家平台为“爱钱进”,目前它在网站排名也比较靠前,但是它目前的借款人数下降1.66%,投资人数下降0.31%,人均投资额也在减少,整体的成交量下降4.20%,流动资金过少,各项指标均不稳定,且截至10月25日开始至31日网站对该平台各项指标的数据开始不完整,所以该平台存在风险较大。基于第三方网站排名情况,结合本文研究成果,投资者需谨慎选择合适的平台进行投资。
本文获得的结果完全基第三方平台的数据表现,避免了主观因素对评级结果的影响,使得评估结果更具有客观性,避免了主观判断带来的不确定性。相比于已有的研究,本文解决了传统的评级方法主观性强的问题,克服了传统方法处理大容量数据时的不足。这种评级可以给投资者带来借鉴的作用,还可以对P2P网贷平台健康发展进行督促,减少问题平台的产生,同时也可以让投资者和借款者适时规避风险,这对P2P平台的健康发展具有一定的意义。
致谢
鸣谢国家自然科学基金资助项目的资助。
基金项目
国家自然科学基金资助项目(71601059,71673069)。
NOTES
*通讯作者。