1. 引言
21世纪全球经济中,金融市场繁荣稳定成为经济增长和社会进步的关键。全球化与数字化推动金融市场复杂化、互联化,金融创新与服务模式变革加速。信用风险管理核心地位凸显,准确预测违约概率关乎金融机构安全、利润及市场稳定、投资者信心。消费金融、互联网金融普及带来便利,也伴随信用违约风险。传统信用评分系统面临市场与消费者行为变化挑战,难以全面捕捉新风险。为了应对这些挑战,金融机构和学术界开始探索更加先进、智能的信用风险评估方法。其中,基于大数据和机器学习技术的信用客户违约概率预测模型备受关注。这些模型能够处理海量、多维度的数据资源,通过复杂的算法和模型构建过程,挖掘出隐藏在数据背后的深层次规律,从而实现对客户违约风险的精准预测。
Vapnik和Cortes于20世纪末提出了一种新的用于分类问题的工具[1]:支持向量机(Support vector machine, SVM)是用于监督学习的计算功能强大的工具,在各种现实世界的应用中成功且广泛地用于分类和回归。近年来,支持向量机的一个分支——非平行超平面支持向量机得到了发展,并引起了人们的广泛兴趣。为解决繁重的训练时间成本限制了SVM处理大规模数据集的能力以及对于处理XOR数据集时,单个分离超平面的SVM预测性能往往不理想的问题,Jayadeva、Khemchandani和Chandra [2]构建了一对非平行超平面来区分新样本,称为孪生支持向量机(Twin suppport vector machine, TWSVM),TWSVM使得训练样本同时靠近自己和远离对方的超平面。由于TWSVM只需要求解两个较小的QPP,因此它的运行速度大约是标准支持向量机的四倍。由于TWSVM的良好性能,许多文献都致力于改进或发展它。Kumar和Gopal [3]用等式约束代替不等式约束,提出了最小二乘TWSVM (LSTWSVM),更加快了TWSVM的计算速度。但是TWSVM在训练和预测过程中存在不一致的问题,因此Shao [4]等人设计了一种新的非平行超平面SVM (NHSVM),该支持向量机通过单个支持向量机优化问题可以获得两个分离超平面,使得支持向量机在训练和预测中是一致的。Qi Kai等人[5]指出了NHSVM在几何视图上没有很好的定义并提出了一种新的最小二乘几何非平行超平面支持向量机(LS-GNHSVM),但是LS-GNHSVM使用的是凸损失函数,会导致模型的性能受异常值的影响而降低。Liu [6]提出了一种解决异常值和离群点敏感问题的SVM,Ramp Loss LSSVM (RLSSVM)。
本文在LS-GNHSVM和Ramp LossLSSVM的启发下构造了一个基于Ramp Loss的LS-GNHSVM,叫做RLS-GNHSVM,应用于对信用卡客户违约概率的预测分析中,提高预测精度。其主要思想是,将LS-GNHSVM中的损失函数替换为斜坡损失,旨在解决LS-GNHSVM中凸损失函数对离群点和异常值的敏感问题。由于所提的RLS-GNHSVM是一个非凸优化问题,用CCCP算法对其转换成类似凸优化问题进行求解,用CVXR包求解模型。改进的斜坡损失最小二乘几何非平行超平面支持向量机(RLS-GNHSVM)对于异常值具有鲁棒性,为金融机构对客户的信用风险评估提供了更有力的工具。
2. 相关原理
在本章中,依次介绍了斜坡损失SVM、斜坡损失LSSVM和LS-GNHSVM。
2.1. 斜坡损失SVM
对于有n个训练样本并且维度是p维的二分类问题,将第i个数据点定义为
,其中
是数据输入值,
是
对应的类别标签。正类数据有
个,负类数据有
个,且
。定义
为正类数据集矩阵,
为负类数据集矩阵,
为标签向量。不做声明时,所有的向量为列向量。
标准支持向量机的目标是找到一个单独的超平面来适当地分离两类训练样本。最优分类器主要根据两个边界超平面之间的几何间隔最大的原则来确定。换句话说,必须优化以下问题:
(1)
其中,
是数据矩阵,
是由数据类别标签构成的对角矩阵,并且e是全为1的n维向量。
和
分别是决策超平面的法向量和截距项。
是调整参数,
是松弛变量,引入松弛变量是为了允许训练样本违反原始不等式约束。
标准的SVM依赖于经典Hinge损失函数(见图1(b))
其中,下标s表示Hinge点的位置,以惩罚分类错误的样本,则标准SVM的原问题可以进一步写成:
(2)
由于Hinge损失函数的引入,标准SVM对于异常观测值具有敏感性。为了提高SVM的鲁棒性,避免将异常值转化为支持向量,提出了斜坡损失函数[7] (见图1(a)),也称为鲁棒的Hinge损失函数。
(3)
通过使z的值小于预定值
时的损失函数平坦化来取代Hinge损失函数。
可以分解为凸Hinge损失和凹损失(见图1(c))之和,
Figure 1. (a) Ramp loss; (b) Hinge loss; (c) Concave loss
图1. (a) 斜坡损失函数;(b) Hinge损失函数;(c) 凹损失函数
因此,斜坡损失SVM (RSVM)的原问题可以写为:
(4)
这可以通过CCCP过程[8]来求解。
2.2. 斜坡损失LSSVM
尽管标准的SVM (1)在多种情况下都表现良好,但是他的计算复杂度是
,其中n是训练样本的数量。因此,标准的SVM受限于解决大样本的数据。为解决这一问题,提出了最小二乘支持向量机LSSVM,LSSVM将SVM的不等式约束代替为等式约束,LSSVM考虑的是如下优化问题:
(5)
由于位于两个超平面附近的点的支持值最小,它们对决策函数的贡献较小[8],同时,对于位于原理两个超平面的点,特别是离群点,它们往往有较大的支持值,而我们想要消除这类点的影响。因此,RLSSVM参照
-支持向量回归中加入
-不敏感损失函数的思想,构造了如下优化问题:
其中,
是
-不敏感斜坡损失函数(见图2(a)),
(6)
使得
-不敏感的二次损失函数(见图2(b))
在
时是光滑的。显然
-不敏感斜坡损失函数
可以分解为凸
-不敏感二次损失函数和凹损失函数(见图2(c))的和,
(7)
Figure 2. (a) Ramp
-insensitive loss; (b)
-insensitive quadratic loss; (c)
-insensitive concave loss
图2. (a)
-不敏感斜坡损失函数;(b) 凸
-不敏感二次损失函数;(c) 凹损失函数
2.3. LS-GNHSVM
另一种减少计算负担的方法是训练两个较小规模的样本,即所谓的孪生支持向量机(Twin Support Vector Machine, TWSVM)。与标准SVM和LSSVM不同的是,TWSVM求解的是对应于每个类的一对非平行超平面。逻辑上,一个合理的分类器应该在训练和预测过程中被一致地定义。然而,TWSVM在训练过程中没有考虑到两个分离超平面之间的距离。这个问题可能会降低性能,特别是在异方差的情况下。为了解决这个问题,Shao等[4]提出了一种新的非平行超平面支持向量机(NHSVM)。尽管NHSVM是一致的,但是Qi Kai等人[5]发现模型NHSVM在几何视图中没有很好的定义。因此提出了最小二乘版本下的GNHSVM。对于任意一对超平面,总是可以得到一个平均超平面:
其中,
和
是正超平面和负超平面的法向量和截距项。如果样本
越靠近正(负)类超平面,则表明它等价的位于平均超平面的上(下)方。因此,样本到每个超平面的距离比较可以转化为相对于平均超平面的位置比较。则与NHSVM不同,LS-GNHSVM在几何上更合理的约束可以写为:
(8)
这时约束条件(8)有两个优势:一是该约束与预测过程是一致的。根据约束(8),正(负)样本被限制在平均超平面的上方(下方),或者说等价地更靠近正(负)超平面。因此,约束条件(8)与预测过程的思想完全一致。二是该约束与最小化
是兼容的。则LS-GNHSVM写为:
(9)
3. 斜坡损失最小二乘几何非平行超平面支持向量机
本文构造了结合
-不敏感斜坡损失函数下的在几视图上有较好的定义的非平行超平面支持向量机,称为斜坡损失最小二乘非平行超平面支持向量机(Ramp Loss LS-GNHSVM, RLS-GNHSVM)。在几何视图上有很好的定义并且能够解决二次损失函数导致的对于异常值敏感的问题以及使得支持向量机更具有稀疏性。
3.1. 线性情况
是二次损失函数,
。为消除离群点对支持向量机的影响,则我们用
-不敏感斜坡损失函数
代替
构造了如下优化问题:
(10)
其中,,
.
根据CCCP框架[6]以及LS-GNHSVM则可以得出问题(10)的对偶问题。
其中,
是先验参数,
。为了简化起见,我们引入了符号:
其中
,
是由
构成的列向量。则对偶问题可写为:
(11)
其中,
是拉格朗日乘子向量,
是
阶单位阵。
,
。,
,
是n阶单位阵,
,
,
。
综上所述,给出了本文所提方法的CCCP求解过程如表1所示:
Table 1. The process of solving model parameters
表1. 求解模型参数过程
RLS-GNHSVM (1) 输入训练样本
及其对应标签
; (2) 选择参数
,选择适当的惩罚参数
和核函数
,初始化
,设
; (3) 构造并求解第k个迭代步骤中的QPP问题: 得到
,计算
, 则决策函数为
,
; (4) 计算
; (5) 若
,则输出(3)中得到的
,运行第(6)步,否则令
,返回第(3)步; (6) 给一个新的样本点
,应用如下决策函数为其进行分类:
|
3.2. 非线性情况
接下来,我们将RLS-GNHSVM从线性情况推广到非线性的场景下,设
是原始样本空间到某个高维希尔伯特空间的映射,
是其对应的核函数。因此,对于任意两个样本点
,都有
。
在经过核变换后,我们考虑如下两个非平行分离超平面:
,
令,
则非线性的RLS-GNHSVM定义为:
(12)
其对偶问题为:
(13)
其中,,
我们可以发现,优化对偶问题(13)与线性场景下求解问题(11)是类似的。类似地,得到
后,可以通过如下决策函数对新加入的样本点进行分类,
.
4. 基于RLS-GNHSVM的信用卡客户违约概率预测模型
4.1. 数据来源与指标设计
本文的数据来自UCI机器学习库(https://archive.ics.uci.edu/)公开的数据,该数据集台湾地区的信用卡客户拖欠付款情况的数据,通常,从风险管理的角度来看,预测违约概率的预测准确性的结果将比分类的二元结果(可信或不可信的客户)更有价值。由于违约的真实概率未知,本研究提出了一种新的稳健的分类方法来估计违约的真实概率。每条数据样本均有23个属性。本文的响应变量为客户是否付款违约,一共有两种可能的状态:违约和不违约。综合考虑数据结构和指标特征,在众多影响因素中主要考虑了以下23个解释变量对响应变量进行建模分析,这些变量均与客户是否存在付款违约有高度相关关系[9]。变量具体说明如表2。
(1) 年龄(age):该指标是信用卡客户的年龄,用于反映客户所处年龄阶段。它是一个多样化的指标,涵盖了从青年到老年的广泛年龄段。不同年龄段的客户对信用卡的需求和使用习惯有所不同,但总体上,信用卡作为一种支付工具,在各年龄段中均有一定的用户基础。年轻客户可能更看重信用卡的消费便利性和优惠活动,而中年和老年客户则可能更注重信用卡的支付安全性、信用积累以及附加服务。因此,年龄是理解和分析信用卡客户需求的一个重要维度。
(2) 婚姻(marital):该指标是客户的婚姻状况,有助于银行更全面地了解客户的个人情况和生活状态。婚姻状况在一定程度上反映了客户的经济稳定性和责任感。已婚人士可能因家庭责任而更加注重财务管理和信用记录,这可能对信用评分产生积极影响。针对不同婚姻状况的客户,银行可能会制定差异化的营销策略。例如,对于已婚已育的客户,银行可能会推出更多与家庭消费相关的优惠活动;而对于未婚或离婚的客户,则可能更注重提供个性化的信用服务和产品。
(3) 性别(gender):该指标是客户的性别,信用卡客户的性别是银行在数据分析和市场细分时考虑的一个基础指标。不同性别的客户在信用卡消费习惯上可能存在一定的差异。性别也可能影响客户的风险偏好。虽然这并非绝对,但一些研究指出,女性客户在财务决策上可能更为谨慎,更注重长期规划和风险控制;而男性客户则可能更倾向于追求高风险高收益的投资机会。这种差异对于银行在提供信用卡
Table 2. Data indicator variables
表2. 数据指标变量
变量类型 |
变量名 |
详细说明 |
取值范围 |
因变量 |
是否违约罚款 |
客户信用卡还款拖欠情况 |
0:不违约 1:违约 |
解释变量 |
年龄(age) |
客户年龄,反映客户所处年龄阶段。 |
20~80 |
婚姻(marital) |
婚姻状况:“已婚”,“单身”,“其他” |
1:已婚 2:单身 3:其他 |
性别(gender) |
性别:“男”,“女” |
1:男 2:女 |
受教育程度(education) |
受教育程度: “研究生”,“大学”,“高中”,“其他” |
1:研究生 2:大学 3:高中 4:其他 |
给予信贷金额 (Amount of the given credit) |
个人消费信贷和家人信贷 |
取值为正整数 |
过去付款情况 (History of past payment) |
过去5个月(2005年4~9月)的每月还款情况 |
−1:“按时支付” 1:“延迟付款1个月” 2:“延迟付款2个月”
9:“延迟付款9个月” |
账单金额 (Amount of bill statement) |
过去5个月(2005年4~9月)的每月账单金额 |
取值为整数 |
过去付款金额 (Amount of previous payment) |
过去5个月(2005年4~9月)的每月付款金额 |
取值是整数 |
服务时,如何平衡风险与收益具有参考价值。
(4) 受教育程度(education):该指标是信用卡客户的受教育程度,它是评估其信用风险、消费习惯及还款能力的重要指标之一。受教育程度较高的客户通常具备更强的财务管理能力和风险意识,他们更有可能清晰理解信用卡的使用规则、利息计算方式及逾期费用等,从而避免不必要的支出和逾期情况。在实际应用中,银行会根据客户的具体情况进行审批和额度授予。例如,对于受教育程度较低但收入稳定、信用记录良好的客户,银行也可能会给予较高的信用额度。
(5) 给予信贷金额(Amount of the given credit):该指标包括个人消费信贷和个人信贷。在信用卡的语境中,信贷金额通常指的是银行或金融机构为信用卡客户设定的信用额度,即客户可以在一定期限内透支或使用的最大金额。这个额度是银行根据客户的信用状况、收入水平、还款能力等因素综合评估后确定的。
(6) 过去付款情况(History of past payment):数据跟踪了过去(2005年4月至9月)的每月还款记录如下:2005年9月的还款情况;2005年8月的还款情况;
;2005年4月的还款状态。还款状况的衡量标准为:−1 = 按时支付;1 = 延迟付款一个月;2 = 延迟付款两个月;
;8 = 延迟付款八个月;9 = 延迟付款9个月及以上。
(7) 账单金额(Amount of bill state-ment):数据跟踪了过去(2005年4月至9月)每月客户的信用卡账单金额。
(8) 过去付款金额(Amount of previous payment):数据跟踪了过去(2005年4月至9月)每月客户支付的信用卡金额。
4.2. 信用卡还款违约概率预测模型的建立
在本节中进行实证研究,将提出的RLS-GNHSVM应用于信用卡还款违约概率预测模型,实验都在R4.4.1中进行,在基于系统配置Intel(R) Core(TM) i7-10700 CPU(2.90 GHz)和16 GB RAM的PC上运行,使用优化工具包CVXR求解模型。关于模型参数的设置,对于LSTSVM、NHSVM、LS-GNHSVM和RLS-GNHSVM,设置
,
,
;设置RLS-GNHSVM中
的取值范围为
,
。非线性情况,考虑高斯核函数,评价指标为准确率(Acc)。对于所有模型参数的选择,本文使用五折交叉验证法来搜索模型的最优参数。为了消除实验随机性的影响,进行100次数值实验,计算评价指标的平均值(Acc)和标准差(sd)。考虑实际数据为非线性可分,所以建立高斯核函数下非线性可分模型,模型结果如表3所示。提出的模型提高了预测准确率,将其应用于客户信用卡还款违约概率预测模型可以带来更好的效果。
Table 3. Data set prediction results
表3. 数据集预测结果
|
LSTSVM Acc. ± sd |
NHSVM Acc. ± sd |
LS-GNHSVM Acc. ± sd |
RLS-GNHSVM Acc. ± sd |
数据集 |
0.510 ± 0.029 |
0.825 ± 0.015 |
0.829 ± 0.015 |
0.835 ± 0.015 |
5. 结论
本文聚焦于提升金融服务领域对信用卡违约概率评估的准确性和效率,通过对UCI机器学习库中信用卡客户违约数据的深入分析,构建并验证了一种创新的预测模型——改进的斜坡损失最小二乘几何非平行超平面支持向量机(RLS-GNHSVM)。该模型通过融合斜坡损失函数与最小二乘几何非平行超平面支持向量机的各自优势,成功克服了传统凸损失函数在处理含噪数据或存在异常值时易受影响、性能下降的局限。在实证研究过程中,RLS-GNHSVM模型展现了其卓越的稳定性和预测精度。相较于其他三种模型,RLS-GNHSVM不仅在处理复杂多变的信用卡客户数据时表现出更高的鲁棒性,而且在预测客户违约概率方面实现了显著的效能提升,为金融机构提供了一种更为精准、高效的风险评估工具。