融合机器学习算法的银行客户信用风险评估研究
Research on Credit Risk Assessment of Bank Customers Based on Integrating Machine Learning Algorithm
DOI: 10.12677/csa.2025.1512335, PDF,    科研立项经费支持
作者: 安英博, 李 奕, 杨冉冉:河北金融学院金融科技学院,河北 保定;许美玲:河北金融学院信息与人工智能学院,河北 保定
关键词: 机器学习银行客户信用风险XGBoost融合模型Machine Learning Bank Customer Credit Risk XGBoost Ensemble Model
摘要: 在金融数字化转型加速的背景下,银行客户信用风险决策面临“样本不均衡”与“误判成本高昂”的双重挑战,亟需兼顾整体精度与少数类召回的稳健模型。本文基于阿里云天池22,500名银行客户信贷数据,系统对比逻辑回归、随机森林与XGBoost三种机器学习模型,发现单一模型在召回率与F1指标上的不足;进一步提出融合模型框架,结合软投票加权平均与代价敏感学习,在不改变数据分布的前提下放大正类梯度权重,有效提升召回率至80.17%,较最优单一模型提高4.07%,AUC达0.8913,准确率保持在83.13%,为银行评估高风险客户提供了可解释、可落地的技术路径。
Abstract: In the context of the accelerating digital transformation in finance, bank customer credit risk decision-making faces the dual challenges of “sample imbalance” and “high misjudgment costs”. This situation calls for a robust model that balances overall precision and minority class recall. This study systematically compares three machine learning models—Logistic Regression, Random Forest, and XGBoost—based on the credit data of 22,500 bank customers from Alibaba Cloud Tianchi, finding that a single model falls short in recall rate and F1 metrics. It further proposes an ensemble model framework that integrates soft voting weighted averaging and cost-sensitive learning, effectively increasing the positive class gradient weight without altering the data distribution, thereby boosting the recall rate to 80.17%, an improvement of 4.07% over the optimal single model, with an AUC of 0.8913 and an accuracy maintained at 83.13%, providing an interpretable and actionable technical pathway for banks to assess high-risk customers.
文章引用:安英博, 许美玲, 李奕, 杨冉冉. 融合机器学习算法的银行客户信用风险评估研究[J]. 计算机科学与应用, 2025, 15(12): 199-208. https://doi.org/10.12677/csa.2025.1512335

参考文献

[1] 周永圣, 崔佳丽, 周琳云, 等. 基于改进的随机森林模型的个人信用风险评估研究[J]. 征信, 2020, 38(1): 28-32.
[2] 顾洲一, 胡丽娟. 机器学习视角下商业银行客户信用风险评估研究[J]. 金融发展研究, 2022(1): 79-84.
[3] 王培培, 周小平, 陈佳佳, 等. 基于麻雀搜索算法与随机森林融合模型的个人信用评估[J]. 上海师范大学学报(自然科学版中英文), 2024, 53(2): 241-246.
[4] 张淼, 顾海燕. 基于优化决策树参数的随机森林模型预测全国GDP[J]. 中国林业经济, 2025(4): 39-50.
[5] 赵阳, 张杰萌, 严国义. 基于SMOTE-XGBoost算法的信用卡违约预测模型研究[J]. 武汉工程大学学报, 2025, 47(3): 343-348.
[6] Chen, T.Q. and Guestrin, C. (2016) XGBoost: A Scalable Tree Boosting System. CoRR, abs/1603.02754.
[7] 张思扬. 基于逻辑回归模型的信用卡逾期风险预测及优化[J]. 现代信息科技, 2024, 8(19): 141-145, 151.
[8] 邱泽国, 贺百艳. 机器学习算法下信用风险评估体系构建研究——基于中国银联数据的个人信用风险评价分析[J]. 价格理论与实践, 2021(10): 89-92, 194.
[9] 曹伟萍, 张劲松. 基于不平衡数据处理与加权软投票异质集成的农户贷款违约风险预测[J]. 计算机应用与软件, 2025, 42(8): 71-79.
[10] 王丹, 吴腾, 于振华, 等. 基于联邦学习的代价敏感卷积神经网络分类方法[J]. 西安科技大学学报, 2025, 45(3): 591-606.