基于数据重构与阈值自适应的信用卡欺诈不平衡分类模型研究
Research on A Credit Card Fraud Imbalanced Classification Model Based on Data Reconstruction and Threshold Adaptation
DOI: 10.12677/csa.2025.1512348, PDF, HTML, XML,    科研立项经费支持
作者: 孙 娜, 刘政永:河北金融学院河北省金融科技应用重点实验室,河北 保定
关键词: 信用卡欺诈检测不平衡分类数据重构阈值自适应Credit Card Fraud Detection Imbalanced Classification Data Reconstruction Threshold Adaptation
摘要: 随着信用卡交易的普及,欺诈检测已成为银行风险控制的核心挑战。该问题的关键在于欺诈交易仅占极低比例,导致数据高度不平衡,使得传统分类模型严重失效。为此,本文提出一种基于数据重构与阈值自适应的不平衡分类模型。本研究以Kaggle信用卡欺诈数据集为对象,首先通过特征选择与样本平衡技术进行数据重构,从源头优化数据质量与分布。进而,在逻辑回归模型基础上,突破默认0.5阈值的限制,引入阈值自适应调整机制,系统优化分类决策边界。结果表明,本方法有效解决了类别不平衡带来的预测偏差。其中,“数据重构”显著提升了模型对欺诈交易的识别能力,而“阈值自适应”则在召回率与误报率之间实现了基于业务需求的最优平衡。二者协同,共同构成了一个高效、实用的欺诈检测解决方案,为金融风控领域的类似问题提供了重要的方法论参考与实践价值。
Abstract: With the widespread adoption of credit card transactions, fraud detection has become a core challenge in bank risk control. The crux of this problem lies in the extremely low proportion of fraudulent transactions, resulting in highly imbalanced data that renders traditional classification models largely ineffective. To address this, this paper proposes an imbalanced classification model based on Data Reconstruction and Threshold Adaptation. Using the Kaggle credit card fraud dataset, the study first performs Data Reconstruction through feature selection and sample balancing to optimize data quality and distribution at the source. Furthermore, building upon a logistic regression model, it breaks through the limitation of the default 0.5 threshold by introducing a Threshold Adaptation mechanism to systematically optimize the classification decision boundary. The results show that this method effectively mitigates the prediction bias caused by class imbalance. Specifically, “Data Reconstruction” significantly enhanced the model’s ability to identify fraudulent transactions, while “Threshold Adaptation” achieved an optimal business-oriented balance between the recall rate and the false positive rate. Working synergistically, they form an efficient and practical fraud detection solution, providing significant methodological reference and practical value for similar problems in the field of financial risk control.
文章引用:孙娜, 刘政永. 基于数据重构与阈值自适应的信用卡欺诈不平衡分类模型研究[J]. 计算机科学与应用, 2025, 15(12): 340-352. https://doi.org/10.12677/csa.2025.1512348

1. 引言

随着全球经济与金融科技的深度融合,信用卡作为现代支付体系的核心工具,其发行量与交易规模持续攀升。然而,在产业繁荣的背后,信用卡欺诈交易也呈现出高发与隐蔽化的趋势,对银行资产安全与客户信任构成了严峻挑战。因此,构建高效、精准的欺诈交易识别模型,已成为银行业务风险控制的焦点问题之一[1]

在利用数据挖掘技术解决此类问题的实践中,一个普遍且关键的挑战是数据类别不平衡[2]。在信用卡欺诈检测场景中,欺诈交易在全体样本中占比极低,导致数据集呈现显著的“多数类”(正常交易)与“极少类”(欺诈交易)并存的分布特性[3]。传统的分类模型在处理此类数据时,会因多数类的支配性影响而严重偏向于将其预测为正常交易,从而导致对欺诈行为的极低召回率,使得模型在实际业务中失效[4]

为应对上述挑战,本研究以Kaggle平台提供的“Credit Card Fraud Detection”真实数据集为研究对象,提出一种融合数据重构与阈值自适应的系统性解决方案。本研究旨在通过特征选择与不平衡样本处理的数据重构从数据层面根治类别分布失衡问题,进而通过阈值自适应调整策略从决策层面优化模型的业务表现,最终构建一个在高度不平衡场景下兼具高欺诈识别率与低误报率的信用–卡欺诈分类模型。本研究旨在为信用卡欺诈风险控制提供一个从数据治理到决策优化的完整、可复现的解决方案。

2. 研究思路

为实现研究目标,本文设计并实施了一个以数据重构和阈值自适应为核心的研究路线,构建其核心逻辑与流程如下。

第一步数据探索与基准建立。本阶段旨在对原始数据进行初步的认知与基线模型构建。通过对类别分布的统计分析量化不平衡程度,并构建一个逻辑回归基准模型。此阶段的核心目的在于揭示原始不平衡数据对模型性能的制约,为后续的数据重构提供必要性依据。

第二步数据重构与特征工程。本阶段是本研究实施数据重构的核心环节,旨在从数据和特征层面提升模型的学习基础。首先,采用多种特征选择方法剔除噪声变量,完成特征维度的重构。其次,针对数据的极端不平衡特性,分别采用下采样与SMOTE过采样技术,完成训练样本分布的重构,旨在为模型提供更均衡的学习信号。

第三步模型优化与阈值自适应。本阶段聚焦于模型的决策优化,是实现阈值自适应的关键。在逻辑回归框架下进行超参数调优后,重点突破默认0.5分类阈值的限制,通过系统性地调整分类决策阈值,并分析其对召回率与误报率的影响。该自适应阈值调整机制使模型能够根据不同业务场景的风险容忍度进行灵活配置,从而实现分类性能的最优平衡。

3. 变量说明

本文研究数据来源于Kaggle的Credit Card Fraud Detection竞赛项目,案例数据可在官网(https://www.kaggle.com/)上下载数据。该数据集包含了2013年9月欧洲持卡人通过信用卡进行的所有交易。该数据集有两天内所发生的交易,在总计为284,807笔交易中,仅有492起欺诈交易,同时有284,315未欺诈交易。数据集呈现出高度不平衡,欺诈数据占所有交易的0.172%。该数据集的变量均为数字输入变量,除了“时间”和“数量”属性外,其余的属性是主成分分析转换的结果。但是,由于需要保护客户信息等原则问题,我们无法提供有关数据的原始属性和更多背景信息。属性V1,V2,……,V28是使用主成分分析获得的主成分,尚未使用主成分分析转换的功能属性是“时间”和“数量”。属性“时间”包含数据集中每个事务和第一个事务之间经过的秒数。属性“金额”是交易金额,即每次发生欺诈时的金额大小。属性“类别”是响应变量,也就是因变量,在发生欺诈时其值为1,未发生欺诈时其值为0。

4. 建模过程

4.1. 第一阶段数据探索与基准模型构建

4.1.1. 数据导入与初步描述

本研究采用Kaggle平台提供的“Credit Card Fraud Detection”数据集,共计284,807条交易记录,其中欺诈交易仅492笔,占比0.172%,呈现出典型的高度不平衡分布。数据集中除“Time”与“Amount”为原始特征外,其余V1~V28变量均为经主成分分析(PCA)处理后的降维结果,以保护用户隐私。

4.1.2. 描述性统计与可视化分析

Figure 1. Distribution of fraud or normal

1. 是否欺诈变量分布图

首先通过做类别变量作分布图(见图1),对是否欺诈分布的统计分析发现,欺诈与非欺诈样本数量差异显著,呈现极端不平衡现象。

Figure 2. Distribution of time and fraud or normal

2. 时间与是否欺诈交易分布图

其次,对变量Time与是否为欺诈交易关系进行可视化分析。

将Time变量单位改成小时,作欺诈交易和正常交易的时间分布图(见图2),由图2知,正常交易呈现明显的周期性波动,而欺诈交易未表现出显著的时间规律。

Figure 3. Distribution of amount and fraud or normal

3. 交易金融与是否欺诈交易分布图

最后,对变量Amount与是否为欺诈交易关系进行可视化分析。作欺诈交易和正常交易的金额分布图(见图3),由图3可知,欺诈交易多集中于小额交易,交易金额(Amount)在区分欺诈行为上的判别能力有限。

4.1.3. 基准模型构建

采用逻辑回归模型作为基准模型,将全部特征纳入建模过程,作逻辑回归模型ROC曲线(见图4)。

图4知,模型在测试集上准确率很高(0.9992),但由于数据不平衡,模型对欺诈样本的识别能力(即召回率)较差(0.8276)。这一结果明确了不进行数据重构与阈值调整的模型在业务中的局限性,为后续核心工作的展开提供了明确方向。

Figure 4. ROC curve of the logistic regression model

4. 逻辑回归模型ROC曲线图

4.2. 第二阶段:特征工程与不平衡数据处理

前面我们在简单数据分析的基础上,建立模型进行预测,但也存在一些问题,需要我们精益数据。主要问题是(1) 我们只对金额、时间等变量进行探索分析,没有分析V1~V28变量与是否欺诈之间的关系,都纳入模型,容易过拟合。(2) 本项目中欺诈与正常数据严重不平衡,上面建立的模型预测精度高并不能说明模型好。举个例子,我们拿到有1000条病人的数据集,其中990人为健康,10个有癌症,我们要通过建模找出这10个癌症病人,如果一个模型预测到了全部健康的990人,而10个病人一个都没找到,此时其正确率仍然有99%,但这个模型是无用的,并没有达到我们寻找病人的目的。因此,本阶段从特征和样本两个层面重塑训练数据,为模型提供高质量的学习基础。

4.2.1. 特征重构:基于多方法融合的特征选择

为提升模型泛化能力并缓解过拟合,采用三种方法进行特征筛选。

(1) 分布重叠分析

本方法是通过作变量欺诈与正常分布重叠图,比较欺诈与非欺诈样本在各特征上的分布重叠程度来,来对变量特征进行筛选。如果变量分布重叠图重叠部分很大,说明变量在区分是否欺诈上作用不大,应该剔除此变量;反之如果变量分布重叠图重叠部分很小,说明变量在区分是否欺诈上作用很大,应该保留此变量。鉴于变量分布重叠图太多,只提供变量V14和V15作说明(见图5)。

根据上面选择标准,应该保留变量V14,删除变量V15。

(2) Lasso回归

Lasso回归是通过L1正则化进行特征稀疏化,筛选出对欺诈识别具有显著影响的变量。

本研究采用Lasso回归进行特征筛选。Lasso是一种在线性模型基础上引入L1正则化的回归方法。L1正则项的存在使得模型在优化过程中倾向于将部分回归系数压缩至精确为零,从而实现特征的自动选择与模型的稀疏化,这对于处理高维数据、防止过拟合及提升模型可解释性具有重要意义。

在本研究中,我们通过交叉验证确定最优的α值。在此惩罚水平下,所有系数不为零的特征被视为对预测欺诈行为有显著贡献的变量,并被保留;而系数被压缩至零的特征则被认为贡献度较低或存在冗余,将从模型中剔除。对Lasso回归后变量重要性作图(见图6)。

Figure 5. Overlapping distribution of fraud or normal for variables V14 and V15

5. 变量V14和V15是否欺诈交易分布重叠图

Figure 6. Distribution of Lasso regression variable importance

6. Lasso回归变量重要性分布图

图6所示,Lasso模型评估了各特征的系数绝对值(即重要性)。图6中可以清晰地观察到,不同特征的重要性存在显著差异。例如,特征V4、V11、V12等展现了较高的正或负系数绝对值,表明它们对欺诈判别的贡献较大;而另一部分特征(如V8、V13、V15等)的系数则被压缩至零或接近于零,显示出其在模型中的微弱作用。

(3) 随机森林模型

为从不同角度验证特征的重要性,并确保特征选择的稳健性,本研究进一步采用随机森林分类器进行特征评估。随机森林是一种集成学习方法,它通过构建多棵决策树并综合其结果来进行预测或评估特征重要性。其评估特征重要性的主要依据是基尼不纯度平均减少量,即当一个特征被用于在决策树中分割节点时,它所带来的数据不纯度的下降程度。在所有树上对此下降量进行平均,即可得到该特征的全局重要性得分。这种方法能够有效捕捉特征之间的非线性关系与交互效应。

在本研究中,我们训练一个随机森林分类器,并计算所有特征的重要性得分。我们将重要性得分较高的特征视为对模型预测贡献大的关键变量,而将得分持续偏低、接近零的特征判定为冗余或噪声变量,并将其纳入考虑剔除的候选集。 我们作随机森林模型特征重要性图(见图7)。

Figure 7. Distribution chart of random forest model variable importance

7. 随机森林模型变量重要性分布图

图7清晰地展示了由随机森林模型计算出的各特征重要性排序。由图7可以直观地看到,特征V17、V14、V12、V16、V11等位于排行榜前列,重要性得分显著高于其他特征,表明它们是区分欺诈交易与正常交易的关键驱动因素。相反,诸如V23、V27、V25、V15等特征则排名最末,其重要性得分微乎其微。

随机森林的特征重要性排序与之前Lasso回归的结果形成了有力的相互印证。例如,在Lasso中被赋予高权重的V14、V12等特征,在随机森林中同样位居前列;而在Lasso中被压缩至零的V15、V13等特征,在随机森林中也显示出极低的重要性。这种跨方法的一致性,极大地增强了我们特征选择决策的可靠性与鲁棒性。

最终,我们综合三种方法,保留V1~V7、V9~V12、V14、V16~V19、V21等变量,剔除V8、V13、V15、V20、V22~V28及Time、Amount。此举实现了特征空间的降维与净化,是数据重构的第一步。

4.2.2. 样本分布重构:基于采样技术的平衡化处理

数据严重不平衡,负样本(欺诈时的值为1的样本)的数量太少。如果我们不进行处理,直接用这样的数据来进行训练建模,那得到的结果将非常糟糕。

为从根本上改善模型对少数类的识别能力,本研究实施了样本分布的重构。为缓解类别不平衡对模型性能的影响,一般采用以下两种采样策略:(1) 下采样(Undersampling),从多数类中随机抽取与少数类等量的样本,构建平衡训练集;(2) 过采样(Oversampling),采用SMOTE算法对少数类样本进行合成扩充,使其与多数类样本数量一致[5]

(1) 下采样

对于数据集中出现的数量严重不等的两类数据,从数量比较多的那类样本中,随机选出和与数量比较少的那类样本数量相同的样本,最终组成正负样本数量相同的样本集进行训练建模。

(2) 过采样

与下采样采用减少数据的做法不同,过采样采用的另一种思路。过采样是指对样本中数量较少的那一类进行生成补齐,使之达到与较多的那一类相匹配的程度。那么该如何生成数据,使之扩充到相匹配的程度呢?最常用的一种方法是SMOTE算法,下面逐步展开。1) 分离数据中的特征和标签;2) 将数据分成训练数据和测试数据,比例7:3;3) 利用SMOTE来处理训练样本,得到均衡的训练样本。

通过上述采样技术,我们重构了训练集的样本分布,旨在解决类别不平衡问题。

4.3. 第三阶段:模型优化与阈值调优

逻辑回归的模型调优一般考虑对其正则惩罚项系数进行调整,sigmoid函数选择[6],在实际场景中一般是保证一定精确率(Precision)的情况下尽可能提高召回率(Recall rate)。

本阶段在数据重构的基础上,聚焦于模型决策过程的优化,其核心是引入“阈值自适应”机制,以将模型输出的概率转化为更契合业务需求的分类结果。

4.3.1. 模型调参与评估

得到模型后,必不可少的步骤是验证模型,这也将有助于我们知道模型的效果怎么样,适不适合应用,而调参又是决定模型好坏的最核心因素。

机器学习中,当将要采用的机器算法确定后,模型训练的实质就是确定一系列的参数了(调参)。调参其实就是各种试,但也是有章可循的。(1) 首先要用一些数据和某个参数来训练得到一个模型;(2) 然后用另外一些数据来带入刚才训练好的模型;(3) 输出结果和标签进行比较,计算出来一个评价指标;(4) 根据这个评价指标来判断刚才带入的那个参数到底好不好。

因此在逻辑回归框架下,我们通过交叉验证与网格搜索对正则化参数进行调优。采用精确率与召回率作为主要评估指标,重点关注召回率以提升欺诈样本的识别能力。

(1) 下采样模型

将下采样处理得到的测试数据带入模型,利用得到的预测结果和实际标签画出混淆矩阵(见图8)。

图8所示的混淆矩阵可知recall为:

recall= TP/ ( TP+FN ) = 135/ ( 135+12 )

可见recall只和TPFN有关系,那当FP很大时(本来为0,没有欺诈风险,但预测为1,预测成有风险),所以在调参的时候不仅要看recall值,还要通过混淆矩阵,看看FP等参数。

上面是用下采样处理得到的测试数据来求recall和混淆矩阵的,因为下采样得到的数据相比于原始数据是很少的,所以这个测试结果没什么说服力,所以我们要用原始数据(没有经过下采样的数据)来进行测试。同样得到的预测结果和实际标签画出混淆矩阵(见图9)。

图9可知,在测试集上召回率较高,但在全量数据上误报率显著上升。

Figure 8. Confusion matrix of the down-sampled logistic regression model

8. 下采样逻辑回归模型混淆矩阵图

Figure 9. Confusion matrix of the logistic regression model for the original data

9. 原始数据逻辑回归模型混淆矩阵图

(2) 过采样模型

将过采样处理得到的测试数据带入模型,利用得到的预测结果和实际标签画出混淆矩阵(见图10)。

Figure 10. Confusion matrix of the oversampled logistic regression model

10. 过采样逻辑回归模型混淆矩阵图

图10可知,召回率进一步提升,且误报率显著降低(从原来的误杀2075到现在的1959个),表明SMOTE方法在处理高度不平衡数据时更具优势。

在经数据重构后的训练集上,通过交叉验证与网格搜索对正则化参数进行调优。

4.3.2. 分类阈值调整

虽然通过过采样解决了一部分问题,但是还存在问题。我们在求得高的召回率的时候,却误选了1959个。也就是我们错误地把1959个正常客户误认为是欺诈客户,这在业务上是不可能承受的误差。这时候,就得考虑sigmoid函数的问题了。

在sklearn包的逻辑回归模型中,其默认分类激活函数是:

S( x )= 1 1+ e x

一般情况下,模型的阈值为0.5,即概率大于0.5的分为1,反之为0。但当阈值偏小时,会导致划分为1的数据偏多,所以通过改变阈值来改变模型结果。

逻辑回归默认将0.5作为分类阈值,但这在不平衡分类中通常不是最优决策点。本研究提出一种阈值自适应的优化策略:通过分析不同阈值下的混淆矩阵,动态地评估召回率与误报率的权衡关系。我们选择不同的阈值作混淆矩阵图进行分析。阈值选择0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8和0.9。

(1) 下采样

下采样下不同阈值下的逻辑回归混淆矩阵图见图11

下采样模型在平衡数据集上训练,其混淆矩阵规模较小,但揭示了清晰的阈值影响规律。根据图11分析如下:1) 低阈值(0.1~0.3),模型极为敏感。召回率很高,但这是以极高的误报率为代价的。这意味着模型几乎捕捉到了所有欺诈,但将大量正常交易误判为欺诈。2) 阈值升高(0.4~0.6),模型的敏感性下降,特异性上升。误报(FP)显著减少,但漏报(FN)开始增加。召回率与误报率之间呈现出明显的权衡关系。3) 高阈值(0.7~0.9),模型变得非常保守。误报(FP)极低,但漏报(FN)大幅增加,召回率严重牺牲。

Figure 11. Confusion matrix plot of logistic regression with different thresholds under down-sampling

11. 下采样下不同阈值逻辑回归混淆矩阵图

(2) 过采样

过采样下不同阈值下的逻辑回归混淆矩阵图见图12

过采样模型在扩充后的数据集上训练,其结果更具业务代表性。由图12可知,(1) 低阈值(0.1~0.2),同样表现出高召回率,但误报的绝对数量惊人。这意味着尽管抓住了绝大多数欺诈,但每天需要额外审核近2万笔正常交易,运营成本无法承受。(2) 阈值升高(0.3~0.5):这是业务价值的核心区间。随着阈值从0.3升至0.5,误报数量(FP)从4552急剧下降至1959,而降幅远远快于欺诈漏报(FN)的增加。在阈值0.5时,模型以仅漏报16个欺诈病例的代价,将误报量控制在了1959这一相对可管理的水平。(3) 高阈值(0.6~0.9):误报数量(FP)继续下降至几百例,但漏报的欺诈(FN)开始显著增加,模型的防护能力出现实质性漏洞。

Figure 12. Confusion matrix of different thresholds of logistic regression under oversampling

12. 过采样下不同阈值逻辑回归混淆矩阵图

4.3.3. 业务问题策略

基于以上分析,我们提出以下基于阈值自适应理念的业务策略。

(1) 首选方案,过采样模型 + 中等阈值。推荐阈值范围0.4~0.5。在此区间,模型能够稳定地保持高召回率(约90%)的同时,将误报数量从数千级别(低阈值)大幅削减至一两千。这为风险控制团队提供了一个效率与成本兼备的最佳操作窗口。

(2) 备选方案,下采样模型 + 低阈值(特定场景)。适用场景:当出现新型或大规模欺诈攻击,业务策略转向“宁可错杀,不可放过”的最高安全等级时,可临时启用该模式。必须预见到此举将产生极高的误报量,需要配备充足的审核资源,并承担因此带来的客户体验下降的风险。

(3) 动态阈值策略,实现真正的“自适应”。业务不应固定使用一个阈值。建议根据实时风险态势实施动态调整。风平浪静期,采用较高阈值(如0.6),以优化客户体验、节约运营资源为主。风险高发期(如节假日、黑五促销),主动切换至较低阈值(如0.4),提升系统灵敏度,加强安全防护。这种动态自适应机制使得模型不再是僵硬的工具,而成为一个能够响应业务节奏的智能风险控制系统。

本研究通过系统的阈值分析证明,脱离业务成本谈召回率是片面的。过采样模型配合0.4~0.5的自适应阈值,为本研究面对的信用卡欺诈检测业务问题提供了最优的综合解决方案,它成功地将在数据重构阶段获得的理论性能增益,转化为了切实可行的业务价值。

5. 研究结论

本研究围绕数据重构与阈值自适应两大核心策略,对高度不平衡的信用卡欺诈数据进行了系统建模,得出以下结论:(1) 数据重构是提升模型判别能力的基石。通过特征选择与SMOTE过采样相结合的数据重构策略,有效解决了特征冗余与样本不平衡的双重问题,为模型学习提供了高质量的数据基础,显著提升了对欺诈交易的召回率。(2) 阈值自适应是优化模型业务价值的关键。突破固定阈值的限制,采用自适应阈值调整机制,使模型能够在高召回率与低误报率之间取得基于业务需求的最优平衡,证明了其在决策层面的强大灵活性。(3) 协同作用驱动模型性能飞跃。本研究验证了“数据重构”与“阈值自适应”的协同效应。数据重构从底层提升了模型的判别能力,而阈值自适应则从决策层面将这种能力转化为实际的业务价值,二者共同构成了一个完整且高效的不平衡分类解决方案。

6. 研究展望

基于本研究的基础,未来工作可从以下几个方面进一步深化。(1) 探索更先进的数据重构技术,如引入生成对抗网络(GANs)进行少数类样本生成,或研究自适应合成采样方法(如ADASYN) [7]。(2) 深化阈值自适应机制,研究基于代价敏感学习或贝叶斯优化的自适应阈值确定方法,实现阈值的动态与自动化调整。(3) 框架的扩展与应用,将本研究的“数据重构–阈值自适应”框架迁移至其他不平衡分类场景(如网络入侵检测、医疗诊断),验证其普适性,并探索与集成学习、深度学习等更复杂模型的结合。

基金项目

2025年度河北省金融科技应用重点实验室课题(2025006)。

参考文献

[1] 顾明, 李飞凤, 王晓勇, 郑冬花. 基于改进SMOTE算法和深度学习集成框架的信用卡欺诈检测[J]. 贵阳学院学报(自然科学版), 2024, 19(2): 99-104, 115.
[2] 周可. 面向非平衡数据的信用卡欺诈检测研究[D]: [硕士学位论文]. 鞍山: 辽宁科技大学, 2024.
[3] 刘汝欣. 基于不平衡分类和混合深度学习模型的信用卡欺诈检测研究[D]: [硕士学位论文]. 抚州: 东华理工大学, 2024.
[4] 曾昊. 基于集成学习的不平衡数据集算法研究[D]: [硕士学位论文]. 柳州: 广西科技大学, 2024.
[5] 王全东. 考虑类别不平衡的半监督集成个人信用评分模型研究[D]: [硕士学位论文]. 上海: 东华大学, 2025.
[6] 张信渊. 面向不平衡数据分类的孪生超球支持向量机模型改进及其在信用卡欺诈检测中的应用[D]: [硕士学位论文]. 银川: 北方民族大学, 2025.
[7] 徐蕴灏. 基于生成对抗网络的信用卡欺诈检测研究[D]: [硕士学位论文]. 南京: 南京邮电大学, 2023.