1. 引言
在5G时代,以大数据为代表的新技术正在融入各行各业,中国保险行业协会发布《保险科技“十四五”发展规划》,指出要推进保险数字化转型,以科技增质提效。在十四届全国人大二次会议上,李强总理在2024年政府工作报告中提出深化大数据、人工智能等研发应用,开展“人工智能+”行动。大数据技术为产业智能化提供数据支持,应该加强大数据与人工智能算法相结合。
就保险行业而言,随着国内汽车市场的扩大,近年来我国机动车承保数量持续增长,车险已然成为财产保险市场的重要部分。喻炜等(2017) [1]研究指出,车险领域的保险欺诈问题已经严重影响到保险公司的正常运营,并间接侵害消费者的合法权益。中国保险行业协会指出,车险欺诈是保险欺诈的重灾区,占财产险欺诈案的80%,所涉及金额每年高达200亿元。在《中国保险科技应用价值报告》中,我们得知中国财产险公司的综合赔付率大约为60%,其中,保险欺诈的损失则占据10%~15%。车险欺诈问题不仅给保险公司带去损失,侵害被保险人的权益,还妨碍了车险市场的健康发展。随着互联网保险业务的迅速发展,依托于互联网技术的新型保险欺诈活动大量出现,并且日益猖獗。为此,如何有效识别理赔人涉及欺诈的概率,构建保险反欺诈系统显得至关重要。
大数据是一个涉及大量、多样化、复杂和高速生成的数据集,朱建平等(2014) [2]指出,大数据通常指一些超过传统数据处理能力与统计思想研究的范围,必须借助软件编程来进行分析的数据集合。人工智能作为大数据分析和应用的催化剂,能够处理和分析大数据,为需要实时性的应用(如欺诈检测等)提供支持。为此,本文在大数据与人工智能时代背景下,为保险公司建立基于汽车保险的反欺诈模型,旨在提升其识别和预防欺诈行为的能力。我们通过建立车险欺诈预测模型,可帮助保险公司避免不必要的财务损失,提升保险公司的风险管理能力。为监管机构和保险公司提供科学的决策支持。这项研究不仅对保险行业至关重要,也对整个社会的经济秩序和道德风尚产生积极影响,有助于构建一个更加透明、公正、高效的保险市场环境,同时保障经济的稳定和促进社会的和谐发展。
在已有研究的基础上,利用机器学习等方法对汽车保险诈骗作进一步分析。本文的主要贡献有:首先,利用随机森林与XGBoost两种模型进行特征贡献率计算,分别筛选出贡献率显著的特征,并在后续建模中分别利用这两个筛选后的样本训练模型产生差异化的数据,使得Stacking模型训练的成果更为有效。其次,使用模拟退火的算法进行参数优化,该方法不仅速度快,而且能获得更好的机器学习参数。最后,在Stacking建模中,通过求各学习器的最优参数,比较最优状态下各学习器的训练效果来选择基学习器,并在此基础上通过输入元学习器的数据来对元学习器进行优劣比较,最终建立Stacking融合模型。
2. 文献综述
近几年来,中国保险业的发展呈现稳步增长的趋势,随着人民生活水平的逐渐提高,人们对保险的需求急剧上升的同时,保险诈骗次数也急速上升,这意味着对于保险诈骗的识别有重大意义。目前国内外也有许多学者对保险诈骗识别进行了许多方面的研究。
在传统机器学习层面,陈思迎(2019) [3]主要通过机器学习中的监督学习KNN算法和无监督学习K-means算法进行车险欺诈识别的研究并对实证结果进行比较,同时通过大数据防范车险欺诈的美国经验与中国实践进行比较得出结论。张静涵(2023) [4]是通过一种名为IDEM的筛选算法来提升在欺诈识别分类问题中集成学习的效果,接着用随机森林的方法完成一个会改变范围的对子分类器的交互式动态评价方法。于思雨(2023) [5]在医保诈骗领域,则首先通过针对医保欺诈数据存在的异质性、复杂性、不均衡性等问题,提出了高斯–随机森林混合医疗保险欺诈检测算法。通过K-means聚类模型确定聚类簇数,用高斯混合模型将数据聚为多个簇,然后在每个簇中进行类别平衡,并训练多个决策树模型进行欺诈检测。Aslam等(2022) [6]应用三种预测模型(逻辑回归、支持向量机和朴素贝叶斯)来开发欺诈检测机制。从混淆矩阵计算出六个指标,以评估预测模型的性能。
在融合模型算法层面,Gong等(2020) [7]针对基本医疗保险欺诈识别问题,提出了一种新的特征提取方法和模型融合技术。他们提出的特征二级提取算法能够有效地提取重要特征,提高后续算法的预测精度。针对医保欺诈识别场景中模拟分配不平衡的问题,提出一种基于样本比例均衡思想的样本划分方法。基于上述特征提取和样本划分方法,提出了一种新的训练拟合模型融合算法,即树杂交袋。该方法充分利用了基于Boosting融合的树模型算法的平衡思想,最终达到了提高基本医疗保险欺诈识别准确率的效果。
在神经网络与深度学习层面,Xia等(2022) [8]通过结合卷积神经网络(CNN)、长短期记忆(LSTM)和深度神经网络(DNN)提出了一种用于汽车保险欺诈识别的深度学习模型。提出的方法可以提取出更抽象的特征,并有助于避免传统机器学习算法中高度依赖领域专家的复杂特征提取过程。实验表明,该方法能有效提高汽车风险欺诈识别的准确率。Yan等(2020) [9]提出一种改进的自适应遗传算法(NAGA)与BP神经网络相结合,对BP神经网络的初始权重进行优化,以克服其易落入局部最小值、收敛速率慢、样本依赖性等缺点。最后,以某保险公司的历史保险理赔数据为样本。采用NAGA-BP神经网络模型进行仿真和预测。实证结果表明,改进的遗传算法在收敛速度和预测精度方面比传统遗传算法更先进。
通过以上文献综述,不难发现对于保险诈骗类识别的方法,仍然是以使用机器学习的方法为主。目前的研究主要是通过逻辑回归等分类算法、神经网络、随机森林等机器学习方法为主,较少有运用Stacking等将各种分类器集成来进行分析识别,以及将多种机器学习的方法效果进行比较分析,这是本文研究的动因,进一步利用融合模型分析汽车保险诈骗问题。
3. 方法与模型
3.1. XGBoost
XGBoost是一种高效的机器学习算法,Chen等(2016) [10]对其作出了详细的论述,它是一种梯度提升算法的实现,其核心思想是将复杂的模型构建过程分解为多个弱模型的叠加,每棵树尝试纠正前一轮的残差,通过逐步优化来提高模型的性能。XGBoost在处理大规模数据集时非常快速,并且提供了正则化项以防止模型过拟合。本文中,我们根据不同变量的特征值大小对其进行特征筛选。
XGBoost的目标函数在传统的梯度提升算法的目标函数的基础上,加上正则化项,可表示为:
(1)
公式中,n代表训练样本个数。
代表损失函数,是模型预测值与真实值之间的差异。K代表迭代次数。
代表第k轮的正则化项。
XGBoost的优化过程就是通过最小化目标函数来找到最优的模型参数。在每一轮迭代中,通过构建一个新的树模型来纠正前一轮迭代的残差,残差定义为当前模型的预测值与真实值之间的差异。
3.2. 随机森林
随机森林(RF)是一种集成学习算法,由Breiman (2001) [11]提出,它通过构建多棵决策树并将它们的预测结果进行集成,从而提高模型的性能和稳定性。随机森林的核心思想是“集思广益”,即通过组合多个弱学习器来构建一个强学习器。
在建立每棵树时,通过自助采样得到一个自助样本,在决策树的每个分裂节点,不考虑所有特征,而是随机选择一个特征子集,对于每棵树,基于自助样本和选定的特征子集,递归地选择最有信息增益的特征进行分裂,直到满足停止条件。在构建完所有树后,通过查看该特征在构建随机森林中的所有树时,对减少不纯度的贡献得到每个特征的贡献值。
3.3. Stacking
Stacking模型是一种融合学习方法,由Wolpert (1992) [12]提出,通过组合多个作为基学习器的模型进行数据的训练与特征的提取,将这几个模型的输出按照列的方式进行堆叠,构成了(m, p)维的新数据(m代表样本数,p代表基学习器的个数),然后将新的样本数据交给第二层模型进行拟合,最终输出预测结果,来提高整体预测性能。其原理可以分为以下几个步骤:
1) 选择基学习器:选择一组不同类型或不同参数设置的基本模型;
2) 训练基本模型:使用原数据对每个基学习器进行训练,并利用模拟退火算法得出各学习器的最优参数;
3) 生成第一层预测:利用训练后的各学习器预测待分析数据,将这几个模型的输出按照列的方式进行堆叠,并向第二层决策器输出;
4) 第二层预测结果输出:利用新样本进行决策器训练,并输出最终预测结果。
流程图如图1所示。
Figure 1. Stacking flow chart
图1. Stacking流程图
3.4. 支持向量机
支持向量机(SVM)是一种广泛应用于模式识别、分类以及回归的监督学习模型。它在众多领域中显示出卓越的性能,随着数据量的爆炸性增长,机器学习算法在处理复杂数据集方面变得越来越重要。SVM作为一种监督学习算法,因其在高维空间中寻找最优决策边界的能力而受到广泛关注。SVM的目标是找到一个超平面,可以将数据集中的样本点根据类别划分开来。在这个过程中,距离决策边界最近的样本点被称为支持向量。SVM通过最大化样本间的间隔来优化决策边界,从而提高模型的泛化能力。
4. 实证分析
4.1. 数据预处理
4.1.1. 异常值识别
由于数据的获取存在时间不同、区域不同的特点,导致数据中存在部分显著的异常值,为确保后续预测结果的有效性,本文利用
法则对连续型特征数据进行异常值的识别。
(2)
(3)
对于超过此界限的数据,将其定义为异常值,并对其做删除处理。
4.1.2. 空缺值填补
对于数据中原本就存在的缺失值以及上述异常值处理后所得的空缺值,本文利用三次样条插值进行处理。三次样条插值法的参数计算方式如下:
(4)
(5)
(6)
利用上述系数计算样条函数,得到各特征的估计值计算函数如下:
(7)
通过样条函数对缺失值点进行替换插值处理,可获得较接近真实情况的数据。
由于数据中存在单位不同的问题,容易影响后续建模中特征贡献度的计算,本文对数据进行了标准化处理。
4.2. 评价指标与特征重要性
4.2.1. 评价指标
为了论证本文模型的效用,本文将运用一份关于汽车保险诈骗的数据,数据中的是否存在欺诈行为,如果存在欺骗行为,则取值为1,否则取0。
本文使用模型五折交叉验证的准确率来进行模型效果的评估,准确率:模型对数据预测,其存在欺骗的记录为a个,样本中真实存在欺骗的记录有b个,定义准确率为
。
4.2.2. 特征重要性分析
本文通过随机森林和XGBoost方法对特征的重要程度进行排序,筛选出重要程度前20的特征来进行模型的训练,通过减少维度来减少运行的时间。而两种方法所挑选的特征重要程度有所不同,这样就产生了两份不同的数据,这为后面建立Stacking融合模型奠定了基础。图2、图3为分别通过随机森林和XGBoost算法来进行特征重要性排序的结果。本文所采用的重要程度是根据Gini指数的平均减少量计算出来的,最后再将重要程度的评分做一个归一化处理得出最终的重要程度。
Figure 2. Feature filtering based on random forest
图2. 基于随机森林的特征筛选
图2显示了在随机森林的特种贡献度下,主要损坏特征的贡献度最为突出,其次是汽车索赔金额、出险日期等。这说明保险公司在识别保险诈骗的过程中应该重点关注汽车的损坏程度以及保险的索赔金额等贡献度较大的指标。
Figure 3. Feature filtering based on XGBoost
图3. 基于XGBoost的特征筛选
图3显示了损坏程度对于是否欺诈有着巨大的贡献,并能获悉是否为组合单一限制,这与随机森林筛选的结果不同,由此本文得到了两组有差异化的特征数据。
4.3. Stacking融合模型
4.3.1. 基于模拟退火算法的融合模型参数调优
在建立融合模型中,需要确立诸多模型的参数,例如随机森林包含树的棵数、最大特征量的选择量等。为此,我们使用模拟退火算法在数值空间中搜索最优的参数,使得最终所得到的模型具有强大的准确率和模型泛化能力。具体步骤如图4所示。
Figure 4. Simulated annealing algorithm flow chart
图4. 模拟退火算法流程图
4.3.2. 模型预测结果的对比
此处将所有单个的传统机器学习模型以及一些集成算法模型与本文的Stacking模型进行对比,众所周知,传统模型有K近邻分类模型、逻辑回归模型、GBDT模型、支持向量机模型,集成模型包括了Bagging模型、随机森林模型等。
本文最终建立的Stacking模型的第一层学习器包括了逻辑回归、K近邻分类、随机森林、GBDT模型,第二层元学习器为随机森林,其结构图如图5所示。
Figure 5. Stacking structure
图5. Stacking结构
建模过程中对于元分类器的选择,我们使用了一系列的模型来进行实验,比较不同模型下的准确率,最终得到的结果如表1所示,其中Stacking模型的预测准确率为以不同模型为元学习器,以逻辑回归、K近邻分类、随机森林、GBDT模型为基学习器的情形。因为这些基学习器的原理较为不同,其单个学习器的效果也很优良,在多重比较之下将其作为相应的基学习器。
Table 1. Comparison of forecast results
表1. 预测结果对比
模型 |
单一模型预测准确率(%) |
Stacking模型预测 准确率(%) |
K近邻分类 |
74.0 |
80.4 |
高斯贝叶斯 |
58.4 |
78.3 |
随机森林 |
75.8 |
84.7 |
决策树 |
74.1 |
75.0 |
GBDT |
74.7 |
76.8 |
Bagging |
77.7 |
79.4 |
逻辑回归 |
77.0 |
78.3 |
SVM |
74.4 |
75.3 |
由表1可知,基于Stacking融合模型的效果无论使用的是哪种元学习器,其预测的效果都是比单一的传统机器学习模型要好的。主要是因为我们在Stacking模型中的第一层模型高效地提取了我们数据中的特征关系,之后再通过我们元学习器的学习,使得我们集成学习器的错误率大幅下降,通过融合的方法综合了各个强学习器的优势。而且我们的参数筛选是使用模拟退火算法来进行优化的,这保证了我们所调参数的有效性。
通过对比未进行模型融合的预测准确率,可以发现在Stacking第二层元学习器的选择中,使用随机森林进行学习的准确率是最高的,其次是K近邻分类模型所得的准确率。通过对比我们可以看出,如果我们在这份数据集之上使用不同的元学习器进行模型融合的话,我们最终的预测准确率差异还是比较大的。
本文为了探究差异化数据对模型欺诈识别的作用,计算得出的表2是本文使用差异化数据和未使用差异化数据的预测准确率对比。其中,有无差异化数据的预测准确率都是基于不同元学习器而给出的Stacking融合模型的预测准确率。
Table 2. Comparison of differentiated and undifferentiated data prediction accuracy rate
表2. 差异化和未差异化的数据预测准确率对比
模型 |
无差异化数据(%) |
差异化数据(%) |
K近邻分类 |
78.0 |
80.4 |
高斯贝叶斯 |
77.1 |
78.3 |
随机森林 |
76.5 |
84.7 |
决策树 |
70.4 |
75.0 |
GBDT |
76.1 |
76.8 |
Bagging |
75.7 |
79.4 |
逻辑回归 |
75.1 |
78.3 |
SVM |
73.2 |
75.3 |
由表2可知,使用差异化的数据进行建模的结果是优于未进行差异化的结果。数据差异化对Stacking模型准确率提升的原因主要有:
1) 提高模型的泛化能力:数据差异化可以使得每个基模型接触到的数据类型和分布都有所不同,这样可以避免模型对于特定类型的数据过于依赖,从而提高模型的泛化能力。
2) 降低模型过拟合的风险:如果所有的模型都使用相同的数据进行训练,那么它们可能会学习到相同的错误,导致过拟合。而数据差异化可以使得每个模型都从不同的角度去学习数据,从而降低过拟合的风险。
3) 提高模型的多样性:数据差异化可以使得每个模型都有其独特的特点,这样可以增加模型的多样性,从而提高Stacking模型的整体性能。
4) 提高模型的稳定性:如果所有的模型都使用相同的数据进行训练,那么当数据集发生变化时,所有模型的性能都可能受到影响。而数据差异化可以使得每个模型都能够适应不同的数据变化,从而提高模型的稳定性。总的来说,数据差异化可以提高Stacking模型的准确率,主要是因为它可以提高模型的泛化能力,降低过拟合的风险,提高模型的多样性和稳定性。所以本文建立的Stacking融合模型对准确率的提升有较大的作用。
最后,建立了最优模型ROC曲线,如图6所示。
Figure 6. ROC curve of the optimal model
图6. 最优模型的ROC曲线
此外,通过计算得到AUC为0.95。当我们和其余选用不同元学习器的Stacking模型相比较时,还是以随机森林作为元学习器的AUC值最高,说明了该模型的优越性。
本文根据五折交叉验证中的各次划分结果,分别利用模型对数据进行预测,对各次预测模型的评估参数取平均值,用于描述模型的泛化能力,计算结果如表3所示。
Table 3. Model effect
表3. 模型效果
指标 |
准确率(%) |
精确率(%) |
召回率(%) |
F1分数 |
得分 |
84.71 |
82.14 |
76.96 |
81.12 |
该模型的预测准确率和F1分数均高于80%,故认为该模型具有较强的泛化能力。同时,这些数值普遍高于用其它元学习器的Stacking模型的数值,进一步说明了模型的优越性。
5. 结论与建议
在目前的保险行业中,不难发现骗保的事件屡见不鲜,这在一定程度上会对汽车产业的发展产生一定制约,特别是目前新能源汽车的兴起时期,骗保可能会更为频繁,从而对保险行业造成巨大损失。故目前,保险行业建立完备的诈骗识别系统是十分重要的。而基于征信体系以及用户的大数据来建立识别模型是十分有效的,故本文构建了Stacking融合模型,结合模拟退火的参数优化算法,对保险诈骗进行了识别,而这对于保险行业具有一定的启示意义,为保险行业强化自身的风控系统提供帮助。依照本文所得,是否产生重大损坏、车险索赔金额、车险日期、每年的保费、发生保险事故的城市、发生保险事故的地区、资本收益、资本亏损是识别保险欺诈行为的重要特征。
根据上述结论,本文建议保险行业在理赔处理过程中应对如下特征加强重视:首先,是否产生重大损坏、车险索赔金额、车险日期、每年的保费、发生保险事故的城市、发生保险事故的地区、资本收益、资本亏损,这对识别保险欺诈行为具有重要的贡献度。其次,保险行业在完善自身的风控系统过程中,应重视差异化数据的训练过程。这意味着保险行业要重视征信体系的建立,重视保险数据的收集工作,为欺诈识别建立完备的数据库支持。
NOTES
*通讯作者。