1. 引言
近年来,随着数字经济浪潮的汹涌澎湃和新质生产力的迅猛崛起,全球经济格局正经历着深刻变革。数字经济以其独特的魅力和无限潜力,为旅游市场注入了新的活力。大数据、云计算、人工智能等前沿技术的广泛应用,不仅重塑了旅游产业的商业模式和服务形态,还极大地丰富了旅游产品的供给,提升了旅游体验的个性化和智能化水平。同时,在新质生产力的快速推动下,如绿色能源、智能制造等领域的突破,也为旅游业的可持续发展提供了强有力的支撑。
在此背景下,旅游意外保险作为旅游产业链中不可或缺的一环,同样迎来了新的发展机遇。随着公众对数字安全、个人隐私保护以及旅游过程中风险管理的重视日益增强,旅游保险的需求也呈现出多元化、精细化的趋势。因此,对旅游保险投保意愿的精准预测,成为了保险行业把握市场脉搏、制定有效营销策略的重要前提。
保险企业通过深入分析数字经济时代下的客户行为模式、消费习惯以及风险认知变化,可以更加精准地把握客户需求,设计出更符合市场需求的保险产品,并通过个性化的营销策略,将产品精准推送给目标客户群体。这不仅有助于提升保险产品的市场竞争力,还能够增强客户对保险品牌的信任度和忠诚度,为保险行业的持续健康发展奠定坚实基础。
对于客户分类这一问题,适用于快速消费类或消耗性商品的传统RFM模型存在一定的局限性[1],目前大多使用机器学习算法来解决投保意愿预测这一客户分类问题,如以决策树[2]、支持向量机[3]、神经网络[4]等为代表的人工智能预测算法正在逐步取代传统预测方法。辛凯琪[5]等人使用Logistic回归和决策树模型对有重大疾病的保险客户进行风险预测,发现Logistic回归模型分类效果较优;常文晗[6]通过问卷调查获取客户数据,利用Adacost算法对客户是否购买商业保险进行预测分析,为保险公司在客户分类规则的构建上提出了参考意见。
虽然较多学者在客户分类方面提出了改进方法以提高模型的预测精度,但单一模型在遇到模型泛化瓶颈时,很难再提高预测精度,使用组合模型可以克服单一模型的缺陷,实现模型的优势互补。王俊杰[7]等人使用多特征融合的XGBoost-LightGBM-ConvLSTM模型对光伏发电量预测,发现其模型组合可以增强特征之间的相关性,提高预测精度;吴飞[8]使用PCA-SSA-XGBoost模型对车辆驾驶性能进行评估,发现其组合模型的稳定性与准确性高于其他模型。张柯[9]等人在短期风速研究中使用了VMD-Stacking混合模型,发现其在风力预测中相较于其他模型具有更高的预测效率;Chowdhury Subrata [10]将优化后的鲸鱼算法融合到神经网络之中,组合生成的FR-WOA-NN模型相较于基模型提升了大规模数据下的收敛速度。
本文在旅游保险客户投保意愿的二分类问题上使用了基于AUC-RW融合算法的XGBoost-LightGBM组合模型,XGBoost、LightGBM两种集成算法在分类器模型中都有不错的表现。并将该组合模型与其它常用的随机森林、支持向量机以及单个XGBoost、LightGBM等分类模型进行比较,确定有较高预测精度的预测模型,在一定程度上给予相关行业参考价值。
2. 方法与模型
2.1. RFM模型
在客户分类中常以RFM模型来将客户的消费习性加以量化并区分[11]。其中R (recency)指购买间隔,F (frequency)为顾客在一定时间内的购买频数,M (monetary)为一定时期内顾客的购买金额。RFM模型分析包含以下三个步骤:
(1) 计算每一个客户的R、F、M得分;
(2) 计算三个指标的乘积,按大小进行排序;
(3) 将排序得到的结果按1:3:1的方式对客户进行分类,并对不同类别的客户实施针对性的营销策略。
对于此模型来说,选择使用R、F、M三个指标考虑客户的交易行为,客户数据较容易获取,但客户特征维度较少,细分得到的客户群体也过多[12]。另外,F和M之间存在较强的多重共线性,这些不足之处,充分暴露了RFM这一传统模型的缺陷。
2.2. 随机森林
随机森林(RF)是一种在回归和分类问题中表现较好的监督学习算法,在各领域中得到广泛应用。该算法是以K个决策树
作为基本分类器,其中X表示不同的变量特征,
是一个随机变量序列进行集成学习之后所得到的一个组合分类器。当输出待分类的样本时,随机森林最终输出的分类结果是通过对每棵决策树的分类结果进行简单投票来决定的,如图1所示。
在模型中将数据集D划分为K个训练集,对每个训练集生成K个决策树,并最终得到K个分类结果,投票选择最终类别。因为每个训练集的决策树是相互独立的,所以可以通过并行处理完成随机森林的训练,从而提高生成模型的效率。
Figure 1. Random forest process diagram
图1. 随机森林流程图
2.3. 支持向量机
SVM (支持向量机)模型于1995年Vapnik等人提出,支持向量机是监督学习的一种,是一种典型的二分类模型,它是通过寻找一个超平面来分割样本,其采用间隔最大化的分割原则,最终转化为一个凸二次规划的问题[13],SVM是求解凸二次规划的最优算法。
在求解非线性等式或不等式问题时,该算法首先在低维空间中进行问题处理,接着利用选择的核函数把数据映射到高维特征空间,然后在该空间中得到最优分离超平面,如图2所示,来最大化不同类别样本之间的间隔。
Figure 2. Schematic diagram of SVM processing nonlinear data
图2. 支持向量机处理非线性数据示意图
对于给定的训练集
,
,
,
,n为样本个数,矩阵X表示经过标准化处理的特征变量数据集,矩阵Y表示购买旅游保险标签集,
。SVM满足以下表达式[14]:
(1)
(2)
其中
表示异类支持向量到超平面的距离,C表示惩罚因子,
表示第i个样本的松弛系数,核函数
的作用是将
映射到高维空间,其中SVM中的超平面表达式为:
(3)
本文选取高斯径向基核函数作为SVM的内积核核函数,如公式(4)所示:
(4)
其中,
,n为样本个数,σ为函数的宽度函数,g表示核函数宽度。
2.4. XGBoost模型
XGBoost算法是一种基于boosting思想的回归树模型,相较于传统的GBDT [15]学习算法,XGBoost算法对损失函数进行二阶的泰勒展开,并在目标函数之外加入正则项,极大地提升了模型的训练速度以及分类精度,具体如下:
对于给定数据集
,其中n为样本个数,P为特征个数,模型使用K个可加函数预测输出,可表示为:
(5)
其中,
表示样本i的预测值,
表示样本的特征向量,
是一个回归树,F是回归树的函数集合空间。针对给定的数据样本,XGBoost利用树中的决策机制将其分类到不同的叶子中,并根据权值进行求和计算得到最终预测,使用目标函数学习模型中的函数集合,如下所示:
(6)
其中,
是可微凸损失函数,表示预测值
和真实值
之间的误差;为了防止过拟合,选择正则项
来约束决策树的叶子节点数T和叶子权值
。
(7)
其中,
是第j个节点的权重,
和
分别表示为叶子节点数T和叶子权重
的惩罚系数。对目标函数进行二阶泰勒展开,将二阶形式作为近似目标函数。
(8)
将正则项代入公式(8),并约去常数项可化简为:
(9)
其中,q为输入映射至叶子的索引,
和
为目标函数的一阶、二阶倒数。定义
,
,每个叶子节点的样本集合为
,问题即可转化为求解一元一次方程最优解问题,得到最优叶子节点权重
和最优评分函数为:
(10)
(11)
XGBoost模型对叶子节点进行信息增益计算,并选择信息增益最大的节点分裂,假设分裂前的节点为j,该节点分裂为左右2个子节点R和L。节点j分裂前的目标函数(最优评分函数)贡献和为:
(12)
节点j分裂后,左右2个子节点R和L的目标函数贡献分别为:
(13)
(14)
因此,节点j分裂后的信息增益为:
(15)
式中:
、
为分裂后左右叶子一阶梯度累计;
、
为分裂后左右叶子节点二阶梯度的累积。XGBoost模型选取信息增益最大的节点分裂,更高效、更直接的构建分类回归树。
2.5. LightGBM模型
LightGBM (轻量级梯度提升机)是由微软亚洲院提出的一种基于提升决策树的算法,它在传统的GBDT基础上融合了梯度的单边采样(GOSS)和互斥特征捆绑(EFB)两种算法。
GOSS算法是一种在减少数据量的同时又能保证精度的算法[16],它可以保留具有大梯度的数据,对梯度较小的样本数据进行随机采样,从而达到减少计算量的目的。同时为了弥补数据集分布改变所造成的影响,GOSS算法还对梯度较小的数据增加权重常数,从而潜在地提升训练模型的泛化能力来保证精度。
Figure 3. Schematic diagram of histogram algorithm
图3. 直方图算法示意图
EFB则是把互斥特征捆绑在一起形成新的特征,从而达到降维的目的,使训练速度得到提升。高维的数据在稀疏的特征空间中许多特征都是互斥的,可以从特征捆绑中构建单个特征相同的特征直方图,如图3所示。这种方式可以在保证精度的前提下,加速梯度提升算法的训练过程[17]。
2.6. XGBoost-LightGBM组合模型
基于多模型融合的XGBoost-LightGBM投保意愿组合模型结构如图4所示,整体模型结构由经过参数优化后的XGBoost模型和LightGBM模型并行而成,模型参数调整使用网格搜索采样器自动调整超参数。
Figure 4. XGBoost LightGBM model structure
图4. XGBoost-LightGBM模型结构
XGBoost结构和LightGBM结构通过网格搜索进行参数寻优,结合机器学习算法对旅游保险投保数据进行拟合,并实施预测。在2个并行结构完成训练和预测之后,分别输出在验证集上的AUC值。为了提高模型组合后预测的精度,使精度较高的模型所占权重更高[18],于是结合AUC-RW (AUC相对权重)算法对模型权重进行计算。
(16)
其中,
为模型i的权重,
为模型i的AUC值。确定权重之后,根据下式计算组合模型的预测输出概率,从而得出投保意愿预测值。
(17)
其中,为组合模型预测分类输出概率,
和
分别为XGBoost和LightGBM的预测输出概率,所提出的基于多模型融合的XGBoost-LightGBM投保意愿预测模型采用无监督的学习模式,最终的预测分类根据AUC-RW算法计算2个模型权重,结合投保数据的训练集与验证集预测输出概率得出。
3. 实证分析
3.1. 数据分析及预处理
本文采用Kaggle数据库国外某旅游企业客户投保旅游保险公开数据集作为数据源。Kaggle作为目前较大的机器学习数据及数据分析竞赛平台,可以确保其数据的适用性和真实性。该数据集包含9935位客户数据,其中投保客户的样本3550个,未投保客户样本数量为6385个。数据集包括8个特征变量列,1个标签列。其中,标签列“投保情况”,0 = 未投保,1 = 投保。特征变量由3个数值型变量和5个分类变量构成,具体介绍如表1所示:
Table 1. Characteristic variable description
表1. 特征变量描述
特征变量名称 |
变量描述 |
具体说明 |
Age |
年龄 |
数值型 |
Employment Type |
就业类型 |
Government Sector, Private Sector/Self Employed |
Graduate Or Not |
毕业身份 |
Master’s & above, Bachelor’s, Below Secondary |
Annual Income |
年收入 |
数值型 |
Family Members |
家庭成员 |
数值型 |
Chronic Diseases |
是否存在慢性病 |
Yes, No |
Frequent Flyer |
是否频繁乘坐飞机 |
Yes, No |
Ever Travelled Abroad |
是否出国旅行过 |
Yes, No |
针对数据集中类别型特征,本文通过序号编码和独热编码对类别特征进行编码处理。针对“毕业身份”这一类别特征,类别之间存在上下关系,因此选择使用序号编码映射编码成[0, 2]的整数;“就业类型”的类别之间不具有关联关系,使用独热编码进行编码处理;而“是否存在慢性疾病”,“是否频繁乘坐飞机”,“是否出国旅行过”这几个类别特征的类别值仅有两种,因此使用二进制编码方式,用0和1进行编码。
在对连续性变量而言,各变量之间存在较大差异,在进行模型训练之前,要对变量进行无量纲化处理,消除量纲的影响,本文选择归一化的方法对其进行处理,如式(12):
(18)
对数据进行预处理之后,按8:2的划分方式将数据集划分训练集和测试集,训练集和测试集数量如表2所示。
Table 2. Dataset partitioning
表2. 数据集划分
数据集 |
样本数量 |
训练集 |
7948 |
测试集 |
1987 |
3.2. 模型构建与评估
本文选择使用“准确率(Accuracy)”、“F1值”和“AUC值”这三项分类评价指标来衡量模型的效果,在此之前需要描述分类器的混淆矩阵(Confusion Matrix),混淆矩阵就是一种为了展示算法性能的可视化效果矩阵,也可称为是错误矩阵或者可能性表格,该矩阵每一行都表示实际的类别,每一列都代表着预测的类别,如表3所示。
Table 3. Confusion matrix of insurance situation
表3. 投保情况混淆矩阵
投保状态 |
预测投保 |
预测不投保 |
实际投保 |
TP |
FN |
实际不投保 |
FP |
TN |
其中:TP:正类样本,预测结果是正类的样本总数;FN:正类样本,预测结果是负类的样本总数;FP:负类样本,预测结果是正类的样本总数;TN:负类样本,预测结果是负类的样本总数。
准确率(Accuracy)是指预测结果中,所有预测正确样本占总体样本的比例;F1值指精准度和召回率的调和平均值,其值越大,代表模型分类效果越精准,F1值是由混淆矩阵计算得到。可利用混淆矩阵绘制出客户投保特征(ROC)曲线,AUC值由该曲线求得,其值越大,模型的预测精度越高。
Table 4. Model parameter settings
表4. 模型参数设置
XGBoost参数 |
值 |
LightGBM参数 |
值 |
n_estimators |
200 |
n_estimators |
600 |
gamma |
0.3 |
num_leaves |
25 |
min_child_weight |
8 |
min_child_weight |
0 |
max_depth |
10 |
max_depth |
20 |
colsample_bytree |
0.6 |
feature_fraction |
1 |
subsample |
0.6 |
bagging_fraction |
1 |
reg_alpha |
0.1 |
reg_alpha |
0.1 |
准确率和F1值的计算公式如式(13)和式(14)所示:
(19)
(20)
通过网格搜索法调整参数,得到的XGBoost和LightGBM的部分最优参数如表4所示。
3.3. 模型对比分析
利用测试集对组合模型进行测试,将建立之后不断调优的Boost模型和LightGBM模型通过AUC-RW算法得出最终的预测结果,同时为了验证其组合模型较于其他分类器模型的预测性能,本实验结合随机森林(RF),支持向量机(SVM)模型进行相应评价指标的验证对比,对比结果如表5所示。
Table 5. Model comparison results
表5. 模型对比结果
算法模型 |
Accuracy/% |
F1值/% |
AUC值/% |
RF |
0.81 |
0.795 |
0.80 |
SVM |
0.75 |
0.77 |
0.73 |
XGBoost |
0.81 |
0.79 |
0.803 |
LightGBM |
0.8472 |
0.8561 |
0.8449 |
XGBoost-LightGBM |
95.61% |
94.04% |
0.936 |
Figure 5. Comparison chart of ROC curves for models
图5. 模型ROC曲线对比图
ROC曲线下的面积称为AUC值,处于(0, 1)之间,AUC的值越接近1说明分类器的效果越好,上述模型的ROC曲线如图5所示。
分析模型对比的实验结果发现,本文基于AUC-RW融合算法建立的XGBoost-LightGBM组合模型在预测客户投保意愿时的准确率达到95.61%,F1值为94.04%,AUC值为93.6%,其三项指标都有最佳表现。相较于RF、SVM、XGBoost、LightGBM四种模型,XGBoost-LightGBM组合模型的AUC值分别提升了13.6%、20.6%、13.3%、9.11%,实现了更高精度的分类预测。
4. 结论
在深入探索保险行业对客户投保行为的精准剖析需求背景下,本文创新性地提出了一种融合AUC-RW (基于AUC值的权重分配)算法与XGBoost及LightGBM模型的组合预测框架,旨在精准预测客户的旅游保险投保意愿。通过与随机森林(RF)、支持向量机(SVM)、单一XGBoost及LightGBM模型在分类性能上的全面对比,通过实证分析揭示了XGBoost-LightGBM组合模型在预测精度上的显著优势。
本文的核心贡献在于:首次在分类任务中引入AUC-RW融合策略,将这一高级算法技巧巧妙地应用于XGBoost与LightGBM两大先进机器学习模型的并行处理中。通过构建并优化XGBoost-LightGBM组合模型,不仅实现了对旅游保险客户数据的深度挖掘,还通过验证集上AUC值的动态评估,智能调整各模型输出概率的组合权重,确保了高精度模型的贡献得以最大化,从而显著提升了整体预测性能。
此研究成果不仅为保险行业的精准营销与定价策略提供了强有力的技术支持与实证依据,还展示了在复杂金融数据分析中,融合多种先进算法与策略以追求最优解的有效路径。AUC-RW算法的创新应用,特别是其在模型融合过程中的动态权重分配机制,为类似领域的数据分析与模型优化开辟了新的思路,具有较高的学术价值与广泛的应用前景。
基金项目
国家自然科学基金项目(NO. 12061066);甘肃省自然科学基金项目(NO. 20JR5RA528)。
NOTES
*通讯作者。