1. 引言
全球通讯行业迅速发展,通讯需求也日渐扩大。我国电话通信行业形成移动、联通、电信三大运营商并行的现状。当前我国通信行业处于4G时代的末期,5G时代即将全面到来,通信行业的技术革新周期越来越短,运营商也需要即时更新营销策略,服务是否能满足客户对于通信的服务需求成为了运营商盈利的关键。对于电信行业来说,客户的数量和质量决定着企业的竞争力和效益,竞争也日趋激烈。在行业内竞争如此激烈的情况下,准确预测客户流失的风险对企业效益有很大的影响。在三大运营商并行的情况下,客户会有更多的选择,因此,要保证留住客户,研究客户流失概率预测是一个具有现实意义的指导性问题,值得我们深入研究。由此可以进一步研究高流失率和低流失率客户特征,给出运营商有针对性的建议,结合运营商业务提出新优惠套餐,有利于提升用户体验,留住老客户,吸引新客户以提高自身竞争力。
在分类领域中,对于客户流失这一问题,大量学者做了诸多有意义的探索。在当前对客户流失问题的研究中,大多数为定性的分析现状和影响因素,很少有定量分析客户流失的概率大小,现有的定量分析中大多使用单一模型并且在模型的选取上有一定的随机性。客户流失本质上是一个分类问题,它只有两种情况,是或否(分别取值为1,0)。针对二分类问题,Logistic回归、线性判别分析、K近邻、支持向量机、贝叶斯判别和决策树可以将两个不同的类别很好的分开,从而可以识别客户是否流失 [1] - [6]。有些分类器只能给出类别而不能给出取某类的概率,为解决此问题,肖瑶等人在概率校准方法的领域做了一些有意义的探索 [7] [8] [9]。
在一般分类问题中,都是根据已知类别样本的特征来拟合分类器,寻找分类的规律,然后根据分类器判断未知类别样本属于哪类样本。大多数分类器只能够判断出样本的类别,不能给出判为某一类的概率是多少,在很多情况下不光要判断类别,我们还需要得到样本属于某一类的概率。比如在电信客户流失问题中,电信公司会根据客户的购买能力和个人信用等因素来判断客户的流失风险。但是电信公司并不局限于识别出客户是否会流失,更希望能确定客户流失的风险,以便计算客户违约的概率。在有些可以得到概率的模型中,如果判为不同类别的概率相差不大,那么预测结果可能存在一定的误差,所以也需要进一步做概率校准,以得到更精准的结果。
2. 概率校准
概率校准是利用一个函数将原始分类模型的分类结果转换为准确的概率,得到样本属于某类的概率。一个校准良好的预测模型可以反映潜在的客户流失概率。概率校准的方法可分为参数和非参数方法两大类。其中Platt Scaling (普拉特缩放)校准是参数方法的代表性方法,保序回归在非参数方法中得到了较为广泛的应用。
2.1. Platt Scaling校准
Platt scaling校准以分类器的输出结果作为输入特征,使用的函数是sigmoid函数,用于调整原始模型,拟合概率校准模型,将原始分类器的输出结果转化为概率值。也就是以原始模型的输出结果为自变量,以原数据的目标变量作为因变量拟合逻辑回归模型,是一种参数方法。假设f为原始模型的输出值,Platt Scaling校准后的输出结果如式(1)所示:
(1)
其中,参数A、B由极大似然估计得出。
Platt Scaling校准步骤如图1左半部分所示。
Figure 1. Probability calibration flow chart
图1. 概率校准流程图
2.2. 保序回归
保序回归(Isotonic regression)是一种非参数回归方法,可用作概率校准方法。它是在给定一组数字序列 的情况下,通过一系列的运算,改变序列中每个元素的值,得到一个非递减序列y',同时满足y和y'的误差(取二者之差的平方)最小化。保序回归校准的步骤如图1右半部分所示。
3. 分类器理论
3.1. 逻辑回归
关于逻辑回归模型,适用于输出结果为0和1的二分类问题。式(2)中普通线性回归得到的估计值为实值,我们必须将其转化成0/1值。要把实值z转化为0/1值,并且使其取值在区间(0, 1)内连续,就运用到sigmoid函数对z进行运算,如式(3)所示,其中P指样本为正例的概率。由式(4)可以看出,实际上对
数几率
可以用式(2)中的普通线性回归值z逼近,这个模型叫做逻辑回归。
(2)
(3)
(4)
3.2. 支持向量机
支持向量机算法通过计算找到一个最佳的分类超平面,它位于两类样本的中间,可以很好的分离不同类别,最接近这个超平面的几个样本被称为“支持向量”,支持向量也分为正类和负类,正类和负类的支持向量与超平面之间的距离相加得到“间隔”,需要找到一个最大间隔,即划分超平面需要满足间隔最大化,且正负类样本分别属于支持向量两侧。
3.3. 贝叶斯判别
贝叶斯判别器通过在样本中统计先验概率,用先验概率表示对数据集的认识,然后随机采样得到训练样本X,来优化这种认识,计算出样本属于某类
的后验概率,形成分类模型。后验概率即在已知某个样本的情况下,把它归为某类的条件概率
,样本属于哪个总体的后验概率大就将它判为哪个总体。当有一个未知类别的样本x',就可以根据后验概率分布求出属于各个类别的后验概率, 判别出x'属于哪个总体。
3.4. K近邻
K近邻的基本思想:基于距离度量,在训练集中找出最近的k个样本,然后根据这k个样本的特征和标签来进行预测。基于分类任务,使用投票法提供预测结果,采用样本频率最大的类别标签;基于回归任务,应使用k个样本的实际输出值的平均值作为预测结果。本文研究的为分类问题,K近邻算法采用投票法给出类别标签。
3.5. 决策树
决策树是一种划分类别的树状的模型。二分类问题可视为“该样本是否属于正类”的决策过程。CART决策树采用的划分准则是GINI 指数。其在选择属性进行树枝的分叉时,随着GINI指数的减小,纯度也会相应的提升。因此,最优划分属性是使GINI指数最小的属性。决策树由最优划分属性开始生成。
3.6. Fisher判别
Fisher判别的规则是先投影,后判别。投影是把样本的点投影到p维空间的某一个方向上。通常可以找到一个方向,使得组间平方和与组内平方和的比值在组内平方和为1的约束条件下,在这个方向上的一条直线上达到极大,样本能分开得最好,这样就达到降维的目的。这条投影线就可以作为判别函数,然后计算判别函数值和判别临界值,根据距离判别准则得出判别标准,将未知类别的样本的各个特征代入到判别函数,根据标准,判断其属于哪类总体。
4. 实证分析
4.1. 数据介绍
本文所用数据集来源于某电信公司,共19个特征,3463个样本,其中第一个字段为客户ID,用于区分客户,不作为建模特征。本数据集特征详细介绍如表1:
Table 1. Variable interpretation table
表1. 变量解释表
4.2. 建模流程
在建模前,首先随机划分原始数据集,70%的样本用作训练集,用于训练分类模型,30%的样本用作测试集,用来验证概率校准效果。为保证最终模型的精确度和稳定性,本文在验证概率校准效果之前,先用训练集作为原始数据计算十折交叉验证误差,比较不同基分类器的准确度,选出综合效果最好的分类器,对其进行概率校准后得到最终模型,并用一系列指标进行评价,建模流程如图2。
4.3. 评价标准及结果分析
在选取模型的过程中,模型评价标准的选取是非常重要的。模型的选择不光要验证结果的准确性,还要验证模型的稳定性。丰富的指标和评价标准的适用性有所不同。由于所用模型都是用于二分类问题的预测,目标变量属于二分类变量,考虑到模型的准确度和稳定性,本文选取了分类问题常用的十折交叉验证误差以及基于混淆矩阵的查准率、查全率和F1值。此外,对于概率校准问题还应用了Brier分数和概率校准曲线,对比了校准前后结果的准确性和稳定性。
4.3.1. 十折交叉验证误差
为了评估模型的预测精度,十折交叉验证将原始数据集划分成十个大小相似的互斥的子集。每次,十个子集的一个作为测试集,将其余九个的组合用作训练集。这将产生十个预测结果,计算这十次预测结果的预测误差,再取平均值获得十折交叉验证误差,其取值越小说明模型精度越高。十折交叉验证综合考虑了所有样本,对所有样本都进行了检验,估计结果更可靠。
本文分别用6种单分类模型拟合模型,计算十折交叉验证误差得到表2中结果,发现十折交叉验证误差最小的线性判别模型,所以对线性判别模型进一步做概率校准。
Table 2. Comparison table of classification models
表2. 分类模型对比表
4.3.2. 混淆矩阵
用训练集训练出各个模型,再将测试集代入到模型中,将预测结果和真实标签作对比,得到混淆矩阵如表3所示。
查准率P为在预测结果为正例的样本中,预测正确样本所占的比例;
查全率R为在真实结果为正例的样本中,预测正确样本所占的比例;
F1综合考虑了查准率与查全率。
(5)
(6)
(7)
4.3.3. Brier分数
Brier分数(记作BS)是用于验证概率校准效果的指标,它是对所有预测事件的预测概率与实际概率离差平方和取平均得到的值,值越小代表校准效果越好,预测误差越小。
(8)
通过表4中实验结果对比发现,在进行Isotonic regression校准之后,LDA模型的Brier分数降低,说明校准效果较好,查准率由0.741提高为0.773,F1值由0.789提高到0.791,准确度也有所提升。
Table 4. Comparison of models before and after probability calibration
表4. 概率校准前后模型对比表
4.3.4. 概率校准曲线
概率校准曲线也是验证概率校准模型性能的一项指标,展示的是实际类别频率(即实际概率)与预测概率之间的关系,它是将[0, 1]按0.1的宽度等宽划分成10个区间,计算每个区间内预测概率的均值作为概率校准曲线的横坐标,该区间中正类样本所占的比例作为纵坐标,对角线表示实际值与预测值相等,越接近对角线校准效果越好。
由图3可见,经过概率校准后实际值与预测值更加接近,而且Isotonic校准的效果更佳。
5. 结论
本文通过对分类问题以及概率校准方法研究,应用电信客户是否流失的分类数据进行了实证分析,客户流失概率的预测得以实现。在客户流失预测中,本文先用Logistic回归、线性判别分析、K近邻、支持向量机、贝叶斯判别和决策树6个分类器实现对客户是否流失的分类,对比十折交叉验证误差发现,线性判别分析模型的预测精度最高,又进一步对其进行概率校准得到客户流失的概率。实验结果表明,在概率校准之后,模型的Brier分数降低,概率校准曲线也有所改善,精确度有所提高,充分证明了概率校准可以有效的改善分类器精确度。在对LDA模型的校准中,经过Isotonic regression校准后的模型显然更好。并且概率校准方法可以得到样本取正类的概率值,为概率预测提供了有效的参考。