1. 引言
员工流动是“人员在组织内进入和退出就业的流动” [1] 。在相对集中的时期内大量离职,会给管理带来困难。从组织的角度来看,不必要的员工流失会给组织带来相当大的负担:正在进行的项目的中断、员工再培训的成本、核心技术泄漏的风险等。与过去事后再来处理员工流失不同,现在有可能通过人工智能提前预测员工流失的可能性来采取先发制人的行动,用以辅助支持下一阶段的人才招聘决策过程。
近年来,机器学习等数据分析技术的应用作为一种预防员工流失的方法而备受关注。根据德勤咨询发布的《2017全球人力资本趋势人力资源分析:路线重新规划》,显示在参与的各个公司中,高达72%的公司认为数据在公司的人力资源发展中扮演着至关重要的角色。数据挖掘技术的应用能够极大地提升企业的人力资源管理效率。特别是在员工流失率分析方面,利用数据挖掘技术能够有效地解析不同岗位员工离职的原因、比例以及对企业带来的损失等关键信息。
在员工流失预测方面,Ebru Pekel Ozmen等(2022) [2] 构建一种混合深度学习算法应用于零售行业的员工流失预测的数据集,为预测员工流失提供了一种有效的方法;刘春燕(2021) [3] 基于随机森林和XGBoost构建了员工流失预测模型,在模型评估中发现XGBoost的预测表现更佳。对与衡量员工离职的诸多因素进行筛选时,王冠鹏(2022) [4] 使用了由Cui等(2015) [5] 提出的MV (Mean of Variance)方法和卡方法相结合进行降维,并与LASSO方法降维进行了对比,提升了变量筛选的稳健性。而对于不平衡的数据,万毅斌等(2022) [6] 应用了改进的代价敏感加权SVM算法进行分类预测,取得了良好效果。
本文建立支持向量机(Support Vector Machines, SVM)、决策树(Decision Tree, DT)、随机森林(Random Forest, RF)、轻量化梯度促进机(Light Gradient Boosting Machine, LightGBM)以及加权随机森林(Weighted Random Forest, WRF)多个分类模型,并进行了详细的对比分析。研究首先对部分特征进行了可视化分析,然后采用RF-RFE (Random Forest-Recursive Feature Elimination)方法对数据进行了特征筛选,提取了影响员工流失的关键特征。随后,基于这些关键特征构建了员工流失预测模型,采用SVM、DT、RF、LightGBM和WRF算法,以有效分类离职员工等少数类样本。
2. 理论基础
2.1. 扩展Mobley模型
William H. Mobley等 [7] 于1979年结合多种模型后提出了Mobley (1979)模型,为解释员工流失现象提供了一个理论框架,模型中将这些离职因素分为三大类,即个体因素、组织因素和外部因素。其中个体因素就包括员工的性别、受教育水平以及个人特点和态度等;组织因素包括组织的规模、类型以及政策等;外部环境因素包括社会、经济、行业趋势以及地理位置等,外部环境因素可能对员工流失产生间接影响,影响就业机会、竞争和工作市场。
本文将从个体、组织和外部环境因素这三个方面深入探讨各因素对员工流失的影响,以揭示员工流失的多维度机制。同时,将有助于组织制定更有效的员工留存策略,减少流失率。
2.2. 算法介绍
在机器学习中,常见的预测算法包括支持向量机、决策树、随机森林等。支持向量机是一种经典的二分类模型,其核心原理是寻找一个最佳分类超平面,以确保分类准确率的同时使分类间隔最大化,通常用于回归和分类问题 [8] ;决策树是一种基于树状结构的监督学习算法,主要特点是其可解释性和易于理解,但容易在训练数据上过拟合 [9] ;随机森林是一种监督学习算法,对异常值和噪声具有良好容忍度,不容易过拟合,但当决策树数量较多时,模型训练需要更多的时间和空间资源。除此之外,本文还引入了近年来在预测方面表现较为优秀的算法:LightGBM和WRF。
这些机器学习算法在不同情况下都具有独特的优势,可以根据具体问题和数据集的特点选择适合的方法来构建高性能的预测模型,在此对LightGBM和WRF做重点介绍。
2.2.1. LightGBM算法
LightGBM的本质是一种将弱学习器提升为强学习器的集成学习算法,通过单边梯度采样算法来最大限度地保留对计算信息增益有帮助的样本,加快模型的训练速度。方差增益为
其中:n为样本总数,j为使用的分裂特征,d为样本特征的分裂点,
、
分别为使用的分裂特征值小于和大于d的样本数,
、
分别为所分裂的左子节点中的大、小梯度样本,
、
分别为所分裂的右子节点中的大、小梯度样本,G为样本梯度,a为大梯度样本采样率,c为小梯度样本采样率。
LightGBM的特点和优势在于:1) 高效性:采用直方图增强技术,将连续特征分桶成直方图,以提高训练速度和降低内存占用,适用于大规模数据集。2) 按叶子结点生长:采用按叶子结点生长的策略,减少过拟合风险,更快地找到有信息量的叶子结点。3) 并行训练支持:支持多线程和分布式计算,提高训练效率。4) 高度优化的损失函数:提供多种优化的损失函数,提高模型性能。5) 特征选择和重要性评估:自动计算特征重要性,帮助特征选择和模型优化。
2.2.2. 加权随机森林算法
通常RF的所有决策树在投票进行分类时都具有相同的权重值。但实际情况下,一些分类精度低的决策树很可能会投出错误的票数,并对最终的分类结果造成影响。为此,本文将加权F1-measure引入RF算法,通过为不同的决策树分配不同的权重,为员工流动率预测提供更好的性能。
其中:
为第
棵树正确分类的样本数;X为预测试样本数;决策树数量为T。将此正确率作为对应决策树的权重,则加权后随机森林模型的输出为
其中:
为第t棵决策树的权重值。如图1所示,为加权随机森林的结构图。运用WRF算法构建员工流失率的预测模型,是将全部样本分成训练集和验证集,用训练集创建多个基分类器,每个基分类器用验证集进行预测并计算f1值作为权重,创建WRF算法。

Figure 1. Structure of weighted random forest
图1. 加权随机森林结构图
2.3. 技术路线
本文首先收集数据,从中提取有用的且适合模型训练条件的数据;其次进行数据清洗,剔除一些无关变量和相似变量,以及对重复值和缺失值进行处理;然后进行特征选择,基于全部样本采用RF-RFE方法并应用交叉验证(Cross Validation, CV)进行特征筛选,选出对于员工流动较为重要的特征m;随后,用这些m特征代入到SVM、DT、RF、LightGBM和WRF算法中,建立模型;最后预测模型可以通过准确率、精确率、召回率、f1 score和AUC进行评估,选出最佳模型。
以下是运用各类算法进行员工流失预测的技术路线图,如图2所示。
3. 数据说明及处理
3.1. 数据描述与清洗
3.1.1. 数据描述
本文使用Kaggle平台2020年提供的用于人力资源分析的数据集,该数据集由一家主要从事大数据和数据科学相关业务的公司提供,数据集中包括了参加该公司开设的培训课程的人员信息,共有19,158条数据,包括13个特征和一个目标变量“是否离职”(target),目标变量中的“0”表示“没有在寻找工作机会”,“1”表示“正在寻找工作机会”。
对此数据集,本文首先提取了只含有主修科学、技术、工程和数学教育(STEM)方向的人员数据,因为原始数据集中STEM专业的人数占比约为76%,且STEM人才对社会和经济的重要性不可忽视,他们不仅推动了科技进步和经济增长,还有助于解决全球性问题和提高国家的全球竞争力,所以我们这里仅对STEM的员工进行实验研究,以发现STEM人才流失的原因,为公司保留STEM人才提出有效建议。在此基础上提取了“gender”(性别)中填写了“male”和“female”的人员信息。
因此本文研究的数据基本情况如表1所示,包括13个变量和11,073个样本。

Table 1. Basic information of features
表1. 数据基本情况
3.1.2. 数据清洗
在现实生活中,采集的原始数据就不可避免的存在一些问题,被称之为“脏数据”,会对模型的准确性产生一定的影响,因而需要通过数据清洗去填补一些残缺的数据,纠正错误的数据,统一数据的格式等。本文对数据主要采用了以下的清洗方法:
① 剔除无关变量。在原始数据集中,包含“enrollee_id”这样一个表示“员工工号”的特征,对于预测模型无实际意义,予以删除。
② 处理相似变量。考虑到数据集中变量“city”与变量“city_development_index”所表达意思相近,且对于目标变量的影响也相似,为避免重复分析,因而将“city”这个特征作了删除处理。
③ 考虑到变量“company_type”中的“Other”样本量只有57个,并且不明确其具体的公司类型,缺乏实质性的研究意义,因此决定将相关样本删除。
④ 重复值和缺失值处理。首先删除重复值,然后将存在缺失的数据进行剔除。
数据清理后,剔除后的数据集包含12个变量7831条样本,此数据集为非平衡数据,样本中目标变量为“1-Looking for a job change”的占比仅为17.3%。
3.2. 探索性数据分析(EDA)
根据扩展Mobley离职模型,本文将从个体因素、企业因素和外部因素三个方面来探讨各因素对于员工流失的影响。以下是对各类因素的详细描述,并对有关因素进行可视化。
3.2.1. 个体因素
个体因素中的EDA分析主要做了Gender (性别)、Education Level (教育水平)、Last New Job (最近一次换工作距今时间)、Training Hours (培训时数),如图3所示。
从图3中首先可以看出,此数据集中以男性员工为主,占总人数的92%,女性仅占8%,这可能与STEM的专业有关;其次可以发现,Experience (工作经验)柱状图中显示出,随着成员工作经验的增加,离职率逐步降低,在一定程度上说明,成员工作经验的年数越多,工作的稳定性就越高;然后通过Last New Job (最近一次换工作距今时间)柱状图中可以看出,距离最近一次换工作间隔四年以上的样本离职率相对较低,可见长期内未换工作的员工对于工作的忠诚度相对更高;最后从Training Hours (培训时数)密度图中分析可以看出,培训时长呈右偏态分布,以相对较短时间的培训为主,有意向流动的人员与无意向流动人员的样本在培训时间的分布上没有明显区别。
3.2.2. 组织因素
组织因素中主要包括Company Size (公司规模)和Company Type (公司类型)两方面,对其进行可视化,如图4所示。
从图4中就可以看出不同规模的公司员工的流失情况,样本中流失率较高的是在10~49人规模的小型公司工作的员工,占比为22%。另外,不同类型的公司,如初创公司、公共部门、私营公司等,就会有不同的流失率,Early Stage Startup (初创公司)的离职率相对较高。
3.2.3. 外部环境因素
本数据集中的外部环境因素主要是City Development Index (城市发展指数),对其绘制密度图,如图5所示。从图5中可以观察到,没有工作变动意愿的样本主要分布在发展指数约为0.9左右的城市,有工作变动意愿的样本所在城市的发展指数分布则相对分散。这可能表明发展迅速的城市因其综合实力较强,吸引了大量人才,员工也更愿意留在这些城市,不愿意轻易更换单位。
3.3. 基于随机森林的特征选择
3.3.1. 数据编码
在本研究中,对不同类型的特征进行了合适的数值编码,以便用于机器学习模型的训练和分析。本文的编码处理如表2所示,编码后,自变量个数由11个变为14个,样本数为7831个。对于连续型变量“city_development_index”、“experience”以及“training_hours”则不需要进行编码。

Table 2. Feature coding correspondence
表2. 特征编码情况
3.3.2. 特征筛选
特征选择就可以从原始数据集中剔除掉部分非关键特征,得到影响目标变量的最优特征子集。本文采用了一种基于随机森林算法的递归特征消除(RF-RFE)的方法。
随机森林(Random Forest, RF)是一种由Breiman提出的组合算法。它的工作方式包括以下步骤:从全样本数据集D中,使用自举重采样方法随机抽取子样本Dt,并利用这些子样本来训练T棵决策树。每棵决策树会对不同特征进行评分,最后通过投票方式来决定将样本分到哪一类。总之,随机森林通过集成多个决策树的结果,利用自举重采样和基尼系数来进行特征选择和数据划分,提供了一种强大的分类和回归方法,适用于各种数据集和问题。它的优点在于降低了过拟合的风险,提高了模型的鲁棒性和性能。方法为
其中
,c表示不同的类别,Pi表示类别i占整体比例的大小,即数据越混乱,相应Gini系数值就越大。GiniA(D)为选取的属性A,分裂后数据集D的系数值,计算公式为
RF-RFE结合了随机森林和递归特征消除的思想,旨在帮助机器学习从原始特征集中识别和选择最重要的特征,以提高模型的性能和减少过拟合的风险。本文在特征选择过程中,对清理后的非平衡数据和SMOTE后的平衡数据,分别运用了RF-RFE进行特征选择,结果如图6所示。为得到准确结果,本文分别求出交叉验证分割后的5个子集准确率的平均值进行验证,最终得到最佳特征数量为10个。

Figure 6. The result of feature selection
图6. 特征选择结果
因此,本文在后续的建模过程中,选择10个变量进入模型,删去了排名较低的四个变量,分别是公司类型中的虚变量Funded Startup (资助初创企业)、Public Sector (政府企事业)、Early Stage Startup (初期创业公司)和NGO (非政府组织)。
4. 建模与评估
4.1. 模型建立与分析
本文模型建立及评估过程如下:首先,将10个变量和7831个样本的非平衡数据集和SMOTE之后的数据集均按6:4划分为训练集和测试集;其次,分别将非平衡数据和SMOTE之后的数据中的训练集代入到SVM、DT、RF、LightGBM和WRF算法中,建立模型;最后,用测试集计算各模型的准确率、精确率、召回率和f1 score,并应用SMOTE之后的测试集数据绘制各模型ROC曲线。
结果如表3及图7所示。

Table 3. The results of the model of test set
表3. 测试集模型结果

Figure 7. ROC curves of various algorithms
图7. 各类算法的ROC曲线
根据表3的结果,可以看出,对于非平衡数据,WRF算法和LightGBM算法在精确率、准确率上表现要优于SVM、DT、RF的性能,而在召回率和f1值上其他算法要略逊于LightGBM算法;对于SMOTE之后的平衡数据,LightGBM的表现则优于其他算法。此外,从图7中观察到LightGBM算法的ROC曲线更接近左上角,这说明LightGBM在员工流失预测任务中具有更高的性能。
综上所述,LightGBM算法在多个性能指标上都展现出了较为出色的预测能力,这表明它是一种有效的方法,可用于准确地预测员工流失情况,为企业提供更好的决策支持。
4.2. 变量重要性分析
在建立离职预测模型后,本文选用SHAP (SHapley Additive exPlanations)来衡量某一特征对预测的影响程度大小,寻找对其离职与否影响较大的因素,从而采取合适的措施避免员工的流失。SHAP是Python开发的一个“模型解释”包,基于合作博弈理论中的shapley值,来解释每个特征对于模型预测的贡献程度。如图8所示,SHAP摘要图中揭示了各个特征如何正负反馈作用于目标变量,图中每个颜色点代表一个样本,颜色代表各员工流失变量的特征值的大小(红色高,蓝色低)。从图8中可以看出,城市发展指数至各公司类型的SHAP绝对值总和从上至下依次减小,对目标变量影响较大的变量“city_development_index”的SHAP值主要集中在负值且为红色,说明存在发展指数高的城市,其离职率相对较低。对员工流失有较大影响的因素还有:Experience (工作经验)、Training Hours (培训时数)、Last New Job (最近一次换工作距今时间)等。同时也可以看出Company Type (公司类型)里的几个虚变量对于模型预测的贡献程度都相对较低,从而验证了前面特征筛选过程具有的稳健性。

Figure 8. Summary of SHAP attribution analysis
图8. SHAP归因分析摘要图
5. 结论
基于以上分析,本文可得到如下结论。
1) 针对影响员工流失的因素,通过RF-RFE方法进行变量选择,结果发现其中10个变量对目标变量有影响,结合SHAP摘要图进行特征重要性分析,发现以下特征的员工是否流失的影响较大。
个体因素方面:主要包括员工的性别、教育水平、最近一次换工作距今时间、培训时数。员工的工作经验年数与流失率之间存在着重要关联,具有更多工作经验的员工往往更加职业稳定。因此,企业在人事决策时需要考虑员工年资,这将有助于降低员工流失率,建议企业加强对新员工的培训,以培养他们对所从事职业的热情,从而提高员工粘性,减少离职率。
企业因素方面:公司规模和公司类型对员工是否有工作变动意愿产生了影响。小型公司和初创公司的员工流失率相对较高,规模较大的公司通常提供更具挑战性的晋升机会,但相对更加稳定。因此,小型公司要更关注员工的个性化需求,满足员工的个性化需求。
外部环境因素方面:城市的发展指数对员工流失率也有一定影响。城市的发展水平高通常意味着更多的就业机会和较高的职业稳定性。相比之下,发展水平较低的城市可能资源相对稀缺,可供选择的职位有限,从而导致员工更容易流失。但需要指出的是,较低发展水平的城市中的员工通常承受的工作压力相对较低。因此,建议在发展水平较低的城市中的企业在公司建设时优化员工的晋升途径,并提供更舒适的工作环境,如健身房、茶水间和休息室等,以提高员工满意度,减少流失率,增强员工的职业稳定性。
2) 在模型选择方面,本文通过建立SVM、DT、RF、LightGBM以及WRF等多个分类模型进行详细的分析和综合效果对比,发现LightGBM算法在综合指标上要优于其他算法,该方法的核心在于其高效的梯度提升算法和一系列优化技术,可以自动计算特征的重要性,帮助用户识别哪些特征对模型性能有最大贡献,从而进行特征选择和模型优化。在实际应用价值上,通过更准确地员工流失预测,企业可以采取有针对性的措施来改善员工满意度、留任率,从而提高组织的稳定性和竞争力。