1. 引言
随着全球电子商务市场的持续扩张,物流体系正承受着前所未有的规模压力与履约高标准的双重考验。据中国国家邮政局数据显示,2025年中国快递业务量累计完成2165亿件,同比增长11.5% [1];与此同时,据Statista预测,全球电商零售额从2015年的1.55万亿美元增长至2024年的6.01万亿美元,年复合增长率达16.25%。庞大的业务体量构成了物流网络的基础负荷。然而,真正的挑战不仅来自规模本身,更源于业务规模的持续膨胀与客户对时效要求持续升级之间的结构性矛盾。一方面,订单量的激增使得配送网络,特别是“最后一公里”环节,持续面临拥堵与压力[2];另一方面,消费者对配送速度的要求日益苛刻,“准时送达”已成为其选择电商的核心标准之一[3]。这种矛盾导致了物流网络中普遍存在的延迟送达问题,严重影响客户满意度[4] [5]。因此,在这一矛盾交织的背景下,物流准时性(On-Time Delivery, OTD)已从一项运营指标,跃升为决定电商平台竞争力的关键所在[6]。
送达延误受多种复杂因素影响,包括订单数量、产品重量、客户地址信息不准确、交通拥堵以及配送方式选择等[7]。面对这一复杂问题,传统的物流预测方法多基于历史经验或简单统计分析,难以有效捕捉高维特征间的非线性关系与交互作用,导致预测精度有限、泛化能力不足[8]。因此,如何构建高精度、高可靠性的运输准时性预测模型,实现从“被动响应”到“主动预警”的转变,已成为电商与物流企业优化运营、降本增效、提升顾客满意度的迫切需求。
为应对上述挑战,机器学习方法已被引入物流预测领域并取得一定进展。现有研究将多种机器学习模型应用于物流预测,例如Gheidari等为了预测电子商务配送的准时送达率,利用stacking算法构建了预测模型,在测试集上达到了68%的准确率[9]。为了提升供应链韧性和客户满意度,Shawon等使用逻辑回归、随机森林和XGBoost机器学习模型,分析距离、成本和季节性等因素来预测供应链中的交货延迟,在测试集上AUC值达到了0.79 [10]。Ye等利用大数据技术和人工神经网络,通过分析影响快递延迟的各种因素,构建快递延迟预测模型,以提高物流决策和管理的效率[11]。然而,在电商运输准时性这一具体场景中,现有方法仍面临三方面关键挑战:模型性能高度依赖超参数设置,需通过高效算法优化参数寻优过程,以提升对“未准时”等关键少数样本的识别能力;单一模型在泛化能力与稳定性上存在局限,需通过集成方法融合不同模型优势[12];此外,预测模型的可解释性对物流决策至关重要,需提供清晰的决策依据以支持实际干预措施的制定[13]。
为解决上述问题,本研究构建一个融合智能优化、集成学习与可解释性分析的电子商务运输准时性预测框架。首先对公开电商物流数据集进行清洗、编码与特征选择;其次,以最大化召回率为目标,应用贝叶斯优化(Bayesian Optimization, BO)对XGBoost、LightGBM、决策树(DT)、随机森林(RF)、人工神经网络(ANN)与逻辑回归(LR)模型进行超参数调优;在此基础上,采用Stacking集成学习方法融合各优化后的基学习器优势,构建双层预测模型以提升整体稳定性;最后,引入SHAP可解释性分析方法,量化特征贡献度、识别影响运输准时性的关键驱动因素及其非线性作用模式,最终形成一个在提供高精度预测的同时,也能为运营提供明确决策依据的解决方案。
2. 框架设计及实验方案
2.1. 运输准时性预测模型整体框架设计
本文提出的运输准时性预测模型整体框架包含三个核心环节:数据预处理、模型构建与SHAP解释分析,整体流程如图1所示。
Figure 1. Technology roadmap
图1. 技术路线图
2.2. 数据预处理
(1) 数据来源与描述
研究采用Kaggle平台上的电子商务物流数据集作为实验数据。该数据集由一家国际电子商务公司整理,涵盖其客户交易记录,共包含10,999条样本,每条样本记录一次客户购买行为,涉及11个原始变量,包括发货区域、运输方式、产品价格、产品重量以及最终是否准时送达等关键物流指标。标签比例接近1:1,属于平衡数据集。主要字段及其含义如表1所示。
Table 1. Basic information of features
表1. 特征基本情况
变量 |
名称 |
变量类别 |
值域 |
Warehouseblock |
仓库区域 |
名义变量 |
'A','B','C','D','E' |
Mode_of_Shipment |
运输方式 |
名义变量 |
'Flight','Ship','Road' |
Customer_care_calls |
客户咨询电话数量 |
离散变量 |
[2,7] |
Customer_rating |
公司对客户的评分 |
离散变量 |
[1,5] |
Cost_of_the_Product |
产品的价格 |
连续变量 |
[96,310] |
Prior_purchases |
客户之前购买的次数 |
离散变量 |
2,3,4,5,6,7,8,10 |
Product_importance |
产品的重要性 |
定序变量 |
'low','medium','high' |
Gender |
客户性别 |
名义变量 |
F','M' |
Discount_offered |
该产品的折扣比例 |
连续变量 |
[1,65] |
Weight_in_gms |
产品的重量 |
连续变量 |
1233,3088,3374...1086,1649,1098 |
Reached.on.Time_Y.N |
是否按时送达 |
二分类变量 |
0-reached on time,1-not reached on time |
(2) 数据清洗与编码
数据清洗与编码是提升数据质量、确保模型可靠性的关键步骤。研究首先对数据集进行质量检查,确认其不存在缺失值、重复记录及多重共线性问题。对于分类变量,依据其类型分别处理:对于名义变量(Warehouse_block, Mode_of_Shipment)进行独热编码,生成新的虚变量特征;对于有序变量Product_importance,则被赋予了序数值。此外,考虑到性别特征(Gender)可能引入的伦理争议与潜在的噪声干扰,决定将其从特征集中移除。
(3) 特征融合与归一化
采用特征组合方法生成了两个关键指标:一是整合产品价格与折扣率的最终成交价('Final_Price'),直接反映消费者实际支付金额;二是结合折扣率与商品重量的单位重量折扣强度('discount_per_gram'),用于公平比较不同重量商品的优惠力度。在此基础上,为消除量纲影响,对所有数值型变量进行线性归一化,将其转换至[0, 1]区间。
(4) 特征选择
研究采用递归特征消除(Recursive Feature Elimination, RFE)与DT结合的方法,对特征进行重要性排序与逐步剔除,在特征选择过程中,以召回率为评价指标,采用五折叠交叉验证策略进行模型性能评估。通过计算这5个子集在选择不同特征数量的情况下,每次交叉验证中召回率得分,结果如图2所示。分析表明,当特征数量为8时,模型的平均召回率达到最高值。选出的8个特征包括:{'Customer_care_calls', 'Customer_rating', 'Cost_of_the_Product', 'Prior_purchases', 'Discount_offered', 'Weight_in_gms', 'Final_Price', 'discount_per_gram'}。
Figure 2. The result of features election
图2. 特征选择结果
将处理过后的数据集按8:2划分为训练集和测试集,为后续建模流程做准备。
2.3. 基于BO优化的运输准时性预测模型构建
本研究首先使用训练数据,分别对XGBoost、LightGBM、DT、RF、ANN和LR六种算法进行初始化训练,建立运输准时性预测模型并确定其基线性能。随后,采用BO算法,以召回率作为核心优化指标,对各模型关键超参数进行调优。表2展示了BO算法所优化的模型超参数以及其最终取值。各模型均在调至最优参数后重新训练。
Table 2. Model parameter descriptions and BO tuning results
表2. 模型参数说明及BO调参结果
模型 |
参数名称 |
范围 |
BO调参结果 |
参数含义 |
LightGBM |
learning_rate |
[0.01, 0.5] |
0.08 |
控制每次迭代中模型对残差的拟合程度 |
n_estimators |
[50, 500] |
55 |
模型中树的个数 |
num_leaves |
[2, 10] |
6 |
叶子节点数量 |
RF |
n_estimators |
[10, 200] |
197 |
模型中树的个数 |
max_depth |
[1, 30] |
5 |
树的最大深度,控制复杂度 |
min_samples_leaf |
[1, 10] |
1 |
叶子节点所需的最小样本数 |
min_samples_split |
[1, 20] |
2 |
分裂所需最小样本数 |
XGBoost |
n_estimators |
[50, 300] |
50 |
模型中树的个数 |
max_depth |
[1, 10] |
3 |
树的最大深度,控制复杂度 |
learning_rate |
[0.001, 0.3] |
0.06 |
控制每次迭代中模型对残差的拟合程度 |
ANN |
max_iter |
[50, 500] |
124 |
迭代次数 |
hidden_layer_sizes |
[50, 300] |
(100) |
隐藏层神经元数量 |
alpha |
[0.001, 0.5] |
0.001 |
L2正则化项参数 |
learning_rate_init |
[0.001, 0.5] |
0.05 |
初始学习率 |
DT |
max_depth |
[2, 30] |
5 |
树的最大深度,控制复杂度 |
min_samples_leaf |
[1, 20] |
20 |
叶子节点所需的最小样本数 |
min_samples_split |
[2, 40] |
4 |
分裂所需最小样本数 |
LR |
C |
[0.01, 10] |
0.3 |
正则化参数 |
max_iter |
[1, 100] |
1 |
迭代次数 |
penalty |
['l1', 'l2'] |
'l2' |
正则化类型 |
接着,应用准确率、精确率、召回率和F1分数四个性能指标进行系统评估。其中,召回率被确立为核心评估指标,用以重点考察各模型对未准时送达样本的识别能力。这一选择基于物流准时性预测的业务特性:在电商物流场景中,漏报延迟的成本远高于误报。前者可能导致客户因未收到预期时效的货物而产生投诉、流失乃至商誉损失;后者则主要引发额外的运营关注成本。
最后,在获得各模型的最优个体表现后,为进一步提升预测性能的稳定性与泛化能力,采用Stacking集成方法构建双层预测框架:首先选取经BO调优后性能最优的两个模型作为基学习器,随后逐步增加其他优化后的模型作为补充基学习器,依次构建包含不同数量基学习器的集成模型。第一层由这些逐步增加的基学习器组成,其预测结果作为第二层元学习器(选用LR)的输入特征,通过元学习器学习各基学习器的权重并进行最终决策,从而实现预测能力的有效提升。
2.4. 基于SHAP的可解释性分析
本研究采用SHAP可解释性分析方法,系统评估特征对运输准时性预测的影响。首先,基于测试集计算各样本的SHAP值,量化特征对模型输出的局部贡献;进而通过全局特征重要性排序识别关键驱动因素,并借助SHAP依赖图揭示特征与预测结果间的非线性关系。在此基础上,为进一步验证特征影响的稳健性,本研究采用Bootstrap重抽样技术(重复1000次)对SHAP值进行稳定性评估,计算各特征SHAP值的均值、标准差、95%置信区间及变异系数,从而在统计上确认关键特征的可靠性与波动性。该流程不仅揭示了模型决策机制的业务合理性,亦通过稳定性检验增强了预测结果的可信度与决策参考价值。
3. 实验结果与分析
3.1. 运输准时性预测模型性能比较
将BO优化前后的运输准时性预测模型进行性能对比,结果汇总于表3。
Table 3. Performance comparison of algorithms
表3. 算法的性能对比
模型 |
准确率 |
精确率 |
召回率 |
F1分数 |
LightGBM |
0.6832 |
0.7344 |
0.7196 |
0.6820 |
RF |
0.6745 |
0.6712 |
0.6771 |
0.6704 |
XGBoost |
0.6655 |
0.6608 |
0.6661 |
0.6605 |
DT |
0.6536 |
0.6409 |
0.6406 |
0.6408 |
ANN |
0.6632 |
0.6664 |
0.6722 |
0.6612 |
LR |
0.6582 |
0.6974 |
0.6898 |
0.6576 |
BO-LightGBM |
0.6905 |
0.7691 |
0.7354 |
0.6871 |
BO-RF |
0.6905 |
0.7685 |
0.7352 |
0.6871 |
BO-XGBoost |
0.6886 |
0.7508 |
0.7288 |
0.6867 |
BO-DT |
0.6900 |
0.7548 |
0.7310 |
0.6878 |
BO-ANN |
0.6859 |
0.7355 |
0.7217 |
0.6849 |
BO-LR |
0.6568 |
0.7208 |
0.6979 |
0.6540 |
本研究通过BO对六种机器学习模型进行超参数调优,整体上显著提升了预测性能,实验结果如表3所示。优化后模型在准确率、精确率、召回率和F1分数四个指标上均获得系统性改善,其中召回率平均提升约7个百分点,证明BO能有效使模型更精准地识别潜在延迟订单。
Table 4. Model performance comparison of different combined models
表4. 不同组合模型的模型性能比较
模型 |
准确率 |
精确率 |
召回率 |
F1分数 |
LightGBM, RF |
0.6905 |
0.7672 |
0.7349 |
0.6872 |
LightGBM, RF, XGBoost |
0.6918 |
0.7653 |
0.7353 |
0.6889 |
LightGBM, RF, XGBoost, DT |
0.6909 |
0.7642 |
0.7344 |
0.6880 |
LightGBM, RF, XGBoost, DT, ANN |
0.6923 |
0.7661 |
0.7359 |
0.6894 |
LightGBM, RF, XGBoost, DT, ANN, LR |
0.6927 |
0.7670 |
0.7364 |
0.6898 |
表4结果表明,Stacking集成策略有效融合了基学习器的优势,实现了预测性能的进一步提升。随着基学习器数量的增加,集成模型的准确率、召回率与F1分数均呈现上升趋势,最终六模型集成的Stacking模型取得了最佳性能。该模型的各项关键指标超越了Pratama [14]、Al Rahib [15]、Gheidari等人[9]的研究,验证了Stacking方法能够通过元学习器自适应地加权组合多个异构基学习器的预测结果,从而获得更强的泛化能力与鲁棒性。
3.2. 模型重要性与解释性分析
图3展示了所选取的八个特征的SHAP值。
SHAP分析图直观呈现了各特征值与SHAP值的分布关系。折扣率(Discount_offered)的高值点密集分布于SHAP正向区域,表明高折扣率会增加延迟风险。商品重量(Weight_in_gms)呈现非线性模式:高重量样本集中于SHAP负向区域,中低重量样本则偏向正向区域,表明重量与延迟风险之间存在非单调
Figure 3. SHAP interpretation analysis diagram
图3. SHAP解释分析图
关联。单位重量折扣强度(discount_per_gram)的高值点集中于SHAP正向区域,而最终成交价(Final_Price)的高值点偏向负向区域,显示二者对输出的影响方向相反,表明较低的折扣密度与较高的订单价值均有助于降低延迟概率。历史购买次数(Prior_purchases)和产品价格(Cost_of_the_Product)的样本高值整体略向SHAP负向偏移,表明购买次数和产品价格与延迟风险呈负相关。客户咨询电话数量(Customer_care_calls)与客户评分(Customer_rating)的散点均紧密聚集在SHAP零值附近,分布范围狭窄,表明其对预测结果的边际贡献微弱。
Table 5. Robustness analysis of SHAP values based on Bootstrap resampling
表5. 基于Bootstrap重抽样的SHAP值稳健性分析
特征 |
平均SHAP值 |
标准差 |
95%置信区间 |
变异系数 |
Weight_in_gms |
0.0146 |
0.0021 |
[0.0106, 0.0187] |
0.143 |
Discount_offered |
0.0054 |
0.0023 |
[0.0008, 0.0099] |
0.433 |
Final_Price |
0.0049 |
0.0006 |
[0.0038, 0.0060] |
0.117 |
Prior_purchases |
0.0022 |
0.0005 |
[0.0013, 0.0032] |
0.222 |
discount_per_gram |
0.0014 |
0.0013 |
[−0.0011, 0.0039] |
0.882 |
Customer_care_calls |
0.001 |
0.0001 |
[0.0008, 0.0012] |
0.097 |
Cost_of_the_Product |
-0.0003 |
0.0002 |
[−0.0007, 0.0002] |
0.901 |
Customer_rating |
0.00001 |
0.00004 |
[−0.0001, 0.0001] |
3.303 |
表5的稳健性分析为上述模式提供了严格的统计验证。商品重量(Weight_in_gms)的平均SHAP值最高(0.0146)且变异系数较低(0.143),置信区间稳定为正,表明其影响强且可靠。折扣率(Discount_offered)的平均SHAP值次高(0.0054),但变异系数较高(0.433),置信区间下限接近零,表明其影响存在明显的样本依赖性,稳定性相对有限。最终成交价(Final_Price)与历史购买次数(Prior_purchases)均具有显著为正的平均SHAP值且变异系数低,这从量化角度证实了二者影响的稳健性。单位重量折扣强度(discount_per_gram)与变异系数极高(>0.88),且前者置信区间包含零值,统计上极不稳定。客户咨询电话数量(Customer_care_calls)、产品成本(Cost_of_the_Product)与客户评分(Customer_rating)对模型输出的贡献度可忽略不计。
综合图表分析,物流准时性主要受商品重量与折扣率两类特征驱动,其影响机制可从物流运营理论中获得解释。重量特征呈现的高强度、高稳健性影响,符合运输经济学中的密度经济原理,体现了重货在物流作业中的流程优先级。折扣特征的显著正向影响及其较高波动性,反映了供应链牛鞭效应下促销活动对运营系统的冲击。最终价格与历史购买的稳定辅助作用,则体现了服务差异化与客户生命周期价值管理的运营逻辑。其余特征因统计不稳定性或影响微弱,在实际决策中参考价值有限。基于此,时效优化应聚焦于三个层面:固化重货的流程优势以提升运输经济性,构建抗促销波动的弹性运营体系以应对牛鞭效应,并建立基于订单价值与客户历史的智能资源分配机制以实现服务差异化。
4. 结论
本研究构建了一个融合贝叶斯优化、Stacking集成学习与SHAP可解释性分析的电商物流准时性预测框架,通过实证分析得出以下核心结论:
首先,贝叶斯优化显著提升了模型性能。经调优后,各模型的召回率平均提升7%,其中LightGBM表现最优,验证了自动化超参数优化的有效性。其次,Stacking集成策略实现了性能突破。逐步集成六个基学习器构建的最终模型取得了最佳综合性能,超越了单一模型及现有研究,证明了异构模型融合的优势。最后,SHAP分析揭示了关键业务洞察。折扣率和商品重量是影响模型输出的两个最强有力的驱动因素,分别以不同的机制影响着物流效率。通过识别并量化各因素对物流结果的影响,可以更精准地制定优化策略。
本研究不仅证明了机器学习方法在物流准时性预测中的实用价值,更重要的是通过可解释性分析将模型输出转化为可操作的业务知识。从理论意义来看,本研究构建的“特征工程–贝叶斯优化-Stacking集成-SHAP解释”框架为运输准时性预测问题提供了系统性的方法论参考。从实际意义而言,该框架为企业提供了从数据预处理到决策支持的完整技术方案,使物流管理者能够基于预测结果实施精准干预。这种“预测–解释–干预”的闭环管理范式,推动了电商企业从被动响应投诉向主动管理时效的运营模式转型,在提升客户满意度的同时实现降本增效。未来研究可进一步探索实时交通、天气等多源数据融合机制,并建立动态模型更新体系,以增强预测系统对复杂物流环境的适应能力。
NOTES
*通讯作者。