1. 引言
随着淘宝、京东等电商产业的飞速发展,快递行业已经成为一项市场潜力巨大的产业。据资料显示,自2014年以后,中国快递业务量已经连续11年稳居世界第一[1]。现如今,中国作为全球最大的网络零售市场[2],5G时代的到来不仅为传统电商升级赋能,更推动农村电商、特色农产品电商等细分领域快速成长——农村电商通过打破城乡地域限制、推动统一大市场建设,直接促进了城乡间农产品上行、工业品下行的流通需求,这类跨区域商品流动自然带动了快递业务增量[3];特色农产品电商如“企业 + 合作社 + 电商”“直播带货”等模式,进一步拓展了快递服务的应用场景[4],而农产品电商物流的基础设施完善与数字化升级,又为快递高效履约提供了支撑[5],多维度共同推动下,快递业的前景更为广阔。
从驱动因素来看,实物商品网上零售额增长、单个包裹货值降低、退货率提升以及海外快递业务发展等均成为快递业务量增长的重要推手[6]。而快递业务量受季节、促销等不确定因素影响,数据具有明显波动性,这也为其预测工作带来了挑战[7]。近年来,快递行业继续保持高位增长态势,快递业务量作为快递行业研究中重要的一项指标,建立科学模型对其预测并寻求发展规律尤为关键。现有研究中,学者已通过SARIMA滑动窗口模型捕捉日度快递业务量的时间序列特征,为企业资源调度提供支撑[8];也有研究采用神经网络模型拟合快递业务量背后的复杂非线性关系,有效应对多因素交互带来的预测难题[9]。准确的快递量预测不仅对物流建设规划至关重要,对快递行业具有重要的意义与实际价值,还能为快递包裹分拣、定价及人力车辆调配等具体业务提供良好的参考价值。
本文基于深度学习建立Attention-BiLSTM预测模型,并以XX省2009年1月到2025年6月的快递业务量为研究数据,实证分析Attention-BiLSTM的预测效果。
2. 理论介绍
2.1. BiLSTM网络
长短时记忆网络(LSTM)是由Schmidhuber J和Hochreiter S在1997年设计的循环神经网络架构[10],是为了发现是否存在长期依赖关系,克服梯度消失和爆炸的问题而提出的。是一种特殊的循环神经网络(Recurrent Neural Network, RNN),具有RNN的优点并在其基础上进行改善,可以数据中的上下文信息和长期依赖关系。LSTM已成功应用于多个领域,如股票市场预测[11]、洪水预测[12]、销售预测[13]、旅行时间预测[14]等。
LSTM的核心思想是细胞状态——一种持续在网络中流动的信息线。这个细胞状态就像一个传送带,从网络的开始一直到结束。在传送带上,LSTM可以添加或删除信息,确保只有相关的信息被保留,不相关的信息被遗忘。
Figure 1. Framework of the LSTM model
图1. LSTM模型框架
图1所示为LSTM神经元结构,图中的
为t时刻输入,
为t时刻隐藏层状态,
与
为激活函数。
为了更好地捕捉历史规律、把握未来趋势,双向LSTM (BiLSTM)应运而生,它通过同时处理正向和反向的序列信息,能够更全面地捕捉数据特征。这种双向处理机制使得模型在时间序列数据预测中具有更强的理解能力,其具体架构如图2所示。
Figure 2. Framework of the BiLSTM model
图2. BiLSTM模型框架
BiLSTM由一个正向的LSTM (用于向前传播)和一个反向的LSTM (用于向后传播)组成。假设t时刻的正向LSTM隐层输出为
,反向LSTM隐层输出为
,则t时刻BiLSTM的输出
为:
(1)
其中符号
表示向量连接。
2.2. Attention模型
Attention作为一种改进的注意机制,对外部信息的依赖程度较低,能够通过学习序列中元素之间的依赖关系,自适应地为不同特征分配动态权重[15],首先通过线性变换得到查询向量(
)、键向量(
)和值向量(
):
(2)
其中,
为参数矩阵。
然后,通过计算查询向量与键向量的相似度,并经过
归一化得到注意力权重:
(3)
其中,
表示
向量的维度。
在Attention-BiLSTM模型中,BiLSTM主要用于捕捉时间序列中的长期依赖关系并进行特征提取,Attention用于识别并聚焦于对预测未来值最关键的历史时间点,让模型在做出预测时,能够动态地、有选择地关注历史序列中与当前预测最相关的部分,从而使得预测结果更加精准。
3. 模型设计
本文构建的Attention-BiLSTM模型旨在解决具有长期依赖和复杂模式的时间序列预测问题。该模型共包含三个核心模块:输入模块、序列编码与特征提取模块、以及注意力预测模块。该框架能够有效捕捉时间序列的长期趋势、周期模式,并通过对关键时间点的聚焦提升预测精度。
3.1. 输入层(Input Layer)
接收一个由滑动窗口方法生成的历史序列数据。设窗口大小为
,即使用过去
个时间步的数据来预测未来一个或多个时间步的值。输入序列表示为:
(4)
其中
代表在时间步
的观测值。
3.2. 双向LSTM层(BiLSTM Layer)
将输入序列X输入到双向LSTM层中,旨在从过去和未来的上下文(在窗口内)中全面学习每个时间点的特征表示。
前向LSTM从
到
处理序列,捕捉截至当前时间点的历史信息:
(5)
后向LSTM从
到
处理序列,捕捉从序列末端到当前时间点的未来信息(在窗口内):
(6)
将每个时间步的前向隐藏状态
和后向隐藏状态
进行拼接,得到该时间步的完整上下文感知的隐藏状态
:
(7)
其中
,
是单向LSTM的隐藏层维度。最终得到整个输入序列的隐藏状态矩阵
,它编码了序列的全部特征。
3.3. 注意力层(Attention Layer)
该层用于评估历史序列中不同时间点对于当前预测任务的重要性,并生成一个加权的上下序列向量。首先,为一个可训练的上下序列向量
与每个隐藏状态
计算注意力得分
:
(8)
其中
是可训练参数。
使用Softmax函数将得分归一化为注意力权重
:
(9)
最后,对所有权重
和对应的隐藏状态
进行加权平均,得到浓缩了关键信息的上下文向量
:
(10)
3.4. 输出层(Output Layer)
将上下文向量
输入到一个或多个全连接层,最终输出预测值。对于单步预测,其形式为:
(11)
其中
和
是输出层的权重和偏置,
是在时间步
的预测值。
4. 实证研究
4.1. 数据来源
为保证数据的真实性,本文研究数据来源于XX省宏观经济数据库,具有很强的可靠性。基于原始数据,绘制时序图如图3。
4.2. 实验过程
本文实验环境基于Window11的操作系统,使用Python-3.9开发环境,使用Panda来读取csv文件。将2009年1月至2024年6月的数据作为训练集,2024年7月至2025年6月的数据作为测试集。
同时考虑到节假日效应的影响,其中6.18、双十一、双十二是影响最大、时间最长(一般为15天时间)的时间节点,将其定义为购物节。同时,春节、中秋节、端午节也是影响快递业务量的节假日,快递业务量序列在这些时间段会出现变点。由于春节、中秋节、端午节日期不是固定的,通过get_holidays_df( )函数获取中国2009年至2024年春节、中秋节、端午节具体日期,并针对不同的节日设置不通过的时间长度,具体参数设置如表1所示。
首先利用训练集在Attention-BiLSTM模型上训练,并以均方误差MSE为损失函数,进行参数调优,得到如图4所示的拟合曲线,以及损失值随迭代次数的变化。
基于Attention模型进行动态参数调优,建立最终的预测模型,并利用所建模型进行预测,预测效果见图5。
Figure 3. Time series plot of raw data
图3. 原始数据时序图
Table 1. Parameter settings for holiday effects
表1. 节日效应参数设置表
节假日 |
具体日期/changepoints |
lower_window |
upper_window |
春节 |
2009-01-26, 2010-02-14, 2011-02-03, 2012-01-23, 2013-02-10,
2014-01-31, 2015-02-19, 2016-02-08, 2017-01-28, 2018-02-16,
2019-02-05, 2020-01-25, 2021-02-12, 2022-02-01, 2023-01-22,
2024-02-10 |
−5 |
5 |
端午节 |
2009-06-27, 2010-06-16, 2011-06-12, 2012-06-23, 2013-06-10,
2014-06-12, 2015-06-20, 2016-06-09, 2017-06-18, 2018-06-18,
2019-06-07, 2020-07-14, 2021-06-12, 2022-06-03, 2023-06-22,
2024-06-10 |
−7 |
1 |
中秋节 |
2009-10-03, 2010-09-22, 2011-09-12, 2012-09-30, 2013-09-19,
2014-09-08, 2015-09-27, 2016-09-15, 2017-10-04, 2018-09-24,
2019-09-13, 2020-10-01, 2021-09-21, 2022-09-10, 2023-09-29,
2024-09-17 |
−7 |
1 |
购物节 |
2009-06-18, 2009-11-11, 2009-12-12, 2010-06-18, 2010-11-11,
2010-12-12, 2011-06-18, 2011-11-11, 2011-12-12, 2012-06-18,
2012-11-11, 2012-12-12, 2013-06-18, 2013-11-11, 2013-12-12,
2014-06-18, 2014-11-11, 2014-12-12, 2015-06-18, 2015-11-11,
2015-12-12, 2016-06-18, 2016-11-11, 2016-12-12, 2017-06-18,
2017-11-11, 2017-12-12, 2018-06-18, 2018-11-11, 2018-12-12, 2019-06-18, 2019-11-11, 2019-12-12, 2020-06-18, 2020-11-11,
2020-12-12, 2021-06-18, 2021-11-11, 2021-12-12, 2022-06-18,
2022-11-11, 2022-12-12, 2023-06-18, 2023-11-11, 2023-12-12,
2024-06-18, 2024-11-11, 2024-12-12 |
−15 |
5 |
![]()
Figure 4. Fitting curve (left) and loss change (right) of the Attention-BiLSTM model
图4. Attention-BiLSTM模型拟合曲线(左)和损失值变化(右)
Figure 5. Prediction performance of the Attention-BiLSTM model
图5. Attention-BiLSTM模型预测效果图
4.3. 模型比较
为比较Attention-BiLSTM的准确度,与传统的时间序列预测模型——Holt-Winters三参数指数平滑模型、ARIMA、Prophet时间序列预测模型进行对比分析,各模型预测结果见图6。
从预测效果图来看,各模型的预测趋势基本一致。为进一步验证模型的预测精度,以RMSE和MAE为评价指标进行比较分析。
(12)
(13)
其中
表示样本量,
表示预测值,
表示真实值。各模型的RMSE和MAE如表2所示。
Figure 6. Prediction performance of different models
图6. 各模型预测效果图
Table 2. RMSE and MAE values of the prediction models
表2. 各预测模型的RMSE和MAE值
指标 |
HW |
ARIMA |
Prophet |
LSTM |
Attention-BiLSTM |
RMSE |
1208.234 |
1040.175 |
1326.725 |
843.50 |
806.318 |
MAE |
1020.674 |
959.740 |
1289.780 |
795.45 |
742.388 |
对比发现,LSTM网络预测结果的RMSE和MAE均小于传统的时间序列模型,采用Attention-BiLSTM模型后,预测精度进一步提高,RMSE和MAE缩小至806.32和742.39,这得益于其注意力机制能精准捕捉快递数据中的关键时间点,且双向LSTM能有效学习复杂的非线性时序模式。而传统模型ARIMA和Holt-Winters对线性关系和固定季节性的统计假设难以完全适应实际业务中复杂的波动模式,因此在快递业务量中的预测精度欠佳。Prophet模型的季节性和趋势假设,与易受多种外部因素冲击的快递业务量数据特征间的匹配度不高,导致预测偏差最大。综合来看,与传统的时间序列预测模型相比,Attention-BiLSTM模型更加适合快递业务量的预测。
5. 研究结论
本研究聚焦于电子商务蓬勃发展背景下的快递业务量预测问题,以某省2009年1月至2025年6月的快递业务量数据为基础,构建了一种基于深度学习的Attention-BiLSTM预测模型,并将其与ARIMA、Holt-Winters及Prophet等传统时间序列模型进行了系统性的比较分析。研究结果表明,电子商务的持续扩张是推动快递业务量增长的核心动力,同时也使其时间序列呈现出非线性、高波动性和节假日效应等复杂特征,对预测模型的性能提出了更高要求。
在实证分析中,Attention-BiLSTM模型展现出显著优势。该模型通过双向长短时记忆网络(BiLSTM)有效捕捉序列中的长期依赖关系,并结合注意力机制(Attention)动态聚焦于关键历史时间点,从而提升了模型对复杂模式的识别能力。实验结果显示,Attention-BiLSTM在测试集上的RMSE和MAE分别为806.318和742.388,均低于其他对比模型,说明其在预测精度和稳定性方面具有明显优越性。
综上所述,本研究验证了深度学习模型在电商驱动型快递业务量预测中的有效性与实用性。Attention-BiLSTM不仅能够更精准地把握快递业务量的变化规律,还能为快递企业的运营管理、资源调配及网络规划提供参考。在电子商务持续演进、物流需求日益复杂的背景下,引入此类智能预测方法,对推动快递行业向智能化、精细化方向发展具有重要的理论价值与现实意义。