基于LSTM-RBF的分拣中心货量预测——以湘西自治州为例
Cargo Volume Prediction of Sorting Centers Based on LSTM-RBF—Taking Xiangxi Autonomous Prefecture as an Example
DOI: 10.12677/sa.2024.135191, PDF, HTML, XML,    科研立项经费支持
作者: 段振江, 李洪毅*:吉首大学数学与统计学院,湖南 吉首
关键词: 分拣中心货量LSTM-RBF预测模型相关性分析物流Cargo Volume of Sorting Centers LSTM-RBF Prediction Model Correlation Analysis Logistics
摘要: 分拣中心货量调控是物流运营的关键环节,准确预测分拣中心货量对物流行业的发展具有重要意义。本文以湘西自治州为例,选取年GDP、人均GDP等8个指标作为分拣中心货量的度量,根据相关性分析,确定对货量影响显著的指标,并利用LSTM对显著指标进行预测,接着基于RBF对2024~2028年分拣中心的货量进行预测,最后进行精度检验,预测精度对比分析表明,通过指标预测的方式相对直接预测货量具有更高的预测精度,更适合用于分拣中心货量的预测。
Abstract: The regulation of cargo volume in sorting centers is a key link in logistics operation. Accurate prediction of cargo volume in sorting centers is of great significance for the development of the logistics industry. Taking Xiangxi Autonomous Prefecture as an example, this paper selects eight indicators such as annual GDP and per capita GDP as the measurement of cargo volume in sorting centers. According to correlation analysis, the indicators that have significant impacts on cargo volume are determined. LSTM is used to predict the significant indicators. Then, based on RBF, the cargo volume of sorting centers from 2024 to 2028 is predicted. Finally, accuracy inspection is carried out. The comparison and analysis of prediction accuracy shows that the method of predicting through indicators has higher prediction accuracy than directly predicting cargo volume and is more suitable for predicting cargo volume in sorting centers.
文章引用:段振江, 李洪毅. 基于LSTM-RBF的分拣中心货量预测——以湘西自治州为例[J]. 统计学与应用, 2024, 13(5): 1961-1971. https://doi.org/10.12677/sa.2024.135191

1. 引言

随着物流行业的快速发展,分拣中心的货量预测和分类对于提高物流运营效率和管理水平至关重要。湘西自治州作为一个具有代表性的区域,地处湘鄂渝黔四省市交界处,山区地形复杂导致运输成本较高,需逐步完善交通基础设施以提升物流效率,其分拣中心的货量受到多种因素的影响,如当地的经济发展水平、居民收入水平、社会产业产值等。因此,对湘西自治州分拣中心的货量进行准确预测和合理分类,有助于优化资源配置,提高分拣中心的运营效率,促进物流行业的发展。

在这样的时代背景下,众多学者纷纷从不同的视角和运用多样的方法,对分拣中心的货量预测展开了深入的研究。胡佳迎[1]运用文献研究法介绍分析四种货量预测方法,解决快递公司精确预测货量以安排人力和车线运作的问题,为快递公司选择合适方法提供参考。刘慧智[2]从园区业务市场入手,对园区的货类进行分析,确定出园区的主要货类,运用灰色理论模型对这些货种的货量进行预测,最后采用流量分配方法确定进出物流园区的铁路货运量。常志宏等[3]通过选取经济、基础设施、人口等影响因素,运用皮尔逊相关系数分析其与公路货运量的相关性,构建预测模型并验证精度。燕学博和曹世鑫[4]引入注意力机制,构建基于卷积神经网络和长短期记忆网络的组合预测模型对我国货运量进行时序预测。先运用卷积神经网络提取特征输入长短期记忆网络,再通过注意力机制提取关键信息,结合全国月度货运量历史数据进行预测。徐曼和陆芬[5]以陕西省为例,组合灰色预测模型、二次指数平滑预测模型及线性回归预测模型,依据2002~2021年实际数据建立模型,预测该省未来十年物流需求量增长趋势,根据预测结果和“十四五”规划为陕西省物流发展提供建议。龙宇等[6]提出的ARIMA-LSTM-XGBoost组合模型通过特定方式结合各模型优势并确定权重,经对比分析表明其具有低预测误差、高预测精度和泛化能力。王鑫鑫等[7]针对水路货运量精准预测难的问题,提出LSTM-RBF组合预测模型,经实验证明该模型对水路货运量预测准确度高。

综上所述,众多学者针对不同地区、运用不同方法对货量预测进行了深入研究,为物流行业的发展提供了有力的理论支持和实践指导。未来,随着技术的不断进步和数据的不断丰富,相信货量预测的准确性和可靠性将进一步提高,对于湘西自治州这样具有特殊地理环境和发展需求的地区,应充分借鉴已有研究成果,结合实际探索适合自身的货量预测和分类方法,推动当地物流发展和经济提升。

2. 指标选取与研究方法

2.1. 数据来源

本文以湘西自治州6个货量较多的分拣中心作为研究对象,选取年GDP、人均GDP、固定资产投资总额、社会消费品零售总额、货物进出口总额、第一生产总值、第二生产总值和第三生产总值8个指标作为分拣中心货量的度量,接着通过湘西州统计局网站得到了湘西自治州的8个指标数据,并通过实地调研获取了湘西自治州6个分拣中心在2012年至2023年期间的货量数据。

2.2. 数据处理与指标选取

基于学者对货量的各类影响因素研究,以及产业经济分析与系统工程分析选取对货量产生影响的相关指标。接着收集货量和相关指标数据,进行数据处理,并对货量造成影响的指标分别和各分拣中心货量进行相关性分析,最后对指标进行筛选。

数据处理

基于产业经济分析与系统工程分析这两种科学严谨的方法所展开的初步剖析表明,货量在诸多方面会受到一定的限制。具体而言,货量会受到市场需求以及当地社会经济状况的制约。货量与所在地区的经济发展水平之间存在着极为紧密的关联。一方面,当地社会经济的发展态势会直接影响市场需求的规模和结构,进而对货量产生作用;另一方面,经济发展水平的高低也会在很大程度上决定货量的潜在上限和增长空间。

此外,居民收入水平的提升以及社会产业产值的增加均有可能以间接的方式对货量产生影响。当居民收入水平提高时,消费能力也会相应增强,从而可能导致市场对各类商品的需求增加,进而带动货量的上升。而社会产业产值的增加则意味着生产规模的扩大和经济活动的更加活跃,这也可能为货量的增长提供有力的支撑。有学者针对货量的各类影响因素展开了研究,所选取的对货量产生影响的相关指标包括:年GDP、人均GDP、固定资产投资总额、社会消费品零售总额、货物进出口总额、第一生产总值、第二生产总值、第三生产总值以及6个分拣中心货量,如表1所示。

Table 1. Cargo volume and related impact indicators of each sorting center

1. 各分拣中心货量及相关影响指标

指标

符号

单位

i号分拣中心货量( i=1,2,,6 )

Fi

万吨

年GDP

X1

亿元

人均GDP

X2

亿元

固定资产投资总额

X3

亿元

社会消费品零售总额

X4

亿元

货物进出口总额

X5

亿美元

第一生产总值

X6

亿元

第二生产总值

X7

亿元

第三生产总值

X8

亿元

本文针对湘西自治州进行了深入细致的实地调研工作。调研人员走访了各个分拣中心,与相关工作人员进行深入交流,仔细查阅大量的记录文档,确保每一个数据都准确无误。全面收集了从2012年至2023年每一年的湘西自治州6个主要分拣中心的货量详细数据。通过对这些海量数据的精心提取和细致整理,最终成功形成了具体而全面的数据集合。该数据集合内容详实、涵盖面广,为后续的研究分析提供了坚实的基础,如表2所示。

Table 2. Cargo volume data of six sorting centers in Xiangxi Autonomous Prefecture from 2012 to 2023

2. 湘西自治州2012~2023年6个分拣中心的货量数据

年份

F1

F2

F3

F4

F5

F6

2012

716.38

2062.55

1005.73

436.45

623.24

1088.39

2013

715.55

2037.23

1075.13

449.19

645.06

1175.69

2014

855.56

2084.58

1145.07

506.38

686.40

1246.14

2015

777.79

2169.33

1275.14

492.41

768.71

1203.66

2016

785.60

2222.69

1230.31

503.71

741.57

1272.97

2017

841.57

2340.66

1286.25

582.13

823.38

1244.92

2018

905.29

2306.68

1293.32

591.78

880.64

1330.87

2019

929.69

2255.33

1267.37

491.22

785.60

1305.76

2020

970.87

2322.13

1323.94

526.12

795.55

1344.36

2021

956.13

2456.74

1344.37

617.10

889.83

1386.26

2022

941.65

2442.27

1365.08

610.03

863.10

1375.81

2023

990.78

2516.95

1398.07

621.85

1010.59

1387.59

通过湘西自治州统计局网站,获得了2012年至2023年影响货量的8个相关指标的数据,如表3所示。

Table 3. Data of related indicators affecting the quantity of goods in Xiangxi Autonomous Prefecture from 2012 to 2023

3. 湘西自治州2012~2023年影响货量的相关指标数据

年份

X1

X2

X3

X4

X5

X6

X7

X8

2012

387.90

0.32

178.72

155.37

6.54

62.90

113.70

213.80

2013

429.40

0.36

202.63

176.46

8.13

67.20

132.20

231.40

2014

465.50

0.41

239.58

200.91

11.09

73.23

143.20

250.30

2015

497.44

0.42

385.81

222.45

13.77

75.66

158.90

262.90

2016

524.80

0.45

433.47

245.19

14.98

74.77

165.60

284.40

2017

575.60

0.51

467.87

272.44

12.90

76.70

179.40

319.40

2018

605.10

0.57

467.77

300.83

11.64

79.83

171.60

353.60

2019

705.70

0.61

452.25

326.20

14.82

94.86

198.24

412.59

续表

2020

725.10

0.55

431.71

258.03

15.43

111.67

204.24

409.18

2021

792.10

0.60

422.05

285.10

14.50

114.00

239.19

438.91

2022

817.50

0.61

368.71

303.55

13.76

120.56

237.43

459.53

2023

825.90

0.65

320.15

332.45

11.60

171.71

225.48

478.66

2.3. 度量指标与分拣中心货量的相关性分析

以上述收集并提取的丰富数据作为坚实的依据,专门针对湘西自治州的各个指标与各分拣中心货量展开了深入的皮尔逊相关性分析,计算结果如表4。在这项分析中,对货量产生影响的8项指标分别与各分拣中心货量进行了全面且细致的剖析。

Table 4. Pearson correlation coefficient between each index and the volume of each sorting center

4. 各指标与各分拣中心货量的皮尔逊相关系数

指标

X1

X2

X3

X4

X5

X6

X7

X8

F1

0.927

0.934

0.533

0.851

0.607

0.809

0.886

0.935

F2

0.932

0.916

0.588

0.867

0.564

0.838

0.937

0.925

F3

0.888

0.906

0.632

0.886

0.665

0.756

0.910

0.874

F4

0.801

0.822

0.529

0.782

0.442

0.769

0.825

0.791

F5

0.860

0.905

0.569

0.888

0.489

0.834

0.844

0.866

F6

0.929

0.934

0.603

0.870

0.686

0.782

0.927

0.922

显著性

<0.01

<0.01

>0.01

<0.01

>0.01

<0.01

<0.01

<0.01

Figure 1. Pearson correlation coefficient thermal map of index and sorting center volume

1. 指标与分拣中心货量的皮尔逊相关系数热力图

表4能够看出,皮尔逊相关性分析得出的结果是各指标与各分拣中心货量的相关性系数,除固定资产投资总额(X3)和货物进出口总额(X5)外,其余6项指标都高于0.7,并且显著性水平也都小于0.01,可以认定上述8项指标中的6项指标和各分拣中心货量显著相关。通过相关性热力图可以更明显地揭示这些指标与货量之间的内在关联和相互作用,如图1所示。

由于指标之间或许存在相互作用的情况,在剔除部分控制变量之后,对6个指标与分拣中心货量的偏相关系数进行分析。分析结果显示,在剔除部分控制变量之后,上述的6项指标和各分拣中心货量之间依旧存在较高的相关性,而且显著性小于0.01,由此,验证了各指标的有效性。

2.4. 研究方法

2.4.1. LSTM神经网络

LSTM (Long Short-Term Memory)神经网络作为一种常用的循环神经网络结构,是RNN的升级版,成功解决了RNN存在的短时记忆问题,能够实现更长时间的记忆(借助更新神经元状态)。它非常适合处理序列数据,在记忆和对长期依赖性进行建模方面表现出色。单个LSTM模型主要由四个部分组成:遗忘门(Forget Gate)、输入门(Input Gate)、输出门(Output Gate)以及神经元状态,这些部分以一种特殊的方式相互作用。LSTM的结构如图2所示。

Figure 2. LSTM structure diagram

2. LSTM结构图

F为遗忘门输出;I为输入门输出; C ˜ 为神经元状态的候选值; x t 为当前时刻的输入; h t h t1 分别为t时刻及前一时刻的输出; σ 为sigmoid层; C t C t1 t时刻及前一时刻的神经元状态; C ˜ t 为候选值状态。

2.4.2. RBF神经网络

RBF (Radial Basis Function)神经网络属于一种三层的前向神经网络。其中,第一层为输入的信号源节点;中间层由神经元组成,是隐含层;最后一层则是对输入信息作出响应的输出层。RBF神经网络的主要结构如图3中右侧的RBF目标预测层所呈现。输入层表示的是样本1、样本2、样本3……,且每个样本的维度相同。隐含层中的RBF传递函数 C 1 C 2 、∙∙∙、 C i 分别对应着每个隐含层节点的中心矢量,其维度与样本维度一致。径向基传递函数的表达式为:

y( X )=exp( X C k 2 2 δ k 2 ) (1)

其中:X为单个的输入样本; C k 为第k个神经元状态的候选值; δ k 为隐含层第k个节点基函数的扩展系数。

2.4.3. LSTM-RBF神经网络

LSTM-RBF预测模型主要涵盖两个阶段,即LSTM指标预测模型与RBF目标预测模型。先由LSTM网络对所选的指标展开预测,再将所得结果应用于RBF中,以对目标值进行预测。该预测模型的整体框架如图3所示。

Figure 3. LSTM-RBF prediction model framework

3. LSTM-RBF预测模型框架

LSTM能够捕获序列的长期与短期模式,进而更为精准地预测指标值。尤其是在应对波动较大的数据时,其遗忘门可有效避免极端数据波动对预测产生的影响,从而获取更为准确的指标数据。这样一来,就解决了因指标值数据不准确而导致最终目标值误差较大的问题。同时,RBF回归预测弥补了LSTM在预测时影响因素单一的不足,二者相互配合。在LSTM得到的指标值基础上,利用RBF神经网络对目标值进行预测。RBF具有强大的非线性拟合能力,能够很好地拟合指标与目标之间的关系,实现对目标值的准确预测。

2.4.4. 预测精度计算

为综合比较模型通过预测指标来预测货量和直接预测货量两种不同预测方式的预测精度,本文选择平均绝对误差百分比(MAPE)、均方根误差(RMSE)和决定系数(R2)作为评价标准,计算公式如下:

MAPE= 1 m i=1 m | x i x ^ i | x i ×100% (2)

RMSE= 1 m i=1 m ( x i x ^ i ) 2 (3)

R 2 =1 i=1 m ( x i x ^ i ) 2 i=1 m ( x i x ¯ ) 2 (4)

其中: x i 为实际值, x ^ i 为预测值, x ¯ 为实际值的平均值。

3. 分拣中心货量预测

基于湘西自治州6个分拣中心在2012年至2023年期间的货量数据。将LSTM神经网络用作货量影响指标的时序预测手段,接着凭借RBF神经网络对湘西自治州6个分拣中心的货量实施回归预测。

3.1. 组合预测

以2012年至2018年的历史数据来训练LSTM-RBF神经网络,将2016年至2018年设定为测试集,接着对6个分拣中心货量未来5年的数据展开预测,最终运用2019年至2023年的样本外数据来对预测模型的精度予以分析。

3.1.1. 关键指标的LSTM预测

对6项关键指标分别进行LSTM时间序列预测,参数设置如下:最大训练次数 = 100;分层阈值 = 1;学习率 = 0.05;衰减周期 = 125;衰减因子 = 0.2;小批量值 = 12。预测结果如表5所示。

Table 5. The projected values of six key indicators for 2024~2028

5. 2024~2028年6项关键指标的预测值

预测年份

X1

X2

X4

X6

X7

X8

2024

923.13

0.71

347.48

169.73

254.54

525.91

2025

959.22

0.74

372.40

167.39

277.09

568.59

2026

1069.98

0.78

377.65

170.25

279.96

592.34

2027

1145.76

0.85

383.24

179.30

293.15

637.18

2028

1206.91

0.87

409.17

189.55

306.68

663.15

3.1.1. 各分拣中心货量的RBF预测

以2012年至2018年的6项关键指标数据以及6个分拣中心货量数据为基础,对RBF神经网络展开训练,其参数设定如下:隐藏层节点的个数 = 11,径向基函数的扩展速度 = 1100。样本内训练和测试的结果如图4所示。

Figure 4. Results of in-sample training

4. 样本内训练结果

图4能够看出,预测的数据大体上与真实数据相符,拟合程度较高,并且RMSE仅为5.232。利用未来5年的指标值对目标值进行预测,得出未来5年6个分拣中心货量的预测值如表6所示。

Table 6. Forecast value of cargo volume of each sorting center in 2024~2028

6. 2024~2028年各分拣中心货量预测值

年份

F1

F2

F3

F4

F5

F6

2024

1030.69

2568.66

1444.59

644.59

1005.24

1438.78

2025

1067.41

2607.80

1453.92

670.40

1014.90

1472.21

2026

1084.49

2687.90

1493.85

686.40

1045.01

1486.03

2027

1121.93

2708.95

1544.40

692.61

1075.57

1539.24

2028

1159.72

2740.99

1555.57

724.02

1129.58

1564.84

表6展示了2024年至2028年湘西自治州各分拣中心货量的预测值。总体来看,各分拣中心货量在预测期间都呈现上升趋势,与6项关键指标预测值的趋势相同。

3.2. 预测精度对比分析

于2019年至2023这5年的样本外数据,将LSTM-RBF预测模型通过预测指标来预测货量和直接预测货量进行对比。预测结果如图4所示。

Figure 5. Two ways to predict the outcome

5. 两种方式预测结果

图5展示了2019年至2023五年样本外数据中两种不同方式对货量的预测结果对比,实际货量在1200万吨至1450万吨间波动,通过指标预测的货量曲线相对更接近实际货量,直接预测的货量曲线与实际货量差距较大,初步显示通过指标预测可能具有更高精度,需结合后续误差和拟合度比较确认,为进一步分析预测精度提供视觉参考,可确定更适合的预测方式并探索改进方法以提高货量预测精度和可靠性。

两种预测方式各自运行10次,MAPE、RMSE和R2取平均值,两种方式的误差和拟合度的比较情况如表7所示。

Table 7. Comparison of accuracy of different LSTM-RBF prediction methods

7. LSTM-RBF不同预测方式精度对比

数据集

误差/拟合度

通过指标预测

直接预测

训练集

MAPE

1.34%

2.78%

RMSE

1.47

2.67

R2

0.984

0.961

测试集

MAPE

2.61%

4.22%

RMSE

4.23

5.23

R2

0.965

0.931

样本外

MAPE

3.27%

5.23%

RMSE

5.39

5.92

R2

0.947

0.914

表7可以看出,两种预测方式在训练集上的表现均较为良好。然而,在对测试集和样本外数据进行预测时,直接预测货量的误差显著增大,而通过指标预测依旧保持着较高的拟合度,并且其误差仅有略微的上升。由此表明通过指标预测的预测精度相对较高,更加适合用于分拣中心货量的预测。

4. 结论

本文融合LSTM时间序列预测与RBF回归预测,构建了LSTM-RBF预测模型,并将其应用于分拣中心货量预测。阐述了LSTM-RBF两阶段模型的架构,以湘西自治州6个分拣中心2012年至2023年的货量数据为基础,利用该模型对未来5年湘西自治州6个分拣中心的货量进行预测。最后对该模型货量预测的两种方式进行精度对比分析,得出以下结论:

(1) 分析表明,LSTM-RBF预测模型通过6项指标进行预测的精度高于直接预测,对样本外的数据也有良好的预测效果,适用性更高。

(2) 该预测模型可用于各分拣中心或城市货量预测。根据预测结果,各地政府能更合理地进行物流工程项目投资和效益评估,同时为物流行业发展做出合理决策,安排生产计划,避免资源浪费。这有助于实现资源优化配置,提高分拣中心运营效率,推动物流行业发展。

基金项目

2024年度国家级大学生创新创业训练计划项目(S202410531020)。

NOTES

*通讯作者。

参考文献

[1] 胡佳迎. 关于快递行业中货量预测方法的介绍[J]. 电脑知识与技术, 2018, 14(8): 152-153.
[2] 刘慧智. 神华大保当物流园区货类分析及货量预测[J]. 神华科技, 2012, 10(3): 7-9.
[3] 常志宏, 崔建, 康传刚, 等. 公路货运量影响因素分析及趋势预测模型研究[J]. 中国交通信息化, 2024(S1): 448-452.
[4] 燕学博, 曹世鑫. 基于CNN-LSTM-Attention组合模型对我国货运量时序预测对比[J]. 物流科技, 2024, 47(14): 5-9.
[5] 徐曼, 陆芬. 基于组合预测模型的陕西省物流需求预测[J]. 物流科技, 2023, 46(11): 27-31.
[6] 龙宇, 许浩然, 余华云, 等. 基于ARIMA-LSTM-XGBoost组合模型的铁路货运量预测[J]. 科学技术与工程, 2023, 23(25): 10879-10886.
[7] 王鑫鑫, 沈晓攀, 王琪, 等. 基于LSTM-RBF的水路货运量预测[J]. 科学技术与工程, 2023, 23(18): 7995-8001.