基于可加模型的贵州省电子商务销售额预测研究
Research on Forecasting Electronic Commerce Sales in Guizhou Province Based on the Additive Model
摘要: 准确预测电子商务销售额对电子商务业高质量发展具有重大意义。本文以贵州省为例,基于收集到的5个预测指标,建立可加模型对贵州省电子商务销售额未来三年进行预测。首先使用变分自编码器(VAE)方法对2003~2012年电子商务销售额缺失值进行估计补充,然后使用互信息评估5个预测指标被选择的合理性,同时使用基于B样条的核密度回归估计方法对可加模型进行估计。最后使用GM (1, 1)模型预测未来三年5个预测指标值,然后带入到已建立的可加模型中,从而得到电子商务销售额未来三年的预测值。
Abstract: Accurate prediction of e-commerce sales is of significant importance for the high-quality development of the e-commerce industry. Taking Guizhou Province as an example, this paper establishes an additive model to forecast the e-commerce sales in Guizhou Province for the next three years based on five collected predictive indicators. Firstly, the Variational Autoencoder (VAE) method is used to estimate and supplement the missing values of e-commerce sales from 2003 to 2012. Then, the mutual information is utilized to assess the rationality of the five predictive indicators selected, while the B-spline-based kernel density regression estimation method is employed to estimate the additive model. Finally, the GM (1, 1) model is used to predict the values of the five predictive indicators for the next three years, which are then incorporated into the established additive model to obtain the forecasted e-commerce sales for the next three years.
文章引用:李发成. 基于可加模型的贵州省电子商务销售额预测研究[J]. 电子商务评论, 2024, 13(3): 6598-6606. https://doi.org/10.12677/ecl.2024.133816

1. 引言

随着信息技术的迅猛发展和互联网的普及,电子商务在全球范围内得到了广泛应用和快速发展。电子商务作为一种新型商业模式,通过在线平台实现商品和服务的交易,极大地改变了传统商业模式,为消费者和企业带来了前所未有的便利和机遇。然而,电子商务市场的竞争也日益激烈,企业需要更加精准地把握市场趋势,制定有效的销售策略,以提高销售额和市场份额。

销售额作为电子商务企业最为关心的经济指标之一,反映了企业的经营状况和市场竞争力。杨坚争等[1]在关于电子商务发展状况和体系完善水平的关键统计指标选取中认为电子商务销售额可以作为关键衡量指标之一。准确预测电子商务销售额,不仅有助于企业制定销售计划和预算,还能为企业决策提供理论支持,优化资源配置,降低经营风险。因此,研究电子商务销售额的预测方法,具有重要的理论价值和实际意义。

当前,关于电子商务销售额预测的研究已经取得了一定的成果。然而,由于电子商务市场的复杂性和多变性,销售额受到多种因素的影响,如市场需求、竞争态势、价格策略、促销活动等。这些因素之间相互作用,使得销售额的预测变得复杂而困难。因此,如何综合考虑多种因素,建立有效的预测模型,提高预测的准确性和可靠性,是当前电子商务销售额预测研究面临的重要挑战。

定性分析方法和定量分析方法是对电子商务销售额进行预测的两种方法。定性分析法是一种主观的分析方法,它主要依据预测者的主观判断和分析能力来推断事物的性质和发展趋势。比起定性分析,定量分析法更客观,更有理论支撑。目前关于电子商务销售额预测的相关研究较少。严心茹等[2]利用灰色关联度分析方法发现电子商务与地区GDP、城镇人均可支配收入和第三产业增加值的相关系数均大于0.7。

本文研究旨在通过深入分析电子商务市场的特点和规律,结合现有的预测方法和技术,探索适用于电子商务销售额预测的新方法和模型。具体而言,本研究将重点关注以下几个方面:一是分析电子商务销售额的影响因素及其作用机制;二是比较和选择适合的预测方法和技术;三是构建基于多因素综合分析的电子商务销售额预测模型;四是验证模型的预测效果和实用性。

通过本文研究,我们期望能够为电子商务企业提供一种更加准确、可靠的销售额预测方法,帮助企业更好地把握市场机遇,制定有效的销售策略,提高市场竞争力。同时,本研究也将为电子商务销售额预测研究提供新的思路和方法,推动该领域的研究向更高水平发展。

2. 研究方法——可加模型

可加模型是非参数回归模型中的一种,该模型可以有效解决非参数回归模型存在的“维数灾难”缺陷。Friedman和Stuetzle [3]最先提出可加模型,后来Hastie和Tibshirani [4]对可加模型的理论和方法做了详细的概述。可加模型的结构如下:

E[ Y|X=( x 1 ,, x d ) ]= m 1 ( x 1 )++ m d ( x d )

其中Y是响应变量,X是协变量, m j ( ),j=1,,d 是未知的光滑函数。

在实际生活中可加模型有着广泛的应用。陈正宇等[5]把可加模型应用到人口年龄结果数据上,并使用了可加模型的变量选择方法。凌兰兰[6]基于可加模型对社会消费品零售总额影响因素进行研究。刘恩猛等[7]基于可加模型对中国股市影响因素进行分析。张茂军等[8]基于可加模型对中国上市公司ST进行预测。

3. 数据来源与处理

3.1. 指标体系构建

在统计指标选择中,我们选择了GDP、常住人口数、城镇人均可支配收入、工业企业资产总计、地方财政收入5个指标,见表1。其中城镇人均可支配收入可以用反应贵州当地人民的生活水平,其他四个指标可以反应贵州当地经济发展水平。

Table 1. Indicator presentation

1. 指标展示

符号

指标

单位

Y

电子商务销售额

亿元

X1

GDP

亿元

X2

常住人口数

万人

X3

城镇人均可支配收入

X4

工业企业资产总计

X5

地方财政收入

亿元

3.2. 数据来源

数据来源于2003~2022年《贵州统计年鉴》,由于电子商务在2013年得到了里程碑式的发展,所以电子商务销售额数据的统计数据从2013年开始,而之前的数据没有记录,相当于之前的数据缺失。本文采用深度学习里面的变分自编码器(VAE)方法来补全电子商务销售额缺失数据。2003~2022年相关指标数据展示见表2所示。

利用变分自编码器(VAE)得到2003-2012年电子商务销售额缺失值见表3

2003~2022年电子商务销售额的时序图见图1

3.3. 互信息分析

互信息(Mutual Information)是一种非参数的统计量,用于衡量两个变量之间的共享信息量,可以用来

Table 2. Data for the relevant indicators from 2003 to 2022

2. 2003~2022年相关指标数据

序号

年份

Y

X1

X2

X3

X4

X5

1

2003

-

1428.97

3869.66

6568.91

1958.60

124.5552

2

2004

-

1649.4

3903.7

7322.05

2441.52

149.2855

3

2005

-

1939.94

3730

8147.13

2734.05

182.4963

4

2006

-

2264.09

3690

9116.61

3214.39

226.8157

5

2007

-

2847.46

3631.98

10,678.4

3521.19

285.1375

6

2008

-

3504.48

3595.98

11,758.76

4566.10

347.84

7

2009

-

3856.66

3537

12,862.53

5066.17

416.4761

8

2010

-

4518.95

3478.9408

14,142.74

5960.13

533.7309

9

2011

-

5615.55

3530

16,495.01

6990.58

773.08

10

2012

-

6742.24

3587

18,700.51

8302.29

1014.0547

11

2013

667.5

7973.06

3632

20,565

10,339.98

1206.4146

12

2014

860.5

9173.13

3677

22,548.2078

11,747.39

1366.6731

13

2015

1018.8

10541

3708

24,579.6354

13,540.06

1503.38

14

2016

1518.7

11,792.35

3758

26,742.6115

14,319.98

1561.34

15

2017

1434.3

13,605.42

3803

29,079.8438

15,228.11

1613.8377

16

2018

1612.1

15,353.21

3822

31,591.9301

15,068.00

1726.8516

17

2019

1415.4

16,769.34

3848

34,404.1655

16,346.93

1767.4692

18

2020

1628.1

17,860.41

3857.8606

36,096.1947

17,244.62

1786.8035

19

2021

1746.5954

19,458.6

3852

39,211.2

17,864.25

1969.3946

20

2022

3520.4584

20,010.4

3856

41,085.7134

19,977.77

1886.4121

-代表数据缺失。

Table 3. Missing values of e-commerce sales from 2003 to 2012

3. 2003~2012年电子商务销售额缺失值

年份

2003

2004

2005

2006

2007

Y

667.5

860.5

1018.8

1415.4

1434.3

年份

2008

2009

2010

2011

2012

Y

1518.7

1612.1

1628.1

1746.5954

3520.4584

评估它们之间的依赖性,无论这种依赖性是否线性。本文利用互信息来评估所选预测指标变量的合理性,计算得电子商务销售额与另外五个预测指标变量的互信息值见表4。从表4可以看出所选的五个预测指标与电子商务销售额有较强的相关性,用该五个预测指标来预测电子商务销售额是合理的。

3.4. 建立可加模型

不妨设

Figure 1. The time series chart of e-commerce sales from 2003 to 2022

1. 2003~2022年电子商务销售额的时序图

Table 4. The mutual information between e-commerce sales and five other predictor variables

4. 电子商务销售额与另外五个预测变量的互信息值

预测变量

X1

X2

X3

X4

X5

互信息值

2.7383

2.9951

2.8582

2.8045

2.7508

Y= j=1 5 g j ( X j ).

本文考虑使用中心化B样条去逼近 g j ( ),j=1,2,,5 ,因此需要对电子商务销售额Y做中心化处理,计算公式为:

Y i * = Y i Y ¯

其中, Y i * 为第i年中心化后的电子商务销售额, Y i 为第i年电子商务销售额真实值, Y ¯ = 1 20 i=1 20 Y i 为电子商务销售额平均值。

处理后,2003~2022年中心化的电子商务销售额数据见表5

基于中心化的Y和中心化B样条展开,有

Y i * B i T β

其中, B i 为第i年预测变量的中心B样条展开, β 为待估未知参数。本文使用核密度回归思想,极大化

Table 5. The centralized e-commerce sales from 2003 to 2022

5. 2003~2022年中心化的电子商务销售额

年份

2003

2004

2005

2006

2007

Y

−792.2231

−758.5683

−734.2178

−584.7506

−557.8199

年份

2008

2009

2010

2011

2012

Y

−542.8788

−534.8706

−521.5809

−435.6628

−378.3897

年份

2013

2014

2015

2016

2017

Y

−290.6491

−97.6491

60.6509

560.5509

476.1509

年份

2018

2019

2020

2021

2022

Y

653.9509

457.2509

669.9509

788.4462

2562.3092

下列目标函数:

l nh ( β )= j=1 n log ( 1 nh i=1 n K ( ( Y j * B j T β )( Y i * B i T β ) h ) ) = j=1 n log ( 1 nh i=1 n K ( ( Y j * Y i * ) ( B j B i ) T β h ) ).

得到未知参数 β 的估计,其中,h为窗宽, K( ) 为核函数。

本文中核函数 K( ) 选取为高斯核函数,窗宽h的选择,根据plug-in算法,在非参数逼近过程中使用的是三次B样条,即 r=3 ,并且选取节点个数 K n =3 。通过R软件计算得到未知参数 β 的估计为 β = (4977.39339, 1801.94825, 780.79127, −615.24280, 1174.49554, 527.92317, 1085.81320, 4901.41476, 1394.07662, 2148.75119, −9829.38363, 22.80457, −3969.71340, −10.33316, 882.34189)。

4. 电子商务销售额预测

4.1. BK与BL两种估计方法比较

记3节中基于B样条的核密度回归估计方法为BK,基于B样条的均值回归估计方法为BL。使用BL估计方法可以得到未知参数 β 的另外一个估计为 β BL = (5149.7044, 1607.6449, 586.3123, −721.0753, 978.6526, 333.1993, 890.4823, 5020.1661, 1198.8836, 1954.5174, −10023.3522, 41.4261, −4165.1129, −204.2621, 1818.9753),将两种方法的预测结果进行对比,见图2

根据表6,在2018~2022年电子商务销售额预测中,可以看出BK估计方法的相对误差均小于BL估计方法的,而且看出在近几年的电子商务销售额预测值中,基于BK估计方法可加模型的对电子商务销售额预测值的相对误差较小。

4.2. 未来三年电子商务销售额预测

利用本文提出的可加模型预测2023~2025年的电子商务销售额,需要已知指标 X i ,i=1,2,3,4,5 ,2023~2025年的数值。灰色预测方法在时间序列预测中有着广泛应用,相比别的时间序列预测方法,灰色模型具有下列优点,特别当样本量较少时,灰色模型具有高精度和运算简单的优点[9]。因为本文收集的样本量只有20,相对较少,因此本文采用最经典的灰色预测模型GM (1, 1)模型来预测2023~2025年所需指标的预测值。首先对五个预测指标的数据序列做级比值检验,平移转换后发现所有序列的级别值都落入区间(0.9092, 1.0999)内,说明五个序列数据都适合建立灰色预测模型。使用GM (1, 1)模型预测2023~2025年 X i ,i=1,2,3,4,5 的指标值见表7。通过对建立的灰色预测做后差比检验发现,5个指标的后差比检验值都小于0.35,说明模型预测精度较高。

Figure 2. A comparison chart of the prediction results between methods BK and BL

2. BK和BL两种估计方法的预测结果对比图

Table 6. A comparison of the prediction results between methods BK and BL

6. BK和BL两种估计方法预测结果对比

年份

真实值

亿元

BK

BL

拟合值

相对误差

拟合值

相对误差

2018

1612.1

1531.295629

5.01%

1371.995355

14.89%

2019

1415.4

1499.192959

5.92%

1309.497915

7.48%

2020

1628.1

1590.328324

2.32%

1387.994925

14.75%

2021

1746.59537

1759.908337

0.76%

1304.164269

25.33%

2022

3520.45837

3509.958029

0.30%

3181.212045

9.64%

Table 7. Forecasted values for the indicators from 2023 to 2025

7. 2023~2025年指标预测值

指标

2023年

2024年

2025年

X1

20,021.2981

21,356.69

22,498.56

X2

3853.9081

3857.0876

3857.9856

X3

43,390.3324

43,673.32

44,987.5

X4

21,789.65

23,908.67

25,768.77

X5

1924.9821

2287.987

2475.789

因为2023年,贵州省GDP、常住人口数、城镇人均可支配收入和地方财政收入已公布,因此可使用上述4个预测指标的预测值和真实值对GM (1, 1)模型的预测效果再做一次评估见表8,可发现再一次验证了灰色预测模型的预测精度。

Table 8. Comparison of the real and forecast values of the four indicators in 2023

8. 2023年四个指标真实值与预测值对比


真实值

预测值

相对误差

X1

20913.25

20021.2981

4.27%

X2

3856.0001

3853.9081

0.05%

X3

42,772.3526

43,390.3324

1.44%

X5

2000

1924.9821

3.75%

将预测得到的指标值带入到训练好可加模型中,可以得到2023~2025年电子商务销售额预测值见表9

Table 9. The forecasted e-commerce sales values for Guizhou Province from 2023 to 2035

9. 2023~2035年贵州省电子商务销售额预测值

电子商务销售额预测值

2023年

2024年

2025年

Y

5032.6752

6276.598

7421.1287

5. 结论

本文选取了五个指标用于预测贵州省电子商务销售额,其中通过互信息方法证明了所选指标的合理性和可解释性。根据收集到的指标数据建立可加模型对电子商务销售额进行预测,并采用B样条逼近可加模型中非参数函数,使用核密度回归估计方法去估计未知参数。最后,使用GM (1, 1)模型预测未来三年5个指标的值,带入到建立好的可加模型中,得到贵州省电子商务销售额未来三年的值。结果表明,未来三年电子商务销售额呈现持续增长的趋势。

参考文献

[1] 杨坚争, 徐进, 杨立钒. 电子商务关键性统计指标筛选研究[J]. 郑州大学学报(哲学社会科学版), 2009, 42(2): 74-76.
[2] 严心茹, 李怀建. 江苏省电子商务与区域经济发展的灰色关联度研究[J]. 对外经贸, 2023(5): 27-30.
[3] Friedman, J.H. and Stuetzle, W. (1981) Projection Pursuit Regression. Journal of the American Statistical Association, 76, 817-823.
https://doi.org/10.1080/01621459.1981.10477729
[4] Hastie, T.J. (2017) Generalized Additive Models. In: Hastie, T.J., Ed., Statistical Models in S, Routledge, 249-307.
https://doi.org/10.1201/9780203738535-7
[5] 陈正宇, 王心怡, 冯峥晖. 函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用[J]. 应用概率统计, 2024, 40(1): 75-97.
[6] 凌兰兰. 基于半参数广义可加模型的社会消费品零售总额影响因素研究[J]. 科技和产业, 2023, 23(16): 240-244.
[7] 刘恩猛, 王宣承, 方鹏飞. 基于半参数广义可加模型的中国股市影响因素分析[J]. 统计与决策, 2014, 30(17): 119-122.
[8] 张茂军, 刘庆华, 朱宁. 基于Aalen可加模型的中国上市公司ST预测[J]. 系统管理学报, 2019, 28(1): 98-107.
[9] 于颖, 王婷. 基于PSO-BP的贵州省物流需求预测研究[J]. 电子商务评论, 2024, 13(1): 266-275.