1. 引言
随着信息技术的迅猛发展和互联网的普及,电子商务在全球范围内得到了广泛应用和快速发展。电子商务作为一种新型商业模式,通过在线平台实现商品和服务的交易,极大地改变了传统商业模式,为消费者和企业带来了前所未有的便利和机遇。然而,电子商务市场的竞争也日益激烈,企业需要更加精准地把握市场趋势,制定有效的销售策略,以提高销售额和市场份额。
销售额作为电子商务企业最为关心的经济指标之一,反映了企业的经营状况和市场竞争力。杨坚争等[1]在关于电子商务发展状况和体系完善水平的关键统计指标选取中认为电子商务销售额可以作为关键衡量指标之一。准确预测电子商务销售额,不仅有助于企业制定销售计划和预算,还能为企业决策提供理论支持,优化资源配置,降低经营风险。因此,研究电子商务销售额的预测方法,具有重要的理论价值和实际意义。
当前,关于电子商务销售额预测的研究已经取得了一定的成果。然而,由于电子商务市场的复杂性和多变性,销售额受到多种因素的影响,如市场需求、竞争态势、价格策略、促销活动等。这些因素之间相互作用,使得销售额的预测变得复杂而困难。因此,如何综合考虑多种因素,建立有效的预测模型,提高预测的准确性和可靠性,是当前电子商务销售额预测研究面临的重要挑战。
定性分析方法和定量分析方法是对电子商务销售额进行预测的两种方法。定性分析法是一种主观的分析方法,它主要依据预测者的主观判断和分析能力来推断事物的性质和发展趋势。比起定性分析,定量分析法更客观,更有理论支撑。目前关于电子商务销售额预测的相关研究较少。严心茹等[2]利用灰色关联度分析方法发现电子商务与地区GDP、城镇人均可支配收入和第三产业增加值的相关系数均大于0.7。
本文研究旨在通过深入分析电子商务市场的特点和规律,结合现有的预测方法和技术,探索适用于电子商务销售额预测的新方法和模型。具体而言,本研究将重点关注以下几个方面:一是分析电子商务销售额的影响因素及其作用机制;二是比较和选择适合的预测方法和技术;三是构建基于多因素综合分析的电子商务销售额预测模型;四是验证模型的预测效果和实用性。
通过本文研究,我们期望能够为电子商务企业提供一种更加准确、可靠的销售额预测方法,帮助企业更好地把握市场机遇,制定有效的销售策略,提高市场竞争力。同时,本研究也将为电子商务销售额预测研究提供新的思路和方法,推动该领域的研究向更高水平发展。
2. 研究方法——可加模型
可加模型是非参数回归模型中的一种,该模型可以有效解决非参数回归模型存在的“维数灾难”缺陷。Friedman和Stuetzle [3]最先提出可加模型,后来Hastie和Tibshirani [4]对可加模型的理论和方法做了详细的概述。可加模型的结构如下:
其中Y是响应变量,X是协变量,
是未知的光滑函数。
在实际生活中可加模型有着广泛的应用。陈正宇等[5]把可加模型应用到人口年龄结果数据上,并使用了可加模型的变量选择方法。凌兰兰[6]基于可加模型对社会消费品零售总额影响因素进行研究。刘恩猛等[7]基于可加模型对中国股市影响因素进行分析。张茂军等[8]基于可加模型对中国上市公司ST进行预测。
3. 数据来源与处理
3.1. 指标体系构建
在统计指标选择中,我们选择了GDP、常住人口数、城镇人均可支配收入、工业企业资产总计、地方财政收入5个指标,见表1。其中城镇人均可支配收入可以用反应贵州当地人民的生活水平,其他四个指标可以反应贵州当地经济发展水平。
Table 1. Indicator presentation
表1. 指标展示
符号 |
指标 |
单位 |
Y |
电子商务销售额 |
亿元 |
X1 |
GDP |
亿元 |
X2 |
常住人口数 |
万人 |
X3 |
城镇人均可支配收入 |
元 |
X4 |
工业企业资产总计 |
元 |
X5 |
地方财政收入 |
亿元 |
3.2. 数据来源
数据来源于2003~2022年《贵州统计年鉴》,由于电子商务在2013年得到了里程碑式的发展,所以电子商务销售额数据的统计数据从2013年开始,而之前的数据没有记录,相当于之前的数据缺失。本文采用深度学习里面的变分自编码器(VAE)方法来补全电子商务销售额缺失数据。2003~2022年相关指标数据展示见表2所示。
利用变分自编码器(VAE)得到2003-2012年电子商务销售额缺失值见表3。
2003~2022年电子商务销售额的时序图见图1。
3.3. 互信息分析
互信息(Mutual Information)是一种非参数的统计量,用于衡量两个变量之间的共享信息量,可以用来
Table 2. Data for the relevant indicators from 2003 to 2022
表2. 2003~2022年相关指标数据
序号 |
年份 |
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
1 |
2003 |
- |
1428.97 |
3869.66 |
6568.91 |
1958.60 |
124.5552 |
2 |
2004 |
- |
1649.4 |
3903.7 |
7322.05 |
2441.52 |
149.2855 |
3 |
2005 |
- |
1939.94 |
3730 |
8147.13 |
2734.05 |
182.4963 |
4 |
2006 |
- |
2264.09 |
3690 |
9116.61 |
3214.39 |
226.8157 |
5 |
2007 |
- |
2847.46 |
3631.98 |
10,678.4 |
3521.19 |
285.1375 |
6 |
2008 |
- |
3504.48 |
3595.98 |
11,758.76 |
4566.10 |
347.84 |
7 |
2009 |
- |
3856.66 |
3537 |
12,862.53 |
5066.17 |
416.4761 |
8 |
2010 |
- |
4518.95 |
3478.9408 |
14,142.74 |
5960.13 |
533.7309 |
9 |
2011 |
- |
5615.55 |
3530 |
16,495.01 |
6990.58 |
773.08 |
10 |
2012 |
- |
6742.24 |
3587 |
18,700.51 |
8302.29 |
1014.0547 |
11 |
2013 |
667.5 |
7973.06 |
3632 |
20,565 |
10,339.98 |
1206.4146 |
12 |
2014 |
860.5 |
9173.13 |
3677 |
22,548.2078 |
11,747.39 |
1366.6731 |
13 |
2015 |
1018.8 |
10541 |
3708 |
24,579.6354 |
13,540.06 |
1503.38 |
14 |
2016 |
1518.7 |
11,792.35 |
3758 |
26,742.6115 |
14,319.98 |
1561.34 |
15 |
2017 |
1434.3 |
13,605.42 |
3803 |
29,079.8438 |
15,228.11 |
1613.8377 |
16 |
2018 |
1612.1 |
15,353.21 |
3822 |
31,591.9301 |
15,068.00 |
1726.8516 |
17 |
2019 |
1415.4 |
16,769.34 |
3848 |
34,404.1655 |
16,346.93 |
1767.4692 |
18 |
2020 |
1628.1 |
17,860.41 |
3857.8606 |
36,096.1947 |
17,244.62 |
1786.8035 |
19 |
2021 |
1746.5954 |
19,458.6 |
3852 |
39,211.2 |
17,864.25 |
1969.3946 |
20 |
2022 |
3520.4584 |
20,010.4 |
3856 |
41,085.7134 |
19,977.77 |
1886.4121 |
-代表数据缺失。
Table 3. Missing values of e-commerce sales from 2003 to 2012
表3. 2003~2012年电子商务销售额缺失值
年份 |
2003 |
2004 |
2005 |
2006 |
2007 |
Y |
667.5 |
860.5 |
1018.8 |
1415.4 |
1434.3 |
年份 |
2008 |
2009 |
2010 |
2011 |
2012 |
Y |
1518.7 |
1612.1 |
1628.1 |
1746.5954 |
3520.4584 |
评估它们之间的依赖性,无论这种依赖性是否线性。本文利用互信息来评估所选预测指标变量的合理性,计算得电子商务销售额与另外五个预测指标变量的互信息值见表4。从表4可以看出所选的五个预测指标与电子商务销售额有较强的相关性,用该五个预测指标来预测电子商务销售额是合理的。
3.4. 建立可加模型
不妨设
Figure 1. The time series chart of e-commerce sales from 2003 to 2022
图1. 2003~2022年电子商务销售额的时序图
Table 4. The mutual information between e-commerce sales and five other predictor variables
表4. 电子商务销售额与另外五个预测变量的互信息值
预测变量 |
X1 |
X2 |
X3 |
X4 |
X5 |
互信息值 |
2.7383 |
2.9951 |
2.8582 |
2.8045 |
2.7508 |
本文考虑使用中心化B样条去逼近
,因此需要对电子商务销售额Y做中心化处理,计算公式为:
其中,
为第i年中心化后的电子商务销售额,
为第i年电子商务销售额真实值,
为电子商务销售额平均值。
处理后,2003~2022年中心化的电子商务销售额数据见表5。
基于中心化的Y和中心化B样条展开,有
其中,
为第i年预测变量的中心B样条展开,
为待估未知参数。本文使用核密度回归思想,极大化
Table 5. The centralized e-commerce sales from 2003 to 2022
表5. 2003~2022年中心化的电子商务销售额
年份 |
2003 |
2004 |
2005 |
2006 |
2007 |
Y |
−792.2231 |
−758.5683 |
−734.2178 |
−584.7506 |
−557.8199 |
年份 |
2008 |
2009 |
2010 |
2011 |
2012 |
Y |
−542.8788 |
−534.8706 |
−521.5809 |
−435.6628 |
−378.3897 |
年份 |
2013 |
2014 |
2015 |
2016 |
2017 |
Y |
−290.6491 |
−97.6491 |
60.6509 |
560.5509 |
476.1509 |
年份 |
2018 |
2019 |
2020 |
2021 |
2022 |
Y |
653.9509 |
457.2509 |
669.9509 |
788.4462 |
2562.3092 |
下列目标函数:
得到未知参数
的估计,其中,h为窗宽,
为核函数。
本文中核函数
选取为高斯核函数,窗宽h的选择,根据plug-in算法,在非参数逼近过程中使用的是三次B样条,即
,并且选取节点个数
。通过R软件计算得到未知参数
的估计为
= (4977.39339, 1801.94825, 780.79127, −615.24280, 1174.49554, 527.92317, 1085.81320, 4901.41476, 1394.07662, 2148.75119, −9829.38363, 22.80457, −3969.71340, −10.33316, 882.34189)。
4. 电子商务销售额预测
4.1. BK与BL两种估计方法比较
记3节中基于B样条的核密度回归估计方法为BK,基于B样条的均值回归估计方法为BL。使用BL估计方法可以得到未知参数
的另外一个估计为
= (5149.7044, 1607.6449, 586.3123, −721.0753, 978.6526, 333.1993, 890.4823, 5020.1661, 1198.8836, 1954.5174, −10023.3522, 41.4261, −4165.1129, −204.2621, 1818.9753),将两种方法的预测结果进行对比,见图2。
根据表6,在2018~2022年电子商务销售额预测中,可以看出BK估计方法的相对误差均小于BL估计方法的,而且看出在近几年的电子商务销售额预测值中,基于BK估计方法可加模型的对电子商务销售额预测值的相对误差较小。
4.2. 未来三年电子商务销售额预测
利用本文提出的可加模型预测2023~2025年的电子商务销售额,需要已知指标
,2023~2025年的数值。灰色预测方法在时间序列预测中有着广泛应用,相比别的时间序列预测方法,灰色模型具有下列优点,特别当样本量较少时,灰色模型具有高精度和运算简单的优点[9]。因为本文收集的样本量只有20,相对较少,因此本文采用最经典的灰色预测模型GM (1, 1)模型来预测2023~2025年所需指标的预测值。首先对五个预测指标的数据序列做级比值检验,平移转换后发现所有序列的级别值都落入区间(0.9092, 1.0999)内,说明五个序列数据都适合建立灰色预测模型。使用GM (1, 1)模型预测2023~2025年
的指标值见表7。通过对建立的灰色预测做后差比检验发现,5个指标的后差比检验值都小于0.35,说明模型预测精度较高。
Figure 2. A comparison chart of the prediction results between methods BK and BL
图2. BK和BL两种估计方法的预测结果对比图
Table 6. A comparison of the prediction results between methods BK and BL
表6. BK和BL两种估计方法预测结果对比
年份 |
真实值 亿元 |
BK |
BL |
拟合值 |
相对误差 |
拟合值 |
相对误差 |
2018 |
1612.1 |
1531.295629 |
5.01% |
1371.995355 |
14.89% |
2019 |
1415.4 |
1499.192959 |
5.92% |
1309.497915 |
7.48% |
2020 |
1628.1 |
1590.328324 |
2.32% |
1387.994925 |
14.75% |
2021 |
1746.59537 |
1759.908337 |
0.76% |
1304.164269 |
25.33% |
2022 |
3520.45837 |
3509.958029 |
0.30% |
3181.212045 |
9.64% |
Table 7. Forecasted values for the indicators from 2023 to 2025
表7. 2023~2025年指标预测值
指标 |
2023年 |
2024年 |
2025年 |
X1 |
20,021.2981 |
21,356.69 |
22,498.56 |
X2 |
3853.9081 |
3857.0876 |
3857.9856 |
X3 |
43,390.3324 |
43,673.32 |
44,987.5 |
X4 |
21,789.65 |
23,908.67 |
25,768.77 |
X5 |
1924.9821 |
2287.987 |
2475.789 |
因为2023年,贵州省GDP、常住人口数、城镇人均可支配收入和地方财政收入已公布,因此可使用上述4个预测指标的预测值和真实值对GM (1, 1)模型的预测效果再做一次评估见表8,可发现再一次验证了灰色预测模型的预测精度。
Table 8. Comparison of the real and forecast values of the four indicators in 2023
表8. 2023年四个指标真实值与预测值对比
|
真实值 |
预测值 |
相对误差 |
X1 |
20913.25 |
20021.2981 |
4.27% |
X2 |
3856.0001 |
3853.9081 |
0.05% |
X3 |
42,772.3526 |
43,390.3324 |
1.44% |
X5 |
2000 |
1924.9821 |
3.75% |
将预测得到的指标值带入到训练好可加模型中,可以得到2023~2025年电子商务销售额预测值见表9。
Table 9. The forecasted e-commerce sales values for Guizhou Province from 2023 to 2035
表9. 2023~2035年贵州省电子商务销售额预测值
电子商务销售额预测值 |
2023年 |
2024年 |
2025年 |
Y |
5032.6752 |
6276.598 |
7421.1287 |
5. 结论
本文选取了五个指标用于预测贵州省电子商务销售额,其中通过互信息方法证明了所选指标的合理性和可解释性。根据收集到的指标数据建立可加模型对电子商务销售额进行预测,并采用B样条逼近可加模型中非参数函数,使用核密度回归估计方法去估计未知参数。最后,使用GM (1, 1)模型预测未来三年5个指标的值,带入到建立好的可加模型中,得到贵州省电子商务销售额未来三年的值。结果表明,未来三年电子商务销售额呈现持续增长的趋势。