随机森林模型下的数字经济指数预测与八大经济区差异研究
A Study on the Forecasting of the Digital Economy Index and the Differences among Eight Economic Zones under the Random Forest Model
摘要: 随着数字化转型的加速,数字经济已成为推动中国经济高质量发展的重要引擎。然而,不同区域之间数字经济的发展水平存在显著差异,对区域间差距及其演变规律的研究具有重要意义。本研究基于2000年至2022年中国八大经济区的数字经济指数数据,利用随机森林模型对全国数字经济指数进行动态预测,并分析区域间的数字经济差异及其成因。研究结果表明,未来五年(2025~2029年)全国数字经济指数将保持稳步增长。区域分析显示,东部沿海经济区的数字经济指数始终领先,大西北和黄河中游经济区则相对较低但增长势头良好。基于研究结果,本研究提出了加强中西部地区政策支持、优化数字基础设施建设、推动区域协同发展以及激发内生动力等政策建议,以促进区域间数字经济的均衡发展。本研究为理解中国数字经济发展的总体趋势与区域特征提供了重要参考,也为优化数字经济政策制定和实现高质量发展提供了科学依据。
Abstract: With the acceleration of digital transformation, the digital economy has become an important engine to promote the high-quality development of China’s economy. However, there are significant differences in the development level of digital economy among different regions, and it is of great significance to study the inter-regional gap and its evolution pattern. Based on the digital economy index data of China’s eight economic regions from 2000 to 2022, this study uses the Random Forest Model to dynamically forecast the national digital economy index and analyze the inter-regional digital economy differences and their causes. The results show that the national digital economy index will maintain a steady growth in the next five years (2025~2029). Regional analyses show that the Eastern Coastal Economic Zone consistently leads the Digital Economy Index, while the Great Northwest and Middle Yellow River Economic Zones have relatively low but good growth momentum. Based on the findings, this study proposes policy recommendations such as strengthening policy support in the central and western regions, optimizing digital infrastructure construction, promoting regional synergistic development, and stimulating endogenous dynamics, in order to promote balanced development of the digital economy among regions. This study provides an important reference for understanding the general trend and regional characteristics of China’s digital economy development, as well as a scientific basis for optimizing digital economy policymaking and achieving high-quality development.
文章引用:赵子璇. 随机森林模型下的数字经济指数预测与八大经济区差异研究[J]. 理论数学, 2025, 15(1): 120-129. https://doi.org/10.12677/pm.2025.151015

1. 引言

随着信息技术的迅猛发展,数字经济已逐渐成为全球经济增长的引擎之一。在中国,数字经济的快速发展不仅推动了传统产业的数字化转型,也为经济结构的优化和社会发展注入了新的活力。根据《“十四五”数字经济发展规划》,到2025年,数字经济的增加值占GDP比重将从2020年的7.8%提升至10%以上,充分体现了数字经济在国家战略布局中的重要地位。

数字经济是推动经济高质量发展的新引擎。通过促进传统产业数字化转型,数字经济能够显著提升全要素生产率,为经济发展注入新动能。数字经济还为区域经济协调发展提供了重要抓手。通过技术扩散和产业数字化,数字经济能够缩小区域发展差距,推动中西部地区加速追赶,实现区域间的均衡发展。此外,在全球化背景下,数字经济的发展程度直接决定了一个国家在全球产业链、创新链中的位置,推动数字技术创新和国际化应用已成为中国提升国际竞争力的重要路径。

数字经济指数作为衡量数字经济发展水平的核心指标,在揭示区域差异和预测未来趋势方面具有重要作用。近年来,国内外学者围绕数字经济的测度方法、区域差异及其对经济高质量发展的影响开展了广泛研究。例如,国内研究多集中于数字经济与产业结构优化[1]、绿色转型[2]等方面的关系分析,重点探讨数字经济对区域协调发展的推动作用;国际研究则更多关注数字经济与创新能力提升[3]、国际竞争力增强[4]之间的内在机制。然而,由于数字经济的多维特性及其复杂的动态演变规律,如何精确预测数字经济指数并揭示区域间差异的深层次成因,仍是当前研究的难点和热点。

近年来,随着机器学习方法的快速发展,特别是集成学习方法的应用,预测模型的准确性和实用性得到了显著提升。随机森林作为一种成熟的集成学习算法,以其强大的数据处理能力、较好的泛化能力和抗噪声能力,已被广泛应用于金融、医疗、气候变化等领域的预测研究中。在数字经济指数的预测中,随机森林不仅能够有效处理高维度的数据,还能够揭示各个因素之间的非线性关系。因此,随机森林模型被认为是一种适合用于数字经济指数预测的有效工具。

中国地理区域之间在数字经济发展水平上的差异也为研究提供了丰富的背景。在不同经济区,数字经济的基础设施、技术发展水平、产业结构等因素存在显著差异,这导致各经济区在数字经济发展中的表现差异化。本研究以随机森林模型为核心,对数字经济指数的动态演化规律进行预测,为数字经济发展领域的量化研究提供了新的方法路径。同时,结合八大经济区的区域差异分析,进一步丰富了数字经济区域特征的研究内容,填补了相关领域定量研究的不足。从实践意义来看,研究揭示了中国数字经济发展的区域特征及其成因,为优化区域政策、缩小发展差距提供了实证依据。研究结果可为国家在数字基础设施建设、区域协同发展及技术资源分配等方面提供科学决策支持,助力中国数字经济的高质量发展和全球竞争力的提升。

2. 研究方法

2.1. 数据来源

2.1.1. 数据描述

本研究所使用的数据来源于中国社会科学院金融研究所,借鉴刘军等[5] [6]的指标构建方法,从信息化发展、互联网发展和数字交易发展三个维度构建了中国分省份数字经济评价指标体系,基于统计年鉴数据,选取中国2000~2022年的数字经济指数统计数据,共9683条观测值,涵盖了全国31个省级行政区(不包括港澳台地区),包括直辖市、省级单位和自治区。每一年的数据记录了数字经济指数的年度变化趋势,并以数值形式反映了地区在数字经济发展中的表现。

此外,为了更好地捕捉区域数字经济的发展趋势,为确保数据的一致性和完整性,本研究对原始数据进行了预处理,包括按年份排序以及补充八大经济区划分信息,以及按照八大经济区的划分整合省份信息。其中,对数据中可能存在的缺失值采用滞后特征填补和剔除策略。滞后特征填补中,对于时间序列开头年份无法生成的滞后值,使用NaN表示以避免数据偏差。同时,为确保数据的可比性,数字经济指数在统计过程中已完成标准化处理,统一以相对值形式呈现,不再额外进行归一化调整。在研究过程中,如发现个别年份或区域存在缺失值,采用以下策略进行处理:如果缺失值处于中间年份,优先通过前一年和后一年数据的加权平均进行补充;对于缺失比例较高或连续缺失年份的区域,剔除相应记录以避免对模型预测结果造成偏差。这些数据处理步骤为后续的动态预测和区域差异分析奠定了基础。

2.1.2. 滞后特征的构建

为了捕捉数字经济指数的时间依赖性特征,本研究引入滞后变量作为模型的输入特征,构建历史数据与未来预测之间的关联。滞后特征的引入能够反映某一区域数字经济发展的延续性和阶段性变化,进而提高模型的预测精度。

具体而言,对于每个区域的数字经济指数DEIt,构造以下两个滞后特征:

滞后一期特征(Lag1):表示前一年的数字经济指数,即DEIt-1。

滞后二期特征(Lag2):表示前两年的数字经济指数,即DEIt-2。

在构造滞后特征的过程中,数据按省份和年份进行了分组排序,确保滞后特征的生成仅在同一省份的连续年份之间计算。对于滞后特征无法生成的数据(例如时间序列的开头年份),相应的值使用NaN表示,以避免数据偏差。

2.2. 区域划分

国务院发展研究中心发表的报告指出,中国所沿袭的东、中、西区域划分方法已经不合时宜。为了深入分析数字经济指数在不同区域的差异性,本研究结合中国国家统计局的区域划分标准,将全国31个省级行政区划分为八大经济区。这种划分方法能够更好地反映区域间在资源禀赋、经济发展水平及数字化基础设施上的差异,为区域分析提供了科学的地理和经济学基础。

即东北综合经济区(辽宁、吉林、黑龙江);北部沿海经济区(北京、天津、河北、山东);东部沿海经济区(上海、江苏、浙江);南部沿海经济区(福建、广东、海南);黄河中游经济区(陕西、山西、河南、内蒙古);长江中游经济区(湖北、湖南、江西、安徽);大西南经济区(云南、贵州、四川、重庆、广西);大西北经济区(甘肃、青海、宁夏、西藏、新疆)。通过将每个省份归属到相应的经济区,本研究构建了经济区与数字经济指数的对应关系,便于后续的区域差异分析。

3. 结果分析

3.1. 数字经济指数的动态预测

3.1.1. 模型构建与参数选择

本研究采用随机森林模型作为数字经济指数预测的核心工具,其能够有效处理高维度和非线性数据,适应数字经济指数这一复杂数据特征。模型通过集成多个决策树,具备较强的抗噪声能力和良好的泛化性能,能够减少过拟合风险并提供高精度预测。同时,随机森林内置的特征重要性评估功能有助于识别影响数字经济发展差异的关键因素,从而为政策制定提供参考。

在模型构建过程中,输入变量包括滞后一期(Lag1)和滞后二期(Lag2)的数字经济指数,目标变量为当前年份的数字经济指数值。数据按时间顺序划分为训练集和测试集,其中2000~2018年的数据用于模型训练,训练集包含716条观测值;2019~2022年的数据用于模型验证,测试集包含1684条观测值。这种数据划分方式不仅能够确保模型学习到数字经济指数的历史动态特征,同时能够有效验证模型在未知数据上的泛化能力。

随机森林模型的参数设置基于网格搜索与交叉验证的优化过程。最终模型的决策树数量设置为100,这一选择是在多次尝试中平衡了模型复杂性和计算效率;最大树深度设置为20,以限制模型复杂度并避免过拟合;最小叶节点样本数设为5,以提高分裂的鲁棒性,确保模型对小波动具有一定的抗噪能力;最大特征数选择为对数特征维度(Log2),以在特征随机选择中兼顾多样性和有效性。此外,为确保结果的可重复性,随机种子固定为42。以上参数设计有效提升了模型的预测能力,同时降低了计算复杂性和过拟合风险。

为了评估模型的性能,本研究采用了均方误差(MSE)、均方根误差(RMSE)以及决定系数(R2)等指标。在验证集上的性能测试表明,优化后的随机森林模型在捕捉数字经济指数的时间动态特征上具有较高的准确性和稳定性,为后续的动态预测分析提供了有力支持。

3.1.2. 随机森林模型训练情况

在2000~2022年的模型训练阶段,随机森林模型在预测数字经济指数方面表现出较高的精度和稳定性。为验证模型的性能,本研究从误差指标、实际值与预测值对比、残差分析三个方面进行了评估。

从模型的误差指标来看,训练结果显示均方误差(MSE)为0.0018,均方根误差(RMSE)为0.0427,平均绝对误差(MAE)为0.0313,而决定系数(𝑒2)高达93.1%。这些指标表明模型对数字经济指数的预测效果较好,特别是𝑒2达到93.1%,说明模型能够解释大部分的目标变量变异。

通过实际值与预测值的对比分析,如下图1所示,模型在大部分测试样本上表现稳定,预测值与实际值之间的误差较小。从可视化对比图中可以观察到,预测曲线与实际值曲线基本吻合,仅在少数样本上存在较小偏差,这进一步验证了模型的可靠性。

Figure 1. Comparison of actual and predicted values for random forest model training

1. 随机森林模型训练实际值与预测值对比

残差分析结果如下图2所示,模型预测的残差分布近似对称,并且大部分残差集中在0附近。这表明模型的预测没有明显的系统性偏差,说明随机森林模型在捕捉数字经济指数动态特征方面具有较好的鲁棒性。

Figure 2. Distribution diagram of residuals for the random forest model

2. 随机森林模型残差分布图

综上所述,模型在2000~2022年的训练阶段表现出良好的预测能力和稳健性,为后续预测2025~2029年数字经济指数提供了坚实的基础。相关误差分析图和特征重要性图为具体表现提供了直观支持,说明了随机森林模型在本研究中的有效性。

3.1.3. 2025~2029年预测结果

基于2000~2022年的训练数据和优化后的随机森林模型,本研究对2025~2029年全国数字经济指数进行了动态预测。预测结果如下图3所示,未来五年全国数字经济指数呈现稳步增长的趋势,总体发展态势良好。

Figure 3. Forecast of the development of the digital economy index during 2025~2029

3. 2025~2029数字经济指数发展预测

从具体预测值来看,全国数字经济指数在2025年的预测值为0.51392,到2029年预计将达到0.59177,年均增长率为3.60%。其中,2026年至2029年各年的增长率分别为4.81%、0.71%、3.97%和4.92%。尽管某些年份增长幅度略有波动,但整体趋势表现为持续上升。

此外,预测结果揭示了未来五年数字经济指数的增长特征。2026年增长率达到预测期内的峰值,随后在2027年略有下降,但自2028年起增长速度再度回升。这一趋势可能与国家政策的持续推进、技术创新的进一步深化以及区域间协同发展的增强有关。

模型评估方面,随机森林模型在训练和测试中的OOB错误估计为0.0006,表明模型的泛化能力较强,对未来数据的预测具有较高的可信度。同时,从实际值与预测值对比图(图4)和误差分布图(图5)中可以看出,模型在大部分测试样本上的预测误差较小,能够较为准确地反映数字经济指数的变化趋势。

Figure 4. Comparison of actual and predicted values for digital economy index

4. 数字经济指数实际值与预测值对比

Figure 5. Variation of OOB errors with the number of trees

5. OOB错误随树数量的变化

3.2. 八大经济区区域差异分析

根据八大经济区的划分,本研究对2000~2022年期间各区域的数字经济指数进行了统计分析,并计算了各区域的平均值。结果如下图6所示,不同经济区之间的数字经济发展水平存在显著差异。

Figure 6. Average value of the digital economy index for the eight economic zones

6. 八大经济区数字经济指数平均值

从区域平均值来看,东部沿海经济区以0.46154的平均数字经济指数位居首位,远高于其他地区,体现了其在经济基础、数字化基础设施和政策支持方面的显著优势。其次是南部沿海经济区(0.3675)和东北综合经济区(0.33502),显示出这些区域在数字经济发展中的良好表现。相较之下,大西北经济区的平均数字经济指数最低,仅为0.15994,与东部沿海经济区存在较大差距。

Figure 7. Time change trends in the digital economy index by each economic zone

7. 各经济区数字经济指数的时间变化趋势

从区域分布特征来看,东部沿海和南部沿海经济区不仅平均水平较高,且近年来增长速度较快,进一步巩固了其在数字经济发展中的领先地位。大西南、黄河中游和大西北经济区的增长速度相对较慢,可能与其区域经济发展水平和数字化基础设施的相对薄弱相关。

尽管各经济区之间的差距较为显著,但通过长期趋势分析可以发现,数字经济指数在不同区域之间呈现出一定的收敛现象(图7)。低发展区域的增长速度虽慢,但其绝对值的提升逐渐缩小了与高发展区域之间的差距。这种收敛趋势表明,在国家政策支持下,数字经济的发展潜力正在逐步释放,区域间的数字鸿沟有望逐步弥合。

4. 讨论

4.1. 区域间差异的成因分析

4.1.1. 国家政策的区域导向性

国家政策在推动数字经济发展中扮演了关键角色,但其区域导向性加剧了区域差异。东部沿海地区由于是改革开放的先行区域,获得了政策的重点倾斜,包括税收优惠、财政补贴、技术研发支持等多项政策。这些政策的实施为当地企业的数字化转型提供了必要的资源保障,形成了“政策红利”效应。相比之下,西部和中部地区在政策扶持的时效性和力度上滞后,尤其是在基础设施建设、人才引进等方面的政策支持未能迅速转化为数字经济增长的动力。这种政策差距在短期内无法弥补,形成了明显的区域性数字经济发展不平衡。

4.1.2. 区域经济结构的差异

区域经济结构的不同是数字经济指数差异的另一重要因素。东部和南部沿海经济区的产业以第三产业为主,特别是金融、电子商务、信息服务等高附加值行业,推动了数字经济的快速发展。与之对比,大西北和大西南地区的经济结构以第一产业和传统工业为主,对数字技术的依赖较低,转型的压力和成本较大,且技术需求相对较少,导致其在数字经济发展上缺乏主动性和创新动力。传统产业的劳动密集性特征还使得这些地区对高附加值、高技术密集型行业的吸引力较弱,从而进一步加剧了数字经济发展上的结构性差异。

4.1.3. 基础设施的不均衡分布

数字基础设施是数字经济发展的核心支撑,各地区在基础设施建设上的差异直接影响了数字经济的发展。东部地区无论是在互联网普及率、5G网络覆盖,还是在数据中心和云计算设施方面,都走在了全国前列,不仅为地方企业的数字化转型提供了支撑,还吸引了大量技术创新和外资投资,形成了良性的数字经济生态。而大西北和黄河中游经济区的数字基础设施建设相对滞后,许多农村和偏远地区的互联网接入率较低,制约了当地数字经济的增长潜力。

4.1.4. 人才与技术资源的分布

东部沿海地区由于经济基础较强,形成了以北京、上海、深圳为代表的创新中心,吸引了大量高端人才和技术资源。当地的科研机构、创新型企业以及高校等聚集效应,为数字经济的持续发展提供了源源不断的动力。而中西部地区,由于教育资源、研发投入和创新氛围的相对缺乏,吸引和培养高端人才的能力不足,限制了当地技术创新的步伐,造成了“东强西弱”的人才格局,进一步拉大了数字经济发展的差距。

4.1.5. 区域协同发展与内外部联动

东部沿海经济区凭借其地理位置的优势,积极融入全球数字经济的创新和资本流动网络,外资流入、国际技术和人才交流频繁,形成了全球化视野的数字经济生态。而西部地区因地理位置偏远、市场开放度较低,内外部联动机会较少,造成了这些地区在全球和国内市场中的互动不足,限制了数字经济技术的扩散与创新。同时,西部地区的本土企业在数字技术应用和创新方面的投入也较为保守,缺乏有效的产业集群和协同效应,导致区域内的数字经济增长缺乏外部动力。

5. 结论与展望

5.1. 研究结论

本研究围绕中国八大经济区的数字经济发展,基于随机森林模型对全国数字经济指数进行了动态预测,并分析了区域差异及其成因。通过实证分析,得出以下主要结论:

中国数字经济整体发展趋势向好,区域间的增长态势各具特色。基于2000至2022年的历史数据,随机森林模型成功预测了2025至2029年的数字经济指数。预计在未来五年内,全国数字经济将稳步增长,年均增速为3.60%。这一预测结果是基于现有政策环境和基础设施发展趋势的假设,即假设国家对数字经济的支持政策将持续执行,且基础设施建设不会出现显著的波动。此外,本研究也考虑了数字基础设施建设的逐步加速,尤其是在5G网络、数据中心以及物联网等领域的投资将进一步推动数字经济的增长。然而,若政策环境发生重大变化或出现外部冲击,如全球经济波动、技术发展路径的重大转变等,这一预测结果可能会发生相应的调整。因此,该预测结论的准确性依赖于未来政策支持的延续性和数字基础设施建设的持续推进。

在区域差异方面,东部沿海地区明显领先其他区域。从平均值来看,东部沿海经济区的数字经济指数为0.46154,排名第一,其后依次为南部沿海经济区和东北综合经济区;而大西北经济区和黄河中游经济区的数字经济指数较低,分别为0.15994和0.2226。这一差异反映了中国经济发展水平的不均衡,并凸显了政策导向、基础设施建设及产业结构等因素对数字经济发展的深远影响。

尽管区域差距显著,但呈现出一定的收敛趋势。通过时间序列分析,发现虽然东部和南部沿海地区保持领先地位,但中西部地区的数字经济指数增速较快,差距逐渐缩小。这一趋势表明,国家对中西部地区的政策支持正在显现成效,区域间的数字经济发展正朝着更加均衡的方向迈进。

此外,随机森林模型在数字经济指数预测方面表现出色,具有较强的泛化能力和预测精度。模型的OOB误差为0.0006,且残差分布接近对称,验证了其有效捕捉数字经济发展趋势的能力。引入滞后特征进一步表明历史数据在未来数字经济指数预测中的重要性,为相关领域的研究提供了方法论参考。

综上所述,本研究通过定量分析和区域对比,揭示了中国数字经济发展的总体态势及区域特征,为国家政策的制定和区域发展战略的优化提供了实证依据。研究结果表明,推动中西部地区数字经济发展、加速基础设施建设、缩小区域差距是实现全国数字经济高质量发展的关键。未来,中国在提升数字经济国际竞争力的同时,应更加注重区域协同与可持续发展,以保持在全球数字化浪潮中的领先地位。

5.2. 研究局限性与未来展望

尽管本研究深入探讨了中国数字经济指数的动态变化及区域间差异,但仍存在一些局限性,为未来研究提供了完善的方向。首先,本研究的数据覆盖2000至2022年,虽然时间跨度完整,但仅使用数字经济指数这一综合变量,未能全面捕捉电子商务、数字金融等多维特征。未来研究可以整合更多细分指标,以更全面地反映数字经济的多样性。

其次,虽然随机森林模型表现优异,但其因果关系的探讨能力有限,未能深入揭示数字经济指数变化的驱动机制。未来研究可结合因果推断、时间序列分析及空间计量模型,更加全面地探索数字经济的动态演变规律。

在区域分析方面,本研究聚焦于中国八大经济区,未充分考虑内部城市间的异质性。未来研究可以进一步在城市群或县域层面开展研究,探讨区域协同发展与动态变化的关系。

参考文献

[1] 李英杰, 韩平. 数字经济发展对我国产业结构优化升级的影响——基于省级面板数据的实证分析[J]. 商业经济研究, 2021(6): 183-188.
[2] 韦施威, 杜金岷, 潘爽. 数字经济如何促进绿色创新——来自中国城市的经验证据[J]. 财经论丛, 2022(11): 10-20.
[3] Wang, P. and Cen, C. (2024) Does Digital Economy Development Promote Innovation Efficiency? A Spatial Econometric Approach for Chinese Regions. Technology Analysis & Strategic Management, 36, 931-945.
https://doi.org/10.1080/09537325.2022.2065980
[4] Mukhomorova, I.V., Akopova, E.S., Pavlova, L.K. and Sheveleva, V.V. (2019) Global Competitiveness of the Digital Economy: The Problem of Measuring and Management. In: Popkova, E. and Sergi, B., Eds., Digital Economy: Complexity and Variety vs. Rationality, Springer, 23-29.
https://doi.org/10.1007/978-3-030-29586-8_3
[5] 刘军, 杨渊鋆, 张三峰. 中国数字经济测度与驱动因素研究[J]. 上海经济研究, 2020(6): 81-96.
[6] 郭峰, 王靖一, 王芳, 等. 测度中国数字普惠金融发展: 指数编制与空间特征[J]. 经济学(季刊), 2020, 19(4): 1401-1418.