1. 引言
随着全球数字化进程的加速推进,数据要素化已然成为驱动经济增长的核心引擎[1]。在数字经济蓬勃发展的时代背景下,数据在传统生产要素体系中脱颖而出,被正式定义为继土地、劳动力、资本和技术之后的“第五大生产要素”。据《中国数据要素市场发展报告(2021~2022)》相关数据显示,数据要素对GDP增长的贡献率呈现出逐年稳步提升的态势。贾卫萍研究发现数据要素正通过优化资源配置、提高生产效率等多种路径,有力地重塑着经济结构[2]。
在当前阶段,数据要素化通过将原始数据转化为可管理、可交易的资产,不仅有力地推动了传统产业与新兴技术的深度融合,还催生了以创新驱动为核心的全新增长模式。以人工智能、大数据等前沿技术在制造业中的广泛应用为例,其成功实现了生产流程的智能化转型以及生产效率的显著跃升。这一变革过程不仅加速了经济结构的转型升级,更通过充分释放数据的潜在价值,为可持续发展注入了强劲的新动能。然而,关于数据要素的研究目前还处于初级阶段,相关文献数量相对较少,已有研究大致可以分为三类:第一类主要阐明了数据要素的内涵和特征[1] [3] [4],第二类主要分析了数据要素发展的现状、存在的问题以及相应的对策[5]-[7],第三类主要讨论了数据要素的经济和社会效应[8]-[10]。总体来看,现有文献多以定性研究为主,相关的实证研究还比较少。目前,已有部分综述性文章对数据要素进行了分析。其中,国内学者多通过文献计量分析的方法对数据要素研究的进展进行分析,或围绕数据成为生产要素的理论研究展开分析,或着眼于数据要素的流通以及市场化配置研究[8]-[10];相比较而言,国外学者更加关注数据市场建设的技术问题和场景应用。上述综述性文章为当前数据要素研究提供了有益参考,但多从单一学科或较为微观视角切入或主要聚焦于理论研究,缺乏对我国数据要素理论研究与实践研究的整体性评述;且多采用对文献特征和关键词等客观数据的定量描述和分析,缺少归纳与概括的定性研究方法。因此,如何系统地量化数据要素对经济增长的影响机制,依然是学术界与政策制定者亟待深入探索的关键课题。
2. 理论分析与假说
传统生产要素包括土地、劳动力、资本和技术。在数字经济时代,数据已成为一种新型生产要素,具有非竞争性和可复制性,能突破传统要素的稀缺性限制,且其流动和利用对经济增长的影响日益显著。数据要素化水平,即数据资源被有效整合、处理并转化为可推动经济增长的要素的程度,是衡量一个国家或地区数字经济活力的重要指标[2]。当数据要素化水平提升,意味着数据能够更有效地被收集、整理、分析和应用于生产过程,有效降低生产成本[11]。通过大数据分析,企业可以更精准地掌握市场需求,优化生产流程,减少浪费,从而提高盈利能力。
数据要素化能够推动创新,催生新业态和新模式[12]。高数据要素化水平推动产业向数字化、智能化转型。一方面,新兴数字产业如人工智能、大数据服务等快速发展,这些产业附加值高、增长潜力大,成为经济新的增长点;另一方面,传统产业通过数据赋能,实现生产流程优化、产品创新和服务升级,提升产业竞争力,促进产业结构高级化和合理化,进而带动整体经济增长。
数据要素化还能够拓展市场空间,创造新的消费需求。数据是创新的关键资源,数据要素化水平提高使企业和科研机构能获取更全面、准确的数据,为创新提供有力支撑。通过数据分析挖掘新的市场需求、技术应用场景,激发技术创新和商业模式创新。如共享经济模式基于大数据实现供需高效匹配,创造全新商业价值,推动经济增长[13]。
基于以上理论分析,我们提出以下假说:
H1:数据要素化水平对经济增长存在显著的线性促进关系。
3. 研究设计
3.1. 变量说明
1. 被解释变量:经济增长(GDP)
经济增长的核心衡量指标通常采用国内生产总值(Gross Domestic Product,简称GDP)。地区生产总值是指一个地区所有常住单位在一定时期内收入初次分配的最终结果,涵盖了生产、分配、使用等各个环节的经济活动。借鉴潘家栋的研究[11],本文选用地区生产总值作为经济增长(GDP)的代理变量,不仅有助于我们准确衡量经济增长的总量和速度,还能为我们提供丰富的经济分析视角,帮助我们更深入地理解经济增长的内在机制和动力源泉。
2. 解释变量:数据要素化水平(DE),单位为万亿元。
由于目前学术界对数据要素化水平(DE)的衡量方式并未统一,根据数字经济理论,企业业务活动的数字化映射,即业务数据化,是数据要素化的前提条件,以及数据要素的价值生成链条核心逻辑,即“原始数据–数据资源–数据资产–数据资本”,本文在借鉴张辽等[14]研究的基础上,采用单一指标“软件业务销售收入”作为数据要素化水平(DE)的代理变量,全面考虑了经济效能的显性化,市场化程度的量化以及制度与技术的验证,比数据中心数量、数据交易规模、数据专业人才数量更具综合性。软件业务销售收入不仅直接体现了数据技术产业的规模和活跃度,还间接反映了数据要素化进程中的市场需求和技术创新能力。随着数据要素化水平的提升,企业对于数据处理、分析和应用的需求不断增加,这将直接推动软件产业的快速发展,进而表现为软件业务销售收入的持续增长。
3. 控制变量:为更好地说明数据要素化水平对经济增长的影响,本文借鉴刘华[15]、曹建飞等[16]的研究,选取以下相关控制变量:城镇化进程与数据要素化、经济增长之间存在双向因果关系,为排除内生性的干扰[17],选取城镇化水平采用城镇人口与总人口比值来衡量,记为urban;通过控制产业结构,可以更准确地评估数据要素化对经济增长的净效应,揭示数据要素化在特定产业结构下的作用机制和潜力,所以选取产业结构采用第三产业增加值与第二产业增加值比值来衡量,记为inst;研发强度作为控制变量,有利于更准确地评估数据要素化对经济增长的独立贡献,本文研发强度采用R&D经费内部支出与地区生产总值比值来衡量,记为rd;蔡新民等研究发现,交通基础设施的改善能通过产业集聚效应、效率改进效应和经济分布效应推动经济增长[18]。本文认为,交通基础设施得不到控制,将使得交通条件与数据要素化各自对经济增长的贡献被混淆,因此选取交通基础设施水平采用公路里程数取对数进行衡量,记为trans。
3.2. 模型设定
为检验数据要素化水平对经济增长的影响,本文分别运用F检验、Hausman检验对面板数据进行固定和随机效应回归,回归结果显示p值均为0.00,小于0.01,通过了1%置信度水平的显著性检验,即表明固定效应更适合本文研究,因此本文设定基准模型如下所示:
(1)
式(1)中,
表示研究省域i在第t时期的生产总值,
表示研究省域i在第t时期的数字要素化水平,X表示可能影响被解释变量的相关控制变量,
、
分别表示不随时间变化的个体固定和不随个体变化的时间固定,
表示随机扰动项。
3.3. 数据来源和描述性统计
通过对变量设定的数据整理,鉴于数据的可得性和客观性,本文最终选取2012~2022年我国30个省份(由于数据统计原因,剔除港澳台和西藏地区)面板数据作为研究样本,相关数据来源于国家统计局、《中国统计年鉴》及各省份统计公报,部分缺失数据采用线性插值法和均值法进行补齐。本文使用变量的描述性统计结果见表1。
Table 1. Statistical description of relevant variables
表1. 相关变量的统计性描述
变量名 |
样本量 |
均值 |
标准差 |
最小值 |
中位数 |
最大值 |
GDP |
330 |
0.0282 |
0.023 |
0.0015 |
0.0219 |
0.1291 |
DE |
330 |
0.1992 |
0.338 |
0.0000 |
0.0442 |
2.2497 |
urban |
330 |
0.6075 |
0.117 |
0.3630 |
0.5935 |
0.8960 |
indu |
330 |
1.5659 |
0.640 |
0.5518 |
1.4230 |
4.1448 |
rd |
330 |
0.0169 |
0.011 |
0.0022 |
0.0143 |
0.0653 |
trans |
330 |
11.7144 |
0.852 |
9.4368 |
11.9856 |
12.9126 |
注:GDP和DE的单位均为万亿元。
4. 实证分析
4.1. 相关系数矩阵
进行数据要素化水平对经济增长影响的研究中,首要任务便是对被解释变量开展相关性检验,保证数据的准确性与可靠性。本文选用了科学性的相关系数矩阵作为分析工具,对2012~2022年的省级面板数据展开检验与分析。相关系数矩阵检验结果见表2。
由表2可知各个变量之间的内在关联。结果分析如下,数据要素化水平(DE)与国内生产总值(GDP)之间存在着正相关关系,且通过了1%的置信度水平检验。这意味着随着数据要素化水平的逐步提升,国内生产总值亦呈现出上升的趋势,有力地印证了数据作为新兴生产要素对经济增长具备积极的推动效能。同时,城镇化水平(urban)、研发强度(rd)以及交通基础设施水平(trans)与GDP之间均展现出显著的正相关关系。原因在于城镇化进程的加快能够促进人口集聚、产业协同发展,从而拉动经济增长;研发投入的增加有助于技术创新与效率提升,为经济增长注入强劲动力;交通基础设施的完善则降低了物流成本、加强了区域间经济联系,对经济增长起到积极的促进作用。但是产业结构(indu)与GDP的负相关关系同样显著,p值小于最小置信度阈值。这样的情况可能是当前产业结构中传统产业占比较高、新兴产业发展不足,产业结构不合理在一定程度上制约了经济的增长。
Table 2. Correlation coefficient matrix
表2. 相关系数矩阵
|
GDP |
DE |
urban |
indu |
rd |
trans |
GDP |
1.000 |
|
|
|
|
|
DE |
0.749*** |
1.000 |
|
|
|
|
urban |
0.324*** |
0.585*** |
1.000 |
|
|
|
indu |
−0.472*** |
−0.424*** |
−0.601*** |
1.000 |
|
|
rd |
0.428*** |
0.635*** |
0.739*** |
−0.438*** |
1.000 |
|
trans |
0.301*** |
−0.156*** |
−0.619*** |
0.239*** |
−0.411*** |
1.000 |
注:***、**、*分别表示通过了1%,5%,10%的置信度水平检验。
4.2. 多重共线性检验
在实证研究过程中,为确保研究结果的准确性与可靠性,防范各类干扰因素对结论的误导至关重要。其中,多重共线性问题可能会严重歪曲实证结果,导致对变量间真实关系的误判,进而影响研究结论的科学性与有效性。鉴于此,对所采用的数据进行严谨的多重共线性检验显得尤为必要。
在众多可用于多重共线性检验的方法中,方差膨胀因子(VIF)以其原理明晰、操作简便且结果直观的特点,成为了学界和研究领域中广泛应用的常见检验方式。本文也正是选用了方差膨胀因子法,对面板数据展开多重共线性检验,结果见表3。
Table 3. Results of multicollinearity test
表3. 多重共线性检验结果
变量名 |
VIF |
1/VIF |
DE |
4.290 |
0.233 |
urban |
2.560 |
0.390 |
indu |
1.960 |
0.509 |
rd |
1.880 |
0.533 |
trans |
1.650 |
0.607 |
Mean VIF |
2.470 |
|
由表3的各项数据,我们能够明确地看到,各个变量所对应的VIF值均低于10这一普遍认可的警戒阈值。依据统计学原理和实证研究的经验标准,当变量的VIF值低于10时,便可以认定这些变量之间不存在严重的多重共线性问题。这一结果无疑为后续的实证分析筑牢了坚实的数据基础,有力地保障了研究结果的可信度与稳健性,使得基于这些数据所展开的分析与结论具备更强的说服力和科学性。
4.3. 基准回归结果分析
本文采用固定效应模型作为基准模型对数据要素化水平对经济增长的影响进行实证研究,基准回归结果见表4所示。根据呈现的结果可知,在无控制变量时(列(1)),影响系数是0.382,在1%的置信度范围内,DE对GDP具有显著的促进作用,这意味着DE每增长1个单位,GDP就相应地存在0.382的增加值。列(2)~(5)中,结果均显示DE对GDP的影响通过了1%的置信度阈值,系数均为正且高度显著(1%水平),系数范围在0.29~0.32之间。这表明DE对GDP增长具有稳健促进作用,也说明DE对GDP的促进作用存在于各种环境中。
列(2)~(4)的回归结果显示,urban与GDP均在1%的显著性水平上存在正相关作用,影响系数分别为0.1161,0.1334,0.1207,0.1465,则说明urban每提升1个单位,GDP就会增加0.1161,0.1334,0.1207,0.1465个单位。indu对GDP的影响系数范围在0.31~0.33之间,在1%置信度水平上显著,这意味着indu与GDP的增长速比分别为0.33,0.31,0.33。rd对GDP也具有显著的正相关作用,作用系数为0.3586,0.3515,在1%的水平上存在,表明rd的提升会使GDP分别增长0.3586,0.3515个单位。相反,trans对GDP的作用方向为负,数值为−0.0137,同样通过1%置信度水平的检验,即trans每增加1个单位,GDP将减少0.0137个单位。
整体来看,随着控制变量增加,DE系数略有下降,说明其部分效应被城镇化(urban)、研发(rd)等变量吸收,但主导作用仍显著,充分说明了数据作为生产要素具有其独立性贡献。
Table 4. Benchmark regression results
表4. 基准回归结果
|
(1) GDP |
(2) GDP |
(3) GDP |
(4) GDP |
(5) GDP |
DE |
0.382*** (17.74) |
0.2943*** (18.71) |
0.2911*** (18.73) |
0.3127*** (20.30) |
0.3078*** (20.12) |
urban |
|
0.1161*** (17.93) |
0.1334*** (15.69) |
0.1207*** (14.24) |
0.1465*** (12.17) |
indu |
|
|
0.0033*** (3.08) |
0.0031*** (3.00) |
0.0033*** (3.22) |
rd |
|
|
|
0.3586*** (5.35) |
0.3515*** (5.31) |
trans |
|
|
|
|
−0.0137*** (−2.98) |
cons |
0.0206*** (36.63) |
−0.0482*** (−12.50) |
−0.0638*** (−10.06) |
−0.6223*** (−10.25) |
0.829* (1.69) |
Province |
YES |
YES |
YES |
YES |
YES |
Year |
YES |
YES |
YES |
YES |
YES |
N |
330 |
330 |
330 |
330 |
330 |
R2 |
0.7128 |
0.7656 |
0.7728 |
0.7929 |
0.7989 |
F |
52.78 |
114.46 |
95.60 |
104.87 |
54.05 |
注:括号里为t值,***,**,*分别表示通过了1%,5%,10%的置信度水平检验。
5. 结论与建议
本文采用固定效应模型对数据要素化水平(DE)对经济增长(GDP)的影响进行了实证研究。基准回归结果显示,无论是在无控制变量的情况下,还是在添加了城镇化水平(urban)、产业结构(indu)、研发强度(rd)和交通基础设施水平(trans)等控制变量后,数据要素化水平对经济增长的影响均呈现出显著的正相关关系。具体而言,在无控制变量时,DE对GDP的影响系数为0.382,且在1%的置信度范围内显著。在添加了控制变量后,尽管DE的系数略有下降,但其主导作用仍然显著,系数范围在0.29~0.32之间。此外,城镇化水平、研发强度和产业结构等控制变量也对经济增长具有显著的促进作用,而交通基础设施水平对经济增长的作用方向为负。结果表明,数据要素化水平的提升是推动经济增长的重要因素之一。随着数据技术的不断发展和普及,数据作为生产要素的独立性贡献日益凸显。同时,城镇化、研发和产业结构等也是促进经济增长的重要力量,而交通基础设施对经济增长的负向影响则主要源于其规模不经济、负外部性、区域失衡和资源错配等机制[19]。
基于上述研究结论,本文提出如下建议:
第二,优化城镇化进程。首先,推广数据驱动的城市治理模式,在城市更新项目中嵌入智慧城市数据中台,实时采集人口流动、基础设施负荷等数据,建立城市承载力动态预警系统,通过分析软件企业集聚区的通勤数据,优化公共交通线路规划与产业园区布局。其次,发展数字产业替代房地产依赖,在土地出让条件中增加数字经济产业导入条款,要求开发商配套建设数据服务中心或算力基础设施。对存量商业地产,鼓励改造为数据标注基地、云服务机房等轻资产运营载体。
第三,加强研发创新。首先,建立数据要素创新联合体,由政府牵头组建“政产学研用”协同平台,定向解决数据要素流通中的技术–制度耦合问题。其次,实施数据技术人才“双轨制”培养,在重点高校开设数据要素工程专业(覆盖数据治理、交易合规等课程),同步在企业设立数据要素化水平与薪酬晋升挂钩机制,对通过DCMM (数据管理能力成熟度)认证的企业给予税收抵扣。
第四,推动产业结构升级。首先,实施新兴产业“数据赋能”工程,对新能源、环保科技企业强制要求数据要素投入占比,通过“数据 + 场景”双向补贴机制培育数据服务新业态。其次,开展传统产业数据化改造“揭榜挂帅”,设立制造业数据化转型专项,重点支持钢铁、纺织等行业建设工业大数据平台。对实现生产故障预测准确率超90%、能耗降低20%以上的标杆项目,给予设备投资额30%的奖补。
第五,改善交通运输状况。首先,建设物流数据要素流通枢纽,在国家级物流枢纽城市试点货运数据交易市场,整合货车轨迹、仓储周转等数据形成“物流景气指数”产品。对使用该数据优化运输路径的企业,按降本金额的10%给予补贴。其次,推行绿色交通数据信用体系,将新能源车辆运行数据纳入企业ESG评级,允许数据信用分高的物流企业优先获得路权。同步开发交通拥堵数据产品,为城市规划部门提供实时决策支持。