1. 引言
自21世纪初以来,中国二氧化碳排放量呈现出快速增长趋势,2000年至2006年间年均增幅达到约11.5%。至2006年,中国二氧化碳排放总量已占全球碳排放的20%,首次超越美国,跃升为全球最大的碳排放国[1]。然而,中国碳排放问题具有复杂性与特殊性。一方面,快速的工业化与城镇化进程推动了经济增长,但也导致能源消费以高碳能源为主,排放总量持续攀升;另一方面,中国已明确提出“2030年前实现碳达峰、2060年实现碳中和”的战略承诺,并将其纳入国家发展规划和能源转型布局。为确保“双碳”目标的顺利推进,迫切需要建立科学合理的碳排放预测模型,对未来发展趋势进行动态刻画和量化分析。这不仅能够揭示经济发展、能源结构与政策调控对碳排放的综合影响,还能为政策制定者提供有效的决策依据,从而在保障能源安全的同时实现绿色低碳转型和高质量发展。
碳排放预测与分析研究领域形成了较为系统的成果,主要可归纳为两类方法。第一类是基于时间序列的模型。例如,刘淳森等在扩展STIRPAT模型的基础上引入LSTM网络,对交通运输业碳排放进行情景预测,能够有效捕捉长期依赖性与非线性特征,其预测精度显著优于BP神经网络与支持向量回归(SVR),但在应对政策干预和技术冲击方面灵活性不足[2]。刘广为和赵涛则采用离散二阶差分方程模型,通过历史数据推演趋势拐点,能够揭示碳排放的动态演化路径,但忽视了政策变革与技术进步的潜在影响[3]。此外,张新生等基于STIRPAT与梯度提升决策树(GBDT)筛选关键驱动因素,并结合XGBoost进行预测,取得了较高的预测精度,但模型在很大程度上依赖输入特征的完备性,且未显式引入政策变量进行建模[4]。第二类是基于回归分析的模型,以STIRPAT、Kaya恒等式及其扩展模型为代表,通常通过分解与计量回归方法揭示人口、经济发展、能源结构等驱动因子的作用机制,从而在碳排放结构解释方面具有较强的清晰性与逻辑性。宋杰鲲利用支持向量回归(SVR)结合多情景设定,对2010~2015年中国碳排放进行预测,取得了较高精度,但该方法依赖于未来情景假设,且受限于其黑箱特性,结果稳健性不足[5]。肖玉杰等进一步引入主成分分析、灰色关联分析及全球马尔姆奎斯特–吕恩伯格指数,构建改进型SVR模型以刻画港口效率对排放的影响,显著提升了预测精度,但同时带来模型复杂度增加与数据需求扩大的问题[6]。与此不同,杜强等采用Logistic模型,以省际聚类与短期历史数据拟合S型曲线,推演2011~2020年碳排放路径,方法简洁直观,但过度依赖最大容量假设与历史平稳性,难以捕捉政策与技术突发冲击[7]。此外,李心萍等[8]、杜镜刚等[9]与杨霖等[10]基于STIRPAT模型展开区域预测,结合岭回归与情景分析,揭示了人口、经济、能源与产业结构对碳排放的弹性作用,情景路径清晰,政策参考价值较强,但对历史数据中政策因素的结构性影响缺乏系统刻画。李金超等则引入遗传算法优化的极限学习机,在全国范围内建立高精度预测框架,虽提升了预测性能,但依然面临机器学习模型“黑箱化”以及对历史数据依赖过强的困境[11]。
综上,尽管在碳排放预测与分析研究领域已取得较为系统的进展,但方法论层面仍存在显著局限。首先,时间序列模型虽能够刻画趋势演化及非线性特征,但其高度依赖历史数据的平稳延续性,难以及时反映政策干预与技术变革所引发的突发性冲击。其次,回归与分解模型在解释因果关系及变量作用机制方面具有较高透明性和逻辑性,但通常局限于情景设定,尚未系统揭示政策变量的结构性影响。再次,机器学习方法在预测精度方面表现优越,然而普遍存在“黑箱化”及政策可解释性不足的问题,限制了其在政策制定中的应用价值。因此,未来研究亟需在提升预测精度的同时兼顾模型可解释性与稳健性,尤其应科学引入政策变量,揭示其结构性作用机制,并探索多模型融合的优化框架,以实现预测与政策分析的有机统一。
针对现有研究在政策变量建模与预测解释力方面的不足,本文以中国碳排放为研究对象,开展如下研究工作:其一,构建融合遗传算法的优化模型,并在模型框架中显式引入政策虚拟变量,以增强模型对政策冲击的响应能力;其二,基于STIRPAT模型构建扩展型多元回归结构,结合政策虚拟变量与岭回归方法,实现碳排放量的稳健预测与因果机制解析;其三,设计以1980~2019年历史数据为训练集、2020~2022年数据为测试集的验证框架,系统评估政策变量引入对预测性能及政策解释效应的提升作用。本文旨在保证预测精度的前提下,增强模型的可解释性与稳健性,为“双碳”战略背景下的碳排放预测与政策评估提供科学方法论支持。
2. 数据来源
本文选取了1980~2022年中国的碳排放数据。其中,1997~2022年的碳排放数据参考中国碳核算数据库的相关研究文献[12]-[15],1980~1996年的数据则取自全球碳地图集[16]。除碳排放数据外,其余影响因素数据来源于国家统计局《中国统计年鉴》以及《中国能源统计年鉴》。主要变量说明见表1。
Table 1. Variable description
表1. 变量说明
变量 |
含义 |
单位 |
均值 |
方差 |
最小值 |
最大值 |
C |
碳排放量 |
Mt |
5384.73 |
11511869.14 |
1476.49 |
11350.54 |
P |
人口规模 |
万人 |
124703.49 |
167301698.9 |
98705 |
141260 |
A |
人均GDP |
万元/人 |
2.68 |
5.68 |
0.30 |
8.02 |
E |
能源强度 |
t·万元−1 |
0.99 |
0.19 |
0.48 |
2.05 |
S |
能源结构 |
% |
91.88 |
13.63 |
82.50 |
96.00 |
U |
城镇化率 |
% |
39.79 |
208.88 |
19.39 |
65.22 |
3. 研究方法
3.1. 基于遗传算法引入政策虚拟变量
为刻画政策因素对碳排放结构性变化的影响,本文在模型中引入带有断点的政策虚拟变量以实现定量描述。断点的数量、位置及相应取值需通过优化方法加以确定。鉴于遗传算法在全局搜索与参数寻优方面的优势,本文采用遗传算法识别最优的断点组合与虚拟变量设定,从而保证模型对历史碳排放走势的有效拟合与解释。
3.1.1. 政策虚拟变量
本文在模型中引入分段虚拟政策变量以刻画制度性因素对碳排放的阶段性影响。不同于传统的二元虚拟变量设置[17],本文构建了单一有序变量Dt,将研究期划分为若干连续区间,并为各阶段赋予相应取值,从而在模型中体现政策环境的动态演变特征:
,当
(1)
其中,
为初始年份,
表示由模型识别出的断点时间,
为最终年份,
的取值随阶段递增,用以反映不同区间的政策环境。
该变量的优势在于:一方面,通过区间划分避免了过多虚拟变量导致的多重共线性;另一方面,能够以简洁形式体现政策环境的阶段性差异,从而增强模型的解释力与预测性能。
3.1.2. 遗传算法
遗传算法(Genetic Algorithm, GA)是一种模拟自然界生物进化过程的全局优化方法。其核心思想是将候选解视为生物个体,通过选择、交叉与变异操作,使种群适应度逐代提高,从而逐步逼近全局最优解[18]。遗传算法具有较强的全局搜索能力和鲁棒性,适用于复杂参数寻优与模型结构识别问题。针对分段年份与岭回归正则化参数的优化,本文采用遗传算法进行建模,以获得最优分段年份及正则化参数组合。具体优化模型构建如下:
1) 决策变量
遗传算法的决策变量包括分段年份集合与岭回归参数。设分段年份集合为:
其中
表示结构变化点个数。岭回归的正则化参数表示为:
因此整体决策向量可写为:
2) 适应度函数
适应度函数以预测误差最小化为目标,同时引入复杂度惩罚项,具体定义为:
其中RMSE为均方根误差,MAPE为平均绝对百分比误差
为真实值均值,用于归一化RMSE;
分别为RMSE与MAPE的权重,本文设定为0.5与0.5;
为惩罚系数,本文取0.1;K为分段数。
3) 约束条件
模型需要满足以下条件:
综上所述,遗传算法通过在约束条件下搜索最优
,以最小化适应度函数
,从而获得最佳分段年份及岭回归参数。
3.2. 基于STIRPAT构建多元模型
3.2.1. STIRPAT模型
STIRPAT模型是分析环境影响的重要工具。该模型由York等人于2003年提出[19],是在经典的IPAT模型[20]基础上改进而来,克服了IPAT模型假设各因素弹性均为1的限制,具备更强的灵活性和可扩展性。其基本形式表达式为:
其中,I表示环境压力;P表示人口规模;A表示经济发展水平;T表示技术水平;a为常数,代表各因素综合影响强度;b,c,d分别为各变量的弹性系数,反映其对环境压力的影响程度e为随机误差项。
与IPAT模型不同,STIRPAT模型拒绝单位弹性假设,使得各影响因素对因变量
的作用大小由相应弹性系数决定。若
变动
,则
相应变动为
。
3.2.2. 特征选择
STIRPAT模型的基础结构只考虑了人口规模、经济富裕程度和技术水平三个因素来分析环境状况,还应引入更多扩展变量,有助于提升模型的精度与解释力。结合已有研究表明[21],通常扩展模型选取人口规模、经济发展水平、城镇化率、单位GDP能耗、能源结构及产业结构等六个宏观因素作为变量。
3.2.3. 特征筛选
本文采用皮尔逊相关分析法来衡量各因素之间的相关性。皮尔逊相关系数的绝对值越接近1,说明该因素与碳排放之间的关系越紧密。如图1所示,人均GDP、化石能源比例和城镇化率的系数绝对值都大于0.90,表明其与碳排放间存在非常强的线性相关性;人口和能源强度的系数绝对值都大于0.80,说明与碳排放间也存在较强程度的相关性;而二产能源比例与碳排放的相关系数的绝对值为0.47,为较弱相关性。综上,舍弃二产比例这个相关性异常且低的因素。
Figure 1. Heatmap of feature correlations
图1. 特征热力图
3.2.4. 模型拓展
因此本文以碳排放总量C作为环境压力指标,以筛选后的变量拓展STIRPAT模型中的变量,构建如下碳排放分析模型:
(2)
其中:C表示碳排放总量;P为人口规模;A为人均GDP;U为城镇化率;E为单位GDP能耗(能源强度);S为煤炭消费占比;O为第二产业产值占比;a为常数,代表各因素综合影响强度;b,c,d,e,f,g,h分别为各变量的弹性系数;
为误差项。
同时为了便于实证分析,式(2)两边取自然对数并且加入虚拟政策变量(D),得到多元线性模型:
3.3. 基于岭回归对多元模型进行预测
岭回归是一种改进传统最小二乘法的回归技术。该方法通过引入偏差,放弃最小二乘估计的无偏性,从而在一定程度上牺牲估计的精确性,以换取更稳定和可靠的回归系数估计。具体而言,岭回归通过对回归系数施加L2范数惩罚,增强模型的数值稳定性,降低多重共线性对估计结果的影响。此方法不仅提高了计算的鲁棒性和泛化能力,还显著加快了模型训练速度,避免了复杂的数值计算过程,因而在实际建模中具有较强的实用价值。
4. 结果与讨论
4.1. 政策虚拟变量结果
为了提高遗传算法在分段年份与岭回归参数联合优化中的稳定性与收敛性能,本文引入贝叶斯优化(Bayesian Optimization, BO)对遗传算法的关键超参数进行调节[22]。贝叶斯优化通过在超参数空间内建立代理模型,并基于期望改进准则选择最优采样点,从而在有限迭代次数下高效寻优。本文选取遗传算法的三类核心超参数作为优化对象:
种群规模(
):控制每一代的个体数量,平衡全局搜索能力与计算复杂度;
最大迭代次数(
):决定算法的演化次数,影响解的收敛精度;
交叉概率(
):影响解的多样性与收敛速度。
在贝叶斯优化框架下,搜索空间设定为:
经过多轮迭代优化,得到的最优超参数组合如下:
在贝叶斯优化所确定的最优遗传算法超参数条件下,模型对政策虚拟变量的分段断点进行了优化识别。结果表明,最优的断点数量为4个,分别对应于年份1981,1982,2010,2017,最优
。这四个时间点与中国能源结构调整及碳排放政策的重大转折期相契合,具有明确的现实经济与政策背景(见表2)。
由此可得政策虚拟变量矩阵(见式(1)),其构造结果如下所示:
相较于仅将断点与政策年份进行简单对应,本文进一步从政策传导机制出发,对断点的内在逻辑进行了结构化阐释。1981年节能优先方针的确立通过强化能效标准与行政节能措施显著压缩单位能耗;1982年经济体制改革通过产业结构优化和资源配置效率提升影响能源需求结构;2010年战略性新兴产业政策的出台加速了清洁能源扩张、节能技术扩散与高耗能产业的技术替代;而2017年制度化的监管体系、煤炭消费控制与全国性碳市场建设开始发挥系统性效应,使能源结构调整的速度与方向发生显著转折。这些机制性渠道共同导致能源消费强度、产业结构与技术结构的变化在上述年份呈现出可统计识别的结构性突变。
需要强调的是,部分政策史上具有重要意义的年份并未被模型识别为断点,这在方法论上具有合理性。一方面,政策效应普遍具有滞后性,其对能源消费和碳排放的影响往往通过投资周期、技术扩散与产能调整等中介变量逐步显现;另一方面,多个政策在时间上可能存在重叠与叠加,其综合作用会在数据中被表现为单一的结构转折。此外,年度数据的有限分辨率、统计口径调整带来的噪声、以及岭回归惩罚项对模型复杂度的抑制作用,均可能使部分政策年份的影响难以从全国尺度的宏观序列中单独分离。因此,模型所得断点反映的是在数据驱动框架下最具统计显著性的结构性变化,而非对政策时间线的机械再现。这一特征反而保证了结果的稳健性与解释的严谨性。
Table 2. Key events in China’s energy structure and carbon emission policies
表2. 中国能源结构与碳排放政策关键年份事件表
年份 |
政策事件 |
1981 |
《关于加强能源节约工作的决定》出台 |
1982 |
《国家经济体制改革》启动 |
2010 |
《国务院关于加快培育和发展战略性新兴产业的决定》发布 |
2017 |
《能源生产和消费革命战略(2016~2030)》实施 |
4.2. 稳健性检验
为验证结构性断点识别结果的稳健性,本文采用25年滚动窗口进行估计,并绘制断点出现频率的热力图。如图2所示,在不同的窗口起始年份下,主要断点始终集中出现在1981、1995、2020、2017附近,其位置在各窗口之间仅呈现轻微的波动,而没有出现随机漂移或大幅跳动。这说明识别到的断点具有高度稳健性,不依赖于特定的样本截取方式,也不是由某一段数据的偶然噪声所导致。
Figure 2. Robustness analysis
图2. 稳健性分析
4.3. 灵敏度分析
为了增强结论的可靠性,本文将模型允许的最大断点数K从1增加至20并重复计算结果如图3显示。如图3(a)所示,当K为1~3时,模型稳定识别出相同的核心断点;随着K的增加,新增的断点数量有所增加,但其位置变化很小,并未出现大幅偏移。此外,如图3(b)所示,适应度(fitness)在K =10附近达到最小值,这说明该K值在模型复杂度与拟合性能之间取得了最佳平衡。总体而言,断点结构在不同K设置下保持稳定,表明本文的研究结论具有较强的灵敏性与稳健性。
(a)
(b)
Figure 3. Sensitivity analysis. (a) Variation of number of Breakpoints with K; (b) Variation of Fitness with K
图3. 灵敏度分析。(a) 断点数量随K的变化;(b) 适应度随K的变化
4.4. 共线性分析
表3展示了变量间的多重共线性诊断结果。可以看出,大部分自变量的方差膨胀因子(VIF)均显著大于10,最高可达295.74,表明变量间存在较强的多重共线性问题。这种共线性会导致普通最小二乘估计不稳定,影响参数的统计显著性。因此,为减弱多重共线性的干扰,本文引入岭回归进行碳排放预测。
Table 3. Multicollinearity analysis results
表3. 多重共线性分析
变量 |
系数 |
标准误差 |
t值 |
P值 |
容差 |
VIF |
lna |
−0.0037 |
5.1982 |
−0.0007 |
0.9994 |
-- |
-- |
lnP |
0.2868 |
0.5910 |
0.4852 |
0.6305 |
0.0103 |
97.14 |
lnA |
1.4873 |
0.1075 |
13.8340 |
0.0000 |
0.0034 |
295.74 |
lnE |
1.2954 |
0.1288 |
10.0610 |
0.0000 |
0.0137 |
72.86 |
lnS |
1.7003 |
0.6666 |
2.5506 |
0.0152 |
0.0550 |
18.18 |
lnU |
−0.9738 |
0.2600 |
−3.7455 |
0.0006 |
0.0044 |
227.03 |
D |
0.0966 |
0.0175 |
5.5274 |
0.0000 |
0.2123 |
4.71 |
4.5. 岭回归结果
为了避免模型评估失真,需要消除多重共线性问题,得到各变量的精确性系数,继续采用岭回归估计方法对数据进行拟合,结果如表4所示。各主要解释变量均表现出显著性,其中能源消耗(lnE)、煤炭消费(lnS)以及GDP(lnA)的回归系数为1.22547、2.67554和1.56745,且均在1%显著性水平下显著,说明它们对碳排放的正向影响最为突出,是碳排放增长的主要驱动力。其中煤炭消费的回归系数最大,表明煤炭依赖在碳排放增长中起到决定性作用。
Table 4. Ridge regression coefficients and statistical test results
表4. 岭回归系数及统计检验结果
变量 |
系数 |
标准误差 |
t统计量 |
p值 |
lnA |
1.56745 |
0.10363 |
15.1255 |
2.22e−16 |
lnP |
−0.41031 |
0.01203 |
−34.1177 |
0 |
lnU |
−1.10745 |
0.09135 |
−12.1226 |
6.795e−14 |
lnE |
1.22547 |
0.02845 |
43.0798 |
0 |
lnS |
2.67554 |
0.02118 |
126.3392 |
0 |
D |
0.07796 |
0.01403 |
5.5548 |
3.265e−06 |
人口规模(lnP)与城镇人口比重(lnU)对碳排放的影响则为负,回归系数分别为−0.41031和−1.10745,均通过显著性检验。这可能反映出人口结构优化和城镇化过程中能源利用效率的提升,在一定程度上对碳排放起到抑制作用。
此外,断点变量(G)的系数为0.07796,同样在1%显著性水平下显著,说明特定时期的结构性变化对碳排放趋势产生了明显影响,验证了制度或政策调整对碳排放的调节效应。
4.6. 预测性能
为验证扩展模型的预测能力,本文选取1980~2019年的数据作为训练集,2020~2022年的数据作为测试集。在模型评估中,采用均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)以及判定系数(R2)作为性能指标。结果如表5所示。
Table 5. Variable description
表5. 变量说明
预测模型 |
数据集 |
RMSE |
MAE |
MAPE (%) |
R² |
带断点变量 |
训练集 |
208.49 |
138.31 |
2.69 |
0.9955 |
测试集 |
166.85 |
162.55 |
1.46 |
0.9815 |
基准模型 |
训练集 |
256.56 |
182.38 |
3.64 |
0.9932 |
测试集 |
190.05 |
173.43 |
1.55 |
0.9213 |
从训练集表现来看,扩展模型的RMSE (208.49)、MAE (138.31)与MAPE (2.69%)均显著低于基准模型(分别为256.56、182.38与3.64%),且R2达到0.9955,高于基准模型的0.9932,表明扩展模型在样本内拟合上更加精确。进一步在测试集上比较,扩展模型同样表现优异,其RMSE (166.85)、MAE (162.55)和MAPE (1.46%)均优于基准模型(190.05、173.43和1.55%),尤其R2达到0.9815,远高于基准模型的0.9213。这表明扩展模型不仅在样本内具有较高的拟合度,同时在样本外预测中也展现出更强的稳定性与泛化能力。
图4展示了基准模型与扩展模型在1980~2022年间的碳排放预测结果对比。结果表明,扩展模型的预测曲线整体上与实际碳排放走势更加吻合,尤其在2010年这一结构性断点之后,能够较为准确地刻画碳排放的转折变化。
Figure 4. Comparison of model prediction results
图4. 预测结果对比
图5给出了两类模型的残差对比散点图。从结果来看,扩展模型的残差分布更为集中,波动幅度显著减小,表明其拟合效果具有更高的稳健性。相比之下,基准模型在碳排放水平约10,000 MtCO2附近的残差偏离较大,进一步验证了在模型中引入断点变量对于提升解释力和预测精度的必要性与有效性。
Figure 5. Residual scatter plot
图5. 残差散点图
5. 结论与建议
本文以中国碳排放为研究对象,基于STIRPAT模型提出了一种引入政策虚拟变量并结合岭回归的预测框架。通过遗传算法对断点年份与正则化参数进行全局优化,有效提升了模型的拟合精度,并增强了政策变量的结构性解释力。与传统的时间序列模型、回归模型及机器学习方法相比,本文的方法在预测性能与政策可解释性之间实现了更优平衡。实验结果表明,1980~2019年训练集与2020~2022年样本外测试均验证了扩展模型的优越性,说明显式引入政策虚拟变量能够显著提升碳排放预测的稳健性与政策分析价值。
然而,本文仍存在局限性,即政策虚拟变量的设定主要依赖历史断点识别,未能充分结合政策文本与制度文件等非结构化信息进行量化。未来研究可在此基础上引入文本挖掘与自然语言处理方法,对政策变量进行更细致的量化处理。
综上,中国已成为全球碳排放量最高的国家,其对能源需求与环境可持续发展的影响日益受到广泛关注。对中国碳排放进行科学预测,不仅能够提前揭示未来能源需求与潜在环境压力,而且有助于优化和完善低碳发展政策。在此背景下,本文提出的兼顾预测精度与政策解释力的碳排放建模框架,为实现“双碳”目标下的科学预测与政策评估提供了有价值的方法论参考。
基金项目
2025年国家级大学生创新训练计划(202511117032)。
NOTES
*通讯作者。