1. 引言
全球气候变暖背景下,国际能源署(IEA)数据显示2023年全球碳排放量达36.8亿吨历史峰值,IPCC第六次评估报告(AR6)指出地球表面温度较工业革命前升高1.1℃,若维持当前排放趋势,2040年前将突破《巴黎协定》1.5℃控温阈值。中国作为全球最大碳排放国,“双碳”目标(2030年前碳达峰、2060年前碳中和)的实现需依托对区域排放特征的精准认知与未来趋势的科学预测。
中国碳排放数据具有“高维、非线性、时空异质”特征:CEADs数据库显示,全国30个省份的碳排放关联经济、能源、社会等47个行业维度,存在显著多重共线性。传统研究多采用线性回归或ARIMA模型,难以处理高维数据冗余与非线性时序特征;同时,区域间产业结构(如东部高技术产业vs中西部重工业)、能源结构(如北方煤炭依赖vs南方水电占比)差异显著,亟需差异化治理方案。
现有碳排放研究:国内研究侧重实证分析,但多依赖单一模型,缺乏高维数据系统解构[1] [2];国外研究多采用复杂系统模型,但较少结合深度学习捕捉时序非线性特征。
综上,现有研究存在“方法单一化、区域分类粗放化、预测未解耦时序特征”的缺口,本文通过HP-LSTM填补这一空白。数据主要来源于CEADs [3]-[7]。
2. 模型搭建与预测评价
2.1. LSTM模型理论基础
长短期记忆网络(Long Short-Term Memory, LSTM) [8]作为循环神经网络(Recurrent Neural Network, RNN)的特殊变体,通过引入门控机制有效解决了传统RNN在处依赖时的梯度消失/爆炸问题。其核心结构包含三个关键门控单元:
遗忘门(Forget Gate):决定细胞状态中需要保留或遗忘的信息,数学表达式为:
(1)
输入门(Input Gate):控制当前时刻新信息的更新量,数学表达式为:
(2)
(3)
输出门(Output Gate):调节细胞状态对外输出的信息量,数学表达式为:
(4)
(5)
其中,σ表示sigmoid激活函数,W为权重矩阵,b为偏置项。
2.2. HP-LSTM模型结构设计与超参数设置
为提升模型对碳排放时序数据的拟合与预测能力,本文构建了HP-LSTM模型,分别对HP滤波分解后的趋势成分与周期成分进行建模预测。同时趋势LSTM训练和周期LSTM训练epoch = 2000,优化器使用Adam,学习率0.001。模型结构及超参数设置如下表1,表2:
Table 1. TrendLSTM network configuration
表1. TrendLSTM网络结构
模块名称 |
输入大小(特征维度) |
输出大小(特征维度) |
LSTM (堆叠一层) + Dropout (0.3) |
1 |
128 |
FC + ReLU |
128 |
64 |
FC + ReLU |
64 |
32 |
FC |
32 |
16 |
FC |
16 |
1 |
Table 2. CycleLSTM network architecture
表2. CycleLSTM网络结构
模块名称 |
输入大小 |
输出大小 |
LSTM (堆叠四层) + Dropout (0.1) |
1 |
64 |
FC + ReLU |
64 |
32 |
FC + ReLU |
32 |
16 |
FC |
16 |
1 |
2.3. 时间序列分解方法
因CO2排放量时间序列包含长期趋势(工业化进程、能源结构转型)与短期波动(经济周期、政策冲击)。故对模型进行HP滤波[9]。HP滤波通过最优化问题
(6)
(7)
将原始序列分解为趋势成分
和周期成分
。本文所使用的数据为Y = [3053.31, 3225.16, 3517.78, ∙∙∙, 10529.39, 10897.74, 10966.96]共21个数据点,建立HP滤波方程:
定义二阶差分矩阵D为:
其中目标函数可以表示为:
(8)
对
进行求导并令导数为零可以得到:
(9)
(10)
将Y代入同时取
[10]最终得到了趋势成分
将
代入
得到对应的
,经过HP滤波后的图像以及对应的波动如图1所示:
Figure 1. Decomposition of CO2 emissions
图1. CO2排放量的分解
其中每个年份对应的HP滤波后的数据如表3所示:
Table 3. Data after HP Filtering (Unit: 10,000 tons)
表3. HP滤波后数据(单位:万吨)
年份 |
CO2排放量(原始) |
|
c |
2000 |
3053.31 |
2824.03 |
229.28 |
2001 |
3225.16 |
3233.19 |
−8.03 |
2002 |
3517.78 |
3677.63 |
−159.85 |
2003 |
3882.92 |
4191.37 |
−308.45 |
2004 |
4714.92 |
4783.88 |
−68.96 |
2005 |
5567.01 |
5417.14 |
149.87 |
2006 |
6197.89 |
6042.53 |
155.36 |
2007 |
6822.27 |
6634.49 |
187.78 |
2008 |
7205.22 |
7191.37 |
13.85 |
2009 |
7178.90 |
7740.40 |
−561.50 |
2010 |
8366.84 |
8310.92 |
55.92 |
2011 |
8859.29 |
8845.93 |
13.36 |
2012 |
9742.70 |
9297.00 |
445.70 |
2013 |
9778.95 |
9617.77 |
161.18 |
2014 |
9903.30 |
9830.43 |
72.87 |
2015 |
9831.56 |
9981.98 |
−150.42 |
2016 |
9918.46 |
10130.64 |
−212.18 |
2017 |
10172.43 |
10311.48 |
−139.05 |
2018 |
10529.39 |
10526.91 |
2.48 |
2019 |
10897.94 |
10757.99 |
139.95 |
2020 |
10966.96 |
10986.12 |
−19.16 |
可以看到在2009年时出现了最大的波动且为负值,受全球金融危机影响,我国整体发展受到影响导致CO2排放量下降,也从侧面证明了HP滤波可以有效的提前显示出受某些因素影响的波动(如金融危机,政策影响)。
2.4. 数据处理
在趋势成分数据上选择Z-score标准化,周期成分数据标准化选择MinMax归一化(−1~1),Z-score标准化公式为:
。其中
为2000~2020年30个省份的排放数据的均值,
为其标准差。
MinMax归一化,数学公式为:
,在分离出的周期成分明显围绕零值上下震荡,归一化到[−1, 1]可强化正负半周的对称特征。
不同周期的波动幅度差异被压缩,模型更易捕捉波形模式而非绝对波动量级,以此为基础搭建LSTM模型进行训练与预测,采用自回归的方式预测2021~2060年的数据用于测试模型的泛化能力。
选择5年作为滑动窗口创建数据集,趋势成分与周期成分预测使用相同模型结构,使用均方误差损失函数(MSELoss),优化器选择Adam,使用在训练过程中验证损失最小的模型对我国2021~2060年的碳排放进行预测,预测形式采用自回归模型。图2是该模型对未来的预测和训练以及验证时的预测值与真实值的对比。
Figure 2. Comparison of actual and predicted values for HP + LSTM model
图2. HP + LSTM真实值预测值的对比
同时根据该模型预测结果,在2030年左右我国的碳排放确实没能达到承诺在2030年达到碳顶峰的要求,受到疫情原因模型预测增长缓慢,直到2030年在该模型上依旧为增长态势,则实际意义更是如此,因此我国在节能减碳的政策依旧要加大力度。
Figure 3. Trend component chart of the production and supply of electricity, steam and hot water
图3. 电力、蒸汽和热水的生产和供应趋势成分图
在对全国47个行业的分析中,通过对电力、蒸汽和热水的生产和供应的经过HP滤波后,如图3为电力、蒸汽和热水的生产和供应经HP滤波后的趋势成分,发现其趋势成分依旧为不断增大,且对CO2的排放的做主要贡献源头,以2019年和2020年为例子分别占有:51.63%以及52.42%,因此针对这一部分的行业要重点减排。
2.5. 省级区域HP分解预测与评价
将30个省份的原始数据进行HP滤波分解。
从结果上来看各省市的CO2排放与城市群分布以及地理邻近性有较大关系,京津冀城市表现为排放总量共同增长以及河北省增速不断增大,长三角城市群以上海市作为中心城市进行产业升级,成渝地区则开始与周边省市排放量同步下降,长江中下游地区呈现增长态势[11],东北地区辽宁增长迅猛,从分类上来看,在趋势成分的分析中将这30个省份分为三类,第一类为已经达到CO2排放顶峰型,第二类为趋势增长缓慢型,第三类为持续增长型,如下表4所示:
Table 4. Classification of HP trend components
表4. HP趋势成分分类
类型 |
代表省份 |
CO2排放顶峰型 |
北京、上海、河南、吉林、四川等 |
趋势增长缓慢型 |
安徽、湖南、贵州、黑龙江、海南等 |
持续增长型 |
福建、新疆、广东、河北、山西等 |
使用HP + LSTM模型对第二类与第三类省份进行CO2排放的预测,结果显示:河北、江西、宁夏、重庆,这些省份的预测如图4所示均不能在2030年前达到CO2排放顶峰,针对这些省份相较于全国碳排放的政策制定上要更有力度。建议制定差异化奖罚制度以控制排放,同时要结合省份特征如(河北的产业结果,宁夏的能源结构)合理制定措施。
Figure 4. Forecast chart of four provinces
图4. 四个省份预测图
3. 模型对比
以2000~2020年作为数据样本,选择ARIMA [12] (1, 1, 1)作为模型来对原始时间序列进行预测,最终得到的图5如下所示:
Figure 5. Forecast of ARIMA
图5. ARIMA的预测
可以看到验证预测部分明显偏离真实数据,导致了R2的下降以及MAE的增加,该模型针对2000~2020年30个省份CO2总的排放数据泛化能力极差,而且通过该模型对未来的预测来看,我国的碳排放将一直不断增加直到2060年但在2020年之前我国已经有相关的减排政策而且随着时间的推进成效越来越大,可见ARIMA模型的预测结果并不准确,因此传统的ARIMA模型基于历史的CO2排放数据仅能对时间规律进行探讨无法捕捉潜在的因子,具有一定的局限性。
4. 政策建议
差异化治理策略:高排放区域需聚焦产业结构优化与技术升级,中西部省份应推动农业与工业协同低碳发展。
动态监测机制:结合模型预测结果建立碳排放动态预警系统,及时调整政策响应。
基金项目
2025年辽宁省大学生创新创业训练计划项目经费支持,项目编号S202510146040。