基于注意力机制组合模型的全国碳价分析及预测

doi:10.12677/hjdm.2025.153018

期刊菜单

基于注意力机制组合模型的全国碳价分析及预测
National Carbon Price Analysis and Forecasting Based on Attention Mechanism Portfolio Modeling

DOI: 10.12677/hjdm.2025.153018, PDF, HTML, XML,
作者: 豪谕, 谷爱玲, 张荣森：广东工业大学数学与统计学院，广东广州
关键词: 皮尔逊相关系数；注意力机制；组合模型；Pearson Correlation Coefficient； Attention Mechanism； Combined Model

摘要: 碳排放权交易价格是碳交易市场的核心要素，为了帮助企业、投资者和政府优化碳市场参与行为，需要对碳排放权交易价格进行合理有效的预测。本文利用皮尔逊相关系数法(PCC)提取碳价关键影响因素，然后运用由Atrous Spatial Pyramid Pooling (ASPP)、以Sophia为优化器的LSTM模型和集成学习XGBoost模型组合而成，以及添加了基于注意力机制Efficient Multi-Scale Attention (EMA)的组合模型，对全国碳市场交易价格进行预测，并与单一模型对比，通过模型预测值的MSE值、RMSE值、MAE值和R²值对比预测精度，检验组合模型的有效性。对比结果表明：注意力机制组合模型的预测精度最高，是一种有效的且精度高的碳价预测模型。

Abstract: Carbon emission rights trading price is the core element of carbon trading market, in order to help enterprises, investors and governments optimize the carbon market participation behavior, it is necessary to make reasonable and effective prediction of carbon emission rights trading price. In this paper, the Pearson Correlation Coefficient (PCC) method is used to extract the key influencing factors of carbon price, and then a combination of Atrous Spatial Pyramid Pooling (ASPP), LSTM model with Sophia as the optimizer, and Integrated Learning XGBoost model is applied, as well as the addition of an attention-based mechanism Efficient Multi-Scale Attention (EMA) combined model to predict the trading price in the national carbon market, and compared with a single model to test the effectiveness of the combined model by comparing the prediction accuracy with the MSE, RMSE, MAE and R²values of the model prediction values. The comparison results show that the combined model of attention mechanism has the highest prediction accuracy and is an effective and highly accurate carbon price prediction model.

文章引用：豪谕, 谷爱玲, 张荣森. 基于注意力机制组合模型的全国碳价分析及预测[J]. 数据挖掘, 2025, 15(3): 213-227. https://doi.org/10.12677/hjdm.2025.153018

1. 引言

在全球气温逐渐变暖的环境下，减排已成为世界各国重点关注的核心问题。我国在实现减排问题上十分重视，2020年9月，习主席在联合国大会上发布了碳达峰和碳中和的“双碳”目标。碳排放权交易价格(简称“碳价”)是碳市场的核心要素，对碳价的准确预测，可以帮助企业和投资者规避风险，也可以帮助政府更好制定有效措施，使市场机制更好发挥减排作用。本文基于注意力机制组合模型预测全国碳排放权交易市场碳价的变化趋势，为政府和相关企业提供决策支持。

目前，国内外学者正积极从多个角度针对碳价的影响因素和预测模型进行相关研究。关于影响碳价的各种因素，Bredin和Muckley [1]利用2005年到2009年的欧盟碳价格分析了经济增长、能源价格和气候条件对碳价的影响。Piia等[2]用股票指数作为描述宏观经济形势的指标，发现碳价受宏观经济因素影响显著。张玲和曹峰[3]探讨了环境规制水平和地理距离对碳价的影响。姜瑜和吴哲宇[4]利用多元回归模型检验得出，金融市场、能源价格、空气质量、国际碳市场、技术进步等指标均与碳交易价格显著相关。王小燕等[5]针对广州碳市场碳价，用国际碳价、国内外经济指标、国外能源指标、国内能源指标、气候环境和宏观政策构建指标体系研究碳价影响因素。吴慧娟和张智光[6]研究了碳价的时间波动及区域差异与政策、经济与环保因素的关系。

关于碳价预测模型，现有碳价预测模型主要分两类：基于碳价历史数据的时间序列模型和基于碳价影响因素的机器学习模型。在时间序列分析模型方面，Zhang和Xu等[7]利用GARCH模型研究了深圳的碳交易市场，预测其碳价波动。Jiang和Wu [8]将碳价原始数据序列进行了分解，并采用ARIMA-RF集成模型对分解的碳价序列进行预测。王娜[9]运用Boosting-ARMA时间序列算法对欧盟碳期货价格进行预测。Zhu等[10]运用EMD-ARIMA-ADD模型对欧盟碳交易市场碳价实现了精准预测。在神经网络模型方面，金林等[11]用Lasso回归法对影响碳价变量开展筛选，并采用灰色BP神经网络预测碳价。Li等[12]以湖北碳市场碳价为实验目标，并选取三种能源价格为关键影响因素，采用LSTM模型对碳价进行预测。朱亮亮等[13]以全国碳市场碳价为研究对象，运用ARIMA模型、多项式回归算法和LSTM模型进行了预测，结果表明皮尔逊相关系数分析(PCC)-LSTM模型的精度相对较高。呼雪芳[14]对广东碳价序列运用CEEMDAN算法进行分解，并通过LSTM-LSTM-LGBM组合预测模型进行预测。高长征等[15]以湖北碳市场为研究对象，运用CEEMDAN算法对碳价原始序列进行分解，并通过Transformer模型实现了对碳价的预测。Wang等人[16]为克服风能频繁的局部波动，集成了自回归误差校正模型，进一步提升了预测的准确性。Xiaolu Du等[17]基于Lmdi分解和计量模型分析研究能源价格对碳排放权需求量的影响，并提出三点建议。Liu等[18]结合了时间卷积网络和注意力机制，利用双通道注意力模块来增强TCN处理序列内部依赖性的能力，提升了模型的预测精度。

通过上述文献可以发现，现在国内外在碳价预测领域已取得了相当的成果，但仍然有可以完善的地方：一方面，目前已有的成果大多以欧盟碳市场和我国的试点碳市场为研究对象，针对全国碳市场碳价预测的研究较少；另一方面，预测方法多为单一的预测模型，多种模型组合而成的组合预测模型较少。为了使研究对象更具有一般性，以及开拓更有效的预测，在考虑到碳价序列同时具有非线性和线性的特征的基础上，本文选取全国碳交易市场碳价作为研究对象，首先，通过皮尔逊相关系数法(PCC)确定碳价关键影响因素，而后通过结合多种先进技术，提升LSTM模型在复杂市场中预测价格的能力。LSTM被选用是因为其在处理时间序列数据上的优势，能够捕捉价格波动中的长期依赖关系。而加入Efficient Multi-Scale Attention (EMA)，可以让模型在多尺度上关注重要的市场信号，从短期趋势到长期变化，提高预测的准确性。Atrous Spatial Pyramid Pooling (ASPP)的引入，扩展了感受野，能够融合来自不同尺度的上下文信息，从而更全面地理解市场动态。使用Sophia优化器，则是为了加速训练过程，提升收敛速度，避免过拟合，并确保模型能够高效学习到有价值的特征。最后，通过XGBoost微调，进一步提升LSTM模型性能，提升整体的预测精度。

2. 碳价影响因素分析

我国碳价的影响因素主要从经济形势、金融市场、国际碳市场、化石能源价格、气候环境、其他因素这6大类指标分析[19]。

经济形势方面，本文选择沪深300指数和标准普尔500指数作为评价国内外经济形势的指标[20]。金融市场方面，本文选取Shibor和欧元、美元汇率作为评价金融市场的指标[21]。国际碳市场方面[22]，本文选取欧盟EUA碳交易期货价格作为评价国际碳市场的指标。化石能源价格[23]，本文选取动力煤收盘价、大庆原油现货价、LNG液化天然气市场价作为评价化石能源价格的指标。气候环境方面[24]，本文选取全国共31个省会城市及直辖市(除港澳台)的日平均气温和日平均空气质量指数作为评价气候环境的指标。其他因素方面，本文选取中证新能源指数作为评价新能源的指标以及“低碳”、“碳排放”和“碳交易”搜索指数作为评价搜索数据的指标。

所有数据均来自Wind数据库、Choice数据库、天气网和百度搜索指数。由于选取的数据来自不同网站，数据可能存在缺失，本文对缺失数据进行插值来补全交易数据完整性[25]。具体选取碳价影响因素见表1。

考虑到不同影响因素对碳价会有不同的影响程度[26]，因此除了对碳价影响因素进行分析外，本文采用皮尔逊相关系数法对表1中所选取的影响因素进行分析，并筛选出影响程度较高的几个变量作为预测的指标。

皮尔逊系数法可以度量两个变量之间的相关程度[27]，该方法一般用来挑选回归模型的输入变量，因此可以用该方法对关键影响因素进行筛选。被解释变量选取全国碳市场每日碳排放权交易价格的收盘价，研究收集了从2021年7月16日到2023年9月1日期间除去节假日外共518条全国碳市场成交日的价格数据。价格走势见图1。

采用皮尔逊相关系数法对前面提到的6类，共15个碳价影响因素进行相关性分析，结果见表2。

Table 1. Carbon price influences

表1. 碳价影响因素

类别	变量	数据来源
经济形势	沪深300指数标准普尔500指数	Wind数据库 Wind数据库
金融市场	Shibor 欧元汇率美元汇率	Wind数据库 Wind数据库 Wind数据库
国际碳市场	EUA期货价格	Wind数据库
化石能源价格	动力煤收盘价大庆原油现货价 LNG液化天然气市场价	Choice数据库 Choice数据库 Wind数据库
气候环境	日平均气温日平均空气质量指数	天气网天气网
其他因素	中证新能源指数 “低碳”搜索指数 “碳排放”搜索指数 “碳交易”搜索指数	Wind数据库百度搜索指数百度搜索指数百度搜索指数

Figure 1. National carbon market closing price

图1. 全国碳市场收盘价

数据表明，沪深300指数、美元汇率、EUA期货价格和中证新能源指数跟碳价呈现显著相关关系；标准普尔500指数、Shibor、大庆原油现货价、LNG液化天然气市场价、“碳排放”搜索指数跟碳价呈现低度相关关系；欧元汇率、动力煤收盘价、日平均气温、日平均空气质量指数、“低碳”搜索指数和

Table 2. Correlation analysis of influencing factors

表2. 影响因素相关性分析

影响因素	相关系数值	相关程度
沪深300指数	−0.704	显著负相关
标准普尔500指数	−0.34	低度负相关
续Shibor	−0.393	低度负相关
欧元汇率	0.013	微弱正相关
美元汇率	0.556	显著正相关
EUA期货价格	0.526	显著正相关
动力煤收盘价	−0.029	微弱负相关
大庆原油现货价	0.417	低度正相关
LNG液化天然气市场价	−0.318	低度负相关
日平均气温	0.259	微弱正相关
日平均空气质量指数	0.138	微弱正相关
中证新能源指数	−0.697	显著负相关
低碳搜索指数	−0.034	微弱负相关
碳排放搜索指数	−0.45	低度负相关
碳交易搜索指数	−0.29	微弱负相关

“碳交易”搜索指数跟碳价只有微弱相关关系。因此，本文选取沪深300指数、美元汇率、EUA期货价格和中证新能源指数这4个具有显著相关性的因素，然后加上碳价的开盘价、收盘价、最高价、最低价和成交量5个碳价市场基本特征共9个变量作为后续预测碳价模型的关键输入变量。

3. 模型概述

3.1. Sophia模型

为了增加模型训练时的稳定性，提高碳价预测精度，我们使用Sophia [28]来优化LSTM模型[29]训练时的参数。鉴于神经网络模型训练的成本，优化算法的微小的改进也能大幅减少训练所需的时间和成本。近些年来，Adam [30]及其变体一直是优化算法的佼佼者，而Adam复杂的二阶优化器训练成本过大。在本文中，我们使用Sophia，一种二阶裁剪随机优化算法，这是一种简单且可扩展的二阶优化器，它使用对角海森矩阵的轻量级估计作为预条件器。仅需极低开销即可实现参数维度的曲率自适应学习率缩放；其次，通过“梯度移动平均/海森估计+逐元素裁剪”的更新机制，在保留二阶信息的同时限制单步更新幅度，抑制非凸损失函数中的梯度突变与海森矩阵剧烈波动；最后，采用稀疏海森估计策略，仅间隔性更新二阶信息。Sophia每隔若干次迭代才估计一次对角海森矩阵，其平均每步的时间和内存开销可以忽略不计。

Sophia比Adam更能适应异质曲率，比牛顿法[31]更能抵抗非凸性和海森矩阵的快速变化，并且还使用了低成本的预条件器。我们用 $θ_{t}$ 表示时间步长t时的参数。在每一步中，我们从数据分布中抽取了一个小的批次，并计算这个批次的损失，记作 $L_{t} (θ_{t})$ ，用 $g_{t}$ 表示的梯度，即= $g_{t} = \nabla L_{t} (θ_{t})$ ，令 $m_{t}$ 为梯度的指数移动平均值，计算如下：

$m_{t} \leftarrow β_{t} m_{t - 1} + (1 - β_{1}) g_{t}$

Sophia采用基于对角海森矩阵的预条件器，该预条件器会根据不同参数维度的曲率直接调整其更新大小，为减少开销，我们每隔k步(k = 10)才估计一次海森矩阵。在时间步t且t mod k = 1 (即t除以k的余数为1)时，估计器返回一个估计值 h。与小批量损失函数的梯度类似，估计的对角海森矩阵也可能存在较大的噪声。受Adam中指数移动平均(EMA) [32]的启发，我们也在每次迭代中使用EMA对对角海森矩阵的估计值进行去噪。我们每k步更新一次EMA，从而得到对角海森矩阵估计值的如下更新规则：

$h_{t} = β_{2} h_{t - k} + (1 - β_{2}) {\hat{h}}_{t} if t \mod k = 1; else h_{t} = h_{t - 1}$

海森矩阵估计的不准确性和其沿轨迹的变化会使二阶信息不可靠。为此，我们仅考虑对角海森矩阵的正元素，并且在更新中引入逐坐标裁剪。对于裁剪阈值 $ρ > 0$ ，设裁剪函数为 $c l i p (z, ρ) = \max {\min {z, ρ}, - ρ}$ ，其中所有操作均按坐标分别进行。更新规则写为：

$θ_{t + 1} \leftarrow θ_{t} - η_{t} \cdot c l i p (m_{t} {γ \cdot h_{t}, ε}, 1)$

其中， $ε$ 是一个非常小的常数，用于避免除以0。且因为 $η_{t} \cdot c l i p (m_{t} / \max {γ \cdot h_{t}, ε}, 1) = (η_{t} / γ) \cdot c l i p (m_{t} / \max {h_{t}, ε / γ}, γ)$ ，所以我们实质上是按坐标对原始更新 $m_{t} / h_{t}$ 进行 $γ$ 范围内的裁剪，然后通过 $γ$ 因子重新调整最终的更新大小。这种重新调整使得更新的规模对 $γ$ 的依赖性降低，因为现在 $γ$ 只控制裁剪项的比例，而所有裁剪项最终都会在更新中被设置为0。

Sophia优化器综合了对角Hessian预条件器、EMA以及逐坐标裁剪的策略，既能灵活适应不同参数维度的异质曲率，又在非凸优化中对Hessian噪声和快速变化保持较高鲁棒性。它通过周期性地估计对角Hessian并使用EMA去噪，确保二阶信息更稳定；同时，采用裁剪操作将每个坐标的更新限制在一定范围内，并通过重参数化降低超参数 $γ$ 对更新尺度的直接影响，从而在降低计算开销的同时，有效防止异常更新，提升了碳价预测模型整体训练过程的稳定性和效率。我们在下表中给出了Sophia的伪代码如下：

Algorithm: Sophia

Input: $θ_{1}$ , learning rate ${η_{t}}_{t = 1}^{T}$ , hyperparameters $λ$ , $γ$ , $β_{1}$ , $β_{2}$ , $ε$ , and estimator choice Estimator ϵ{Hutchinson, Gauss-Newton-Bartlett}

Set $m_{0} = 0$ , $v_{0} = 0$ , $h_{1 - k} = 0$

for $t = 1$ to T do

Compute minibatch loss $L_{t} (θ_{t})$ .

Compute $g_{t} = \nabla L_{t} (θ_{t})$ .

$m_{t} = β_{1} m_{t - 1} + (1 - β_{1}) g_{t}$

If t mod k = 1 then

Compute ${\hat{h}}_{t}$ = Estimator( $θ_{t}$ )

$h_{t} = β_{2} h_{t - k} + (1 - β_{2}) {\hat{h}}_{t}$

else

$h_{t} = h_{t - 1}$

$θ_{t} = θ_{t} - η_{t} λ θ_{t}$ (weight decay)

$θ_{t + 1} = θ_{t} - η_{t} \cdot c l i p (m_{t} / \max {γ \cdot h_{t}, ε}, 1)$

return $θ_{t}$

3.2. Efficient Multi-Scale Attention (EMA)

由于碳价格预测受到多种因素的复杂相互作用的影响，为了提高预测碳价格趋势的准确性，在模型中引入注意力是必要的一步[33]。深度学习技术中，我们可以使用注意力机制增强网络对特征的提取能力，引导网络关注重点目标[34]。注意力机制已广泛应用于神经网络，显著提升了其性能。当前常见的注意力机制主要分为三种：通道注意力、空间注意力和混合注意力机制[35]。作为通道注意力的代表，Selective Attention (SE) [36]明确地对跨维度交互进行了建模，以提取通道级注意力。而后续的Convolutional Block Attention Module (CBAM) [37]在特征图的空间和通道维度之间建立了跨通道和跨空间信息的语义相互依赖关系。本文选用具有更高效的多尺度特征融合能力的EMA注意力，且因为并行子结构有助于网络出现过多的顺序处理和过大的深度，鉴于Coordinate Attention (CA) [38]所使用的并行处理操作，Efficient Multi-Scale Attention (EMA)模块[39]中采用了该策略。EMA的具体结构和思想如下：

对于输入时给定的碳价数据 $X \in R^{B \times C \times T}$ ，EMA将其分解为G个子特征，以学习不同语义特征，增加神经元感受野以收集多尺度空间信息[40]。EMA通过三条平行路线提取分组特征图的注意力权重描述符。由于碳价数据的维度与图像不同，EMA的两条并行路由位于1 × 1的一维卷积分支中，第三条支路由位于3 × 3的一维卷积分支中。在每个分组内，首先通过一维的自适应平均池化操作沿时间维度提取全局特征描述，用于捕获跨通道的全局信息[38]。随后，1 × 1分支对分组特征分别利用核大小为1 × 1一维卷积进行局部跨通道信息交互，并将卷积输出与全局描述 $x_{g}$ 逐元素相乘[41]；而3 × 3分支则采用核大小为3 × 3一维卷积来捕获更大感受野下的局部特征，同样与 $x_{g}$ 进行逐元素相乘，以实现全局与局部信息的融合。

接着进行与CA类似的处理，我们将两个编码特征在时间维度上连接起来，使其共享相同的一维卷积，而不会在一维卷积分支中进行降维。在将一维卷积的输出分解为两个向量后，采用两个非线性Sigmoid函数来拟合线性卷积的二维二项式分布[39]。为了在一维卷积分支中的两条平行路线之间实现不同的跨通道交互功能，我们通过简单的乘法将每组内的两个通道注意力图聚合在一起。对于另一边，采用3 × 3的一维卷积分支，通过捕获局部跨信道交互来扩大特征空间。这样，EMA不仅对通道间的信息进行编码以调整不同通道的重要性，而且将精确的时序结构信息保留到通道中。

最后，将1 × 1分支的两条路线与3 × 3分支输出相加，通过Softmax函数在时序维度上对融合后的特征进行归一化，生成注意力权重。该注意力权重随后与原始分组特征逐元素相乘，并最终将分组后的特征重构回原始尺寸[42]。这样，EMA不仅对各通道间的信息进行编码以调整不同通道的重要性，而且将精确的时序结构信息有效地保留并增强到通道特征中。通过上述过程，我们对碳价的长距离依赖关系进行建模，并将精确的位置信息嵌入到EMA中。融合不同尺度的上下文信息使神经网络模型能够对碳价数据产生更好的关注。

3.3. ASPP (Atrous Spatial Pyramid Pooling)

ASPP (Atrous Spatial Pyramid Pooling) [43]结合了空洞卷积(Atrous Convolution)和空间金字塔池化(Spatial Pyramid Pooling) [44]技术，旨在通过多尺度特征处理来增强模型对复杂上下文信息的捕捉能力，广泛应用于图像分割等任务。在处理碳价预测任务时，我们把2D ASPP中的卷积操作调整为1D卷积，目的是让模型能够适应时间序列数据，且为了提高ASPP (Atrous Spatial Pyramid Pooling)模型的灵活性，使用CondConv替换掉原本的普通卷积，在保证多尺度特征提取的同时，增强模型对碳价数据中关键时间模式的敏感性和泛化能力，这使得模型在处理时间序列预测任务时，表现出更强的能力，更适合处理碳价预测任务。

碳价格预测任务容易受短期波动和长期趋势的共同影响，单一时间窗口的模型可能忽略跨尺度的依赖关系。常规的MaxPool操作虽然能够提取碳价序列中的显著波动特征，但仅保留局部窗口内的最大值会导致其他关键信息的丢失，影响预测模型对价格的预测精度和长期趋势的建模能力。而且固定单一的卷积结构难以动态捕捉碳价序列中的多尺度细节，这会限制模型对碳价短期突变与长期结构性变化的联合表征能力。因此，我们尝试通过动态卷积与自适应池化操作，增强模型对碳价序列中局部扰动与全局趋势的协同建模能力。具体逻辑如下：

首先，输入的碳价格时间序列数据的形状为：[B, C, L]，B为批量大小，C为通道数，L为时间步长，对输入数据恩地每个通道进行全局平均池化处理，将整个时间维度的信息浓缩为一个向量。通过这一步我们对整个序列的统计信息进行一个初步的提取，方便后续捕捉长期趋势，对于每b个样本和每个通道c来说，全局平均池化可用下面的公式表示：

$y_{b, c} = \frac{1}{L} \sum_{i = 1}^{1} x_{b, c, i}$

在经过全局平均池化的初步处理后，我们将其分别输入至5条支路进行操作，为了提高模型的灵活性，在第一条支路我们选择使用动态卷积来代替常规大小的卷积，可以根据每个样本的全局特征动态生成卷积核，从而使得提取出的全局特征更加针对当前样本的特性，减少了固定卷积核可能带来的泛化不足。动态卷积预设了多个“专家”卷积核，每个专家都有一组固定参数，能够学习不同的特征模式。对于全局平均池化生成的向量，经过扁平化、dropout和全连接层生成路由权重：

$r_{c} = σ (W_{f c} \cdot dropout (flatten (x)))$

其中， $r = [r_{1}, r_{2}, \dots, r_{E}]$ 为长度为E(专家数量)的向量。 $σ$ 为激活函数。

接着对动态卷积核进行构造，给定每个专家的卷积核 $W_{e}$ ，动态卷积核K是各专家卷积核的加权和：

$K = \sum_{e = 1}^{E} r_{e} W_{e}$

最后使用生成的动态卷积核对输入进行卷积操作，得到输出特征：

$y = Conv (x, K)$

我们将这四条支路搭建为构建我们的池化金字塔。对于非动态卷积的支路，我们给定的该普通卷积一个膨胀因子D，叠加相应的空洞卷积层，提取不同尺度下的特征，空洞卷积可表示成如下公式：

$y [i] = \sum_{K}^{K - 1} x [i + D \cdot k] \cdot ω [k]$

其中， $y [i]$ 表示输出在位置i的值，x是输入， $ω [k]$ 是卷积核的第k个权重，K是卷积核的大小。

最后对各支路的输出叠加后，并通过输出层的CondConv→BN→ReLU→Dropout降维至给定通道数。通过使用CondConv替换掉原本的普通卷积，在保证多尺度特征提取的同时，增强模型对碳价数据中关键时间模式的敏感性和泛化能力，得到最终结果。

通过上述操作，空洞空间卷积金字塔池化能够有效地捕捉输入序列中的全局趋势与局部细节。它首先通过全局池化提取全局统计信息，再利用条件卷积生成针对每个样本定制化的卷积核；同时，多尺度空洞卷积以不同膨胀率捕捉多尺度特征，最后自适应融合各分支信息，从而兼顾长期趋势与短期波动，显著提升碳价预测任务的鲁棒性与精度。

3.4. 模型的构建

关于碳价预测模型，本文构建了一个复合模型用于碳价预测。以优化器为Sophia的LSTM模型，引入了Efficient Multi-Scale Attention (EMA)和Atrous Spatial Pyramid Pooling (ASPP)模块，最后结合集成学习XGBoost。LSTM用于捕捉时间序列数据中的长期依赖；EMA增强了模型在多尺度上的特征关注；ASPP能够有效地捕捉输入序列中的全局趋势与局部细节，扩展了感受野；而XGBoost则用于微调和提升预测精度。利用全国碳市场收盘价数据，搭建组合预测模型来预测碳价未来值，具体预测流程见图2。

Figure 2. Combined model prediction flowchart

图2. 组合模型预测流程图

原始数据序列共有9个维度，分别是全国碳市场开盘价、收盘价、最高价、最低价、成交量、沪深300指数、美元汇率、EUA期货价格和中证新能源指数。实验采用了Pytorch框架，并部署了相关的预测模型，其中优化算法采用的Sophia算法，Sophia算法比传统的优化算法具有更好的训练效果。数据按照7:3的比例划分成训练集和测试集。

具体训练过程中，数据序列经过ASPP模块预处理后，输入到基于序列到序列的基于注意力机制EMA以Sophia为优化器的LSTM (EMA-Sophia-LSTM)模型，其中基于注意力机制EMA是编码器，基于注意力机制EMA的并行子结构有助于网络出现过多的顺序处理和过大的深度，可以捕获LSTM模型可能无法捕获的特征，而LSTM模型是解码器，可以更好地描述时间序列特性。数据序列首先会输入基于注意力机制EMA模型，学习当前局部序列特征的重要程度，然后输入LSTM模型，在LSTM模型中，采用10天滞后的时间窗口进行滚动预测，由LSTM模型对长期序列进行学习，更全面地刻画时序数据。

而后进入了XGBoost微调，解码后，也即得到了经过机器学习模型预测的碳价序列，此时再将数据序列输入XGBoost模型。XGBoost模型集成了多个决策树模型，通过迭代树模型来改进预测能力。将机器学习模型预测后得到的碳价序列输入到XGBoost模型中，可以视为进行二次预测或微调，这样做结合了两种模型的优点，可以捕捉到更多信息和模式，最终得到预测结果。

组合模型以碳价收盘价作为输出结果，对比实际全国碳市场收盘价实际价格，以均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)和R²值作为量化模型效果的指标。MSE、RMSE、MAE值越小，R²值越大，表示模型的预测效果更好。

4. 实验与分析

4.1. 实验过程

为了验证上述复合模型(ASPP-EMA-LSTM-XGBoost)的准确性，本文分别对比了LSTM模型、ASPP-LSTM模型、EMA-LSTM模型、Sophia-LSTM模型以及LSTM-XGBoost的表现。通过这些对比，可评估每个组件对模型性能的影响，并验证最终复合模型的优越性。

4.2. 实验结果与分析

为了验证组合模型有效性，本文还选取了组合模型的单一模型LSTM及与LSTM单一组合模块模型，即LSTM模型、ASPP-LSTM模型、EMA-LSTM模型、Sophia-LSTM模型以及LSTM-XGBoost作为对比模型，以模型的MSE值、RMSE值、MAE值和R²值作为评判模型优劣的标准。预测模型的结果见下图3~图8。

模型预测的性能指标见表3。

Figure 3. LSTM model prediction results

图3. LSTM模型预测结果

Figure 4. ASPP-LSTM model prediction results

图4. ASPP-LSTM模型预测结果

Figure 5. EMA-LSTM model prediction results

图5. EMA-LSTM模型预测结果

Figure 6. Sophia-LSTM model prediction results

图6. Sophia-LSTM模型预测结果

Figure 7. LSTM-XGBoost model prediction results

图7. LSTM-XGBoost模型预测结果

Figure 8. Combined model prediction results

图8. 组合模型预测结果

对比模型预测性能指标可以发现：(1) 组合模型的MSE、RMSE和MAE值均小于其余五个模型，这说明组合模型相较单一模型可以更好地减低模型的预测误差；(2) 组合模型的R²值较LSTM模型提高了29.74%，较EMA-LSTM模型提高了17.31%，较ASPP-LSTM模型提高了21.98%，较Sophia-LSTM模型提高了16.14%，较LSTM-XGBoost模型提高了20.88%。这说明组合模型的预测准确率要优于单一模型，由此表明了组合模型的有效性，以及组合模型较单一模型的预测优势。

Table 3. Model performance evaluation metrics

表3. 模型性能评价指标

模型	MSE	RMSE	MAE	R²
LSTM	0.0150	0.1225	0.0989	0.7032
LSTM + EMA	0.0112	0.1058	0.0866	0.7777
LSTM + ASPP	0.0127	0.1127	0.0952	0.7479
LSTM + Sophia	0.0108	0.1039	0.0838	0.7855
LSTM + XGBoost	0.0124	0.1114	0.0923	0.7547
组合模型	0.0044	0.0663	0.0476	0.9123

Figure 9. Error analysis of combinatorial models

图9. 组合模型的误差分析

组合模型的误差分析如图9。

图9为组合模型的误差分析。分别展示了模型在4次运行中的表现。尽管每次运行时误差分布有所波动，但总体来看误差值大多集中在零附近，且分布形态保持一致。这种波动性是许多机器学习模型包含随机成分时的常见现象。因此，误差的波动并不意味着模型不可靠，反而体现了其鲁棒性。这表明，尽管存在一定的随机性，模型的预测能力在不同实验之间是稳定的。

5. 结论

本文选取全国碳市场的碳价作为研究对象，首先从理论分析碳价的影响因素，然后采用皮尔逊相关系数法提取碳价关键影响要素，对比组合模型及其单一模型LSTM及与LSTM单一组合模块模型，即LSTM模型、ASPP-LSTM模型、EMA-LSTM模型、Sophia-LSTM模型以及LSTM-XGBoost作为对比模型，通过MSE、RMSE、MAE和R²指标检验预测效果，以及对组合模型的误差分析发现注意力机制组合模型具有更高的预测准确率，表明了组合模型的有效性以及较单一预测模型的实用性。

参考文献

[1]	Bredin, D. and Muckley, C. (2011) An Emerging Equilibrium in the EU Emissions Trading Scheme. Energy Economics, 33, 353-362. [Google Scholar] [CrossRef]
[2]	Aatola, P., Ollikainen, M. and Toppinen, A. (2013) Price Determination in the EU ETS Market: Theory and Econometric Analysis with Market Fundamentals. Energy Economics, 36, 380-395. [Google Scholar] [CrossRef]
[3]	张玲, 曹峰. 环境规制对碳交易价格波动的影响分析[J]. 价格月刊, 2023(1): 1-7.
[4]	姜瑜, 吴哲宇. 我国碳排放权交易价格影响因素回归分析[J]. 环境与可持续发展, 2021, 46(1): 77-83.
[5]	王小燕, 周思敏, 徐晓莉, 等. 基于图结构自适应Lasso的碳排放权价格影响因素分析[J]. 统计与信息论坛, 2022, 37(4): 73-83.
[6]	吴慧娟, 张智光. 城市碳价的时空特征及其形成机理的理论模型——基于8个地区碳交易试点的价格数据[J]. 现代城市研究, 2021, 36(1): 19-24.
[7]	Zhang, J. and Xu, Y. (2020) Research on the Price Fluctuation and Risk Formation Mechanism of Carbon Emission Rights in China Based on a GARCH Model. Sustainability, 12, Article 4249. [Google Scholar] [CrossRef]
[8]	Jiang, L. and Wu, P. (2016) International Carbon Market Price Forecasting Research Based on ARIMA-RF Model. Proceedings of the 2016 International Conference on Strategic Management, Sichuan, November 2015, 1089-1092.
[9]	王娜. 基于Boosting-ARMA的碳价预测[J]. 统计与信息论坛, 2017, 32(3): 28-34.
[10]	Zhu, B., Han, D., Wang, P., Wu, Z., Zhang, T. and Wei, Y. (2017) Forecasting Carbon Price Using Empirical Mode Decomposition and Evolutionary Least Squares Support Vector Regression. Applied Energy, 191, 521-530. [Google Scholar] [CrossRef]
[11]	金林, 马忠芸, 王红红. 基于灰色BP神经网络碳排放交易价格预测[J]. 河北环境工程学院学报, 2020, 30(1): 27-32, 41.
[12]	Li, H., Huang, X., Zhou, D., Cao, A., Su, M., Wang, Y., et al. (2022) Forecasting Carbon Price in China: A Multimodel Comparison. International Journal of Environmental Research and Public Health, 19, Article 6217. [Google Scholar] [CrossRef] [PubMed]
[13]	朱亮亮, 肖楚鹏, 余梦, 等. 基于PCC-LSTM模型的全国碳排放权交易价格预测研究[J]. 环境保护科学, 2023, 49(5): 55-62, 129.
[14]	呼雪芳. 基于CEEMDAN分解的碳交易价格组合预测模型研究[D]: [硕士学位论文]. 广州: 华南理工大学, 2021.
[15]	高长征, 李东伟, 王秀娜, 等. 利用智能机器学习方法对区域碳排放权交易价格预测研究——基于湖北碳市场数据的分析[J]. 价格理论与实践, 2022(4): 89-93, 205.
[16]	Wang, J., Zhu, H., Cheng, F., Zhou, C., Zhang, Y., Xu, H., et al. (2023) A Novel Wind Power Prediction Model Improved with Feature Enhancement and Autoregressive Error Compensation. Journal of Cleaner Production, 420, Article 138386. [Google Scholar] [CrossRef]
[17]	Du, X., Sun, Y., Zhang, X. and Zhang, R. (2023) Research on the Impact of Energy Price on Carbon Emission Intensity of China—An Empirical Study Based on LMDI Decomposition and Econometric Models. Sustainability, 15, Article 8528. [Google Scholar] [CrossRef]
[18]	Liu, H., Zhao, T., Wang, S. and Li, X. (2023) A Stock Rank Prediction Method Combining Industry Attributes and Price Data of Stocks. Information Processing & Management, 60, Article 103358. [Google Scholar] [CrossRef]
[19]	洪涓, 陈静. 我国碳交易市场价格影响因素分析[J]. 价格理论与实践, 2009(12): 65-66.
[20]	Ge, Q. (2025) Enhancing Stock Market Forecasting: A Hybrid Model for Accurate Prediction of S&P 500 and CSI 300 Future Prices. Expert Systems with Applications, 260, Article 125380. [Google Scholar] [CrossRef]
[21]	Galati, G. and Ho, C. (2003) Macroeconomic News and the Euro/Dollar Exchange Rate. Economic Notes, 32, 371-398. [Google Scholar] [CrossRef]
[22]	Arlinghaus, J. (2015) Impacts of Carbon Prices on Indicators of Competitiveness: A Review of Empirical Findings. OECD Environment Working Papers 87, OECD Publishing.
[23]	Sun, C., Ding, D., Fang, X., Zhang, H. and Li, J. (2019) How Do Fossil Energy Prices Affect the Stock Prices of New Energy Companies? Evidence from Divisia Energy Price Index in China’s Market. Energy, 169, 637-645. [Google Scholar] [CrossRef]
[24]	Hambling, T., Weinstein, P. and Slaney, D. (2011) A Review of Frameworks for Developing Environmental Health Indicators for Climate Change and Health. International Journal of Environmental Research and Public Health, 8, 2854-2875. [Google Scholar] [CrossRef] [PubMed]
[25]	Pratama, I., Permanasari, A.E., Ardiyanto, I. and Indrayani, R. (2016) A Review of Missing Values Handling Methods on Time-Series Data. 2016 International Conference on Information Technology Systems and Innovation (ICITSI), Bandung, 24-27 October 2016, 1-6. [Google Scholar] [CrossRef]
[26]	Ji, C., Hu, Y. and Tang, B. (2018) Research on Carbon Market Price Mechanism and Influencing Factors: A Literature Review. Natural Hazards, 92, 761-782. [Google Scholar] [CrossRef]
[27]	Abounaima, M.C., Mazouri, F.Z.E., Lamrini, L., Nfissi, N., Makhfi, N.E. and Ouzarf, M. (2020) The Pearson Correlation Coefficient Applied to Compare Multi-Criteria Methods: Case the Ranking Problematic. 2020 1st International Conference on Innovative Research in Applied Science, Engineering and Technology (IRASET), Meknes, 16-19 April 2020, 1-6. [Google Scholar] [CrossRef]
[28]	Liu, H., Li, Z., Hall, D., et al. (2023) Sophia: A Scalable Stochastic Second-Order Optimizer for Language Model Pre-training. arXiv:2305.14342.
[29]	Hochreiter, S. and Schmidhuber, J. (1997) Long Short-Term Memory. Neural Computation, 9, 1735-1780. [Google Scholar] [CrossRef] [PubMed]
[30]	Kingma, D.P. and Ba, J. (2014) Adam: A Method for Stochastic Optimization. arXiv:1412.6980.
[31]	Galántai, A. (2000) The Theory of Newton’s Method. Journal of Computational and Applied Mathematics, 124, 25-44. [Google Scholar] [CrossRef]
[32]	Klinker, F. (2011) Exponential Moving Average versus Moving Exponential Average. Mathematische Semesterberichte, 58, 97-107. [Google Scholar] [CrossRef]
[33]	Wang, Y., Qin, L., Wang, Q., Chen, Y., Yang, Q., Xing, L., et al. (2023) A Novel Deep Learning Carbon Price Short-Term Prediction Model with Dual-Stage Attention Mechanism. Applied Energy, 347, Article 121380. [Google Scholar] [CrossRef]
[34]	Lin, X., Zhu, X., Feng, M., Han, Y. and Geng, Z. (2021) Economy and Carbon Emissions Optimization of Different Countries or Areas in the World Using an Improved Attention Mechanism Based Long Short Term Memory Neural Network. Science of The Total Environment, 792, Article 148444. [Google Scholar] [CrossRef] [PubMed]
[35]	Niu, Z., Zhong, G. and Yu, H. (2021) A Review on the Attention Mechanism of Deep Learning. Neurocomputing, 452, 48-62. [Google Scholar] [CrossRef]
[36]	Johnston, W.A. and Dark, V.J. (1986) Selective Attention. Annual Review of Psychology, 37, 43-75. [Google Scholar] [CrossRef]
[37]	Woo, S., Park, J., Lee, J. and Kweon, I.S. (2018) CBAM: Convolutional Block Attention Module. In: Ferrari, V., Hebert, M., Sminchisescu, C. and Weiss, Y., Eds., Lecture Notes in Computer Science, Springer International Publishing, 3-19. [Google Scholar] [CrossRef]
[38]	Hou, Q., Zhou, D. and Feng, J. (2021) Coordinate Attention for Efficient Mobile Network Design. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 20-25 June 2021, 13708-13717. [Google Scholar] [CrossRef]
[39]	Ouyang, D., He, S., Zhang, G., Luo, M., Guo, H., Zhan, J., et al. (2023) Efficient Multi-Scale Attention Module with Cross-Spatial Learning. ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, 4-10 June 2023, 1-5. [Google Scholar] [CrossRef]
[40]	Li, X., Hu, X. and Yang, J. (2019) Spatial Group-Wise Enhance: Improving Semantic Feature Learning in Convolutional Networks. arXiv:1905.09646.
[41]	Liu, T., Luo, R., Xu, L., Feng, D., Cao, L., Liu, S., et al. (2022) Spatial Channel Attention for Deep Convolutional Neural Networks. Mathematics, 10, Article 1750. [Google Scholar] [CrossRef]
[42]	Chen, Y., Kalantidis, Y., Li, J., et al. (2018) A²-Nets: Double Attention Networks. Proceedings of the 32nd International Conference on Neural Information Processing Systems, Montréal, 3-8 December 2018, 350-359.
[43]	Chen, L., Papandreou, G., Kokkinos, I., Murphy, K. and Yuille, A.L. (2018) Deeplab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40, 834-848. [Google Scholar] [CrossRef] [PubMed]
[44]	He, K., Zhang, X., Ren, S. and Sun, J. (2015) Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37, 1904-1916. [Google Scholar] [CrossRef] [PubMed]

为你推荐

友情链接