基于两阶段多变点估计对动力煤价格的实证分析

doi:10.12677/pm.2025.151033

期刊菜单

基于两阶段多变点估计对动力煤价格的实证分析
Empirical Analysis of Thermal Coal Price Based on Two-Stage Multiple Change-Point Estimation

DOI: 10.12677/pm.2025.151033, PDF, HTML, XML, 科研立项经费支持
作者: 安子祯, 董翠玲^*：新疆师范大学数学科学学院，新疆乌鲁木齐
关键词: 变量选择；多变点；线性回归模型；动力煤；Variable Selection； Multiple Change-Point； Linear Regression Model； Thermal Coal

摘要: 将变量选择技术应用到变点估计中可以同时得到多变点数量和位置的估计结果，大大降低了计算复杂度。文章首先介绍了两阶段多变点检测与估计方法的基本概念，以2021年12月22日至2024年11月6日的秦皇岛动力煤价格作为研究对象，并对其中的训练集建立线性回归模型。其次，利用此变点估计方法估计线性回归模型中系数的多变点，根据变点个数和位置的估计结果建立更精准的分段线性回归模型，并运用最后一个子段的线性回归模型对测试集进行短期预测。实证结果表明，分段线性回归模型能更精准地刻画和预测秦皇岛动力煤价格的走势。

Abstract: Applying variable selection techniques to multiple change-point estimation can yield estimates of the number and location of multiple change-point at the same time, significantly reducing computational complexity. The article first introduces the basic concepts of two-stage multiple change-point detection and estimation methods, takes Qinhuangdao thermal coal prices from December 22, 2021 to November 6, 2024 as the research object, and builds a linear regression model for the training set therein. Secondly, this change-point estimation method is utilized to estimate the multiple change-point of the coefficients in the linear regression model, establish more accurate segmented linear regression modeling based on the estimation of the number and location of change-point, and apply the linear regression model of the last subsection to make short-term predictions about the test set. The empirical results show that the segmented linear regression model can more accurately portray and predict the trend of Qinhuangdao thermal coal prices.

文章引用：安子祯, 董翠玲. 基于两阶段多变点估计对动力煤价格的实证分析[J]. 理论数学, 2025, 15(1): 302-310. https://doi.org/10.12677/pm.2025.151033

1. 引言

变点是一种广泛存在于自然界和人类社会的现象，经济政策的改变、突发事件、自然灾害等原因都可能导致模型的结构发生变化，现实中数据符合的模型结构通常不具有稳定性，在进行统计建模之前进行变点的检测与估计可以帮助我们建立更精准的模型。变点问题自1954年由统计学家Page (1954) [1]在质量控制领域提出后，其理论研究和应用不断发展，还被广泛应用于气象学[2]、金融学[3]和医学[4]等多个领域。利用变量选择方法检测和估计变点是目前十分流行且有效的方法。Jin等(2011) [5]通过分割数据并引入一个特殊的设计矩阵将多变点检测与高维线性回归模型的变量选择联系起来，利用极小极大凹惩罚(Minimax Concave Penalty, MCP)和带平滑削边绝对偏离法(Smoothly Clipped Absolute Deviation, SCAD)检测分段平稳自回归过程(Piecewise Stationary Autoregressive Process, PSAR)中的多变点。Jin等(2016) [6]提出了一种快速且精准的两阶段方法，应用MCP、SCAD、最小绝对值收敛(Least Absolute Shrinkage and Selection Operator, LASSO)和自适应Lasso (Adaptive Lasso)四种变量选择方法检测线性回归模型中的多变点。Sun和Wu (2020) [7]针对广义线性回归模型提出了一种两阶段多变点估计方法，并证明了估计量的相合性。吕丽和金百锁(2021) [8]基于两阶段多变点估计方法，应用随机加权自助法结合高斯混合模型得到线性回归模型中多变点的置信区间。

煤炭是中国能源的重要组成部分，动力煤是煤炭的一个重要类型，在电力、钢铁、建材和化工方面都起着重要作用。近些年，国内学者对于动力煤价格的分析与预测做了大量研究，唐静和王艳洁等(2024) [9]利用长短期记忆网络(Long Short Term Memory, LSTM)模型结合混合核密度估计方法给出了煤炭价格指数的波动区间以及概率评估，并利用环渤海动力煤价格验证了所提方法的有效性。赵修茗等(2020) [10]通过建立向量自回归(Vector Autoregression, VAR)模型研究动力煤期货价格与其影响因素的动态关系，得到了动力煤期货价格与煤炭行业失业率呈负相关的结论。云小鹏(2018) [11]从统计学和煤炭产业两个角度解释了动力煤价格的波动。刘威等(2020) [12]建立了时间序列模型、多元线性回归模型和神经网络模型，通过多种模型结合实现了秦皇岛动力煤价格的预测。本文选取2021年12月22日至2024年11月6日的秦皇岛动力煤价格作为研究对象，对其中的训练集建立线性回归模型，并利用两阶段多变点检测与估计方法估计回归系数的多变点，建立了更精准的分段线性回归模型来刻画和预测秦皇岛动力煤价格的走势。

2. 两阶段多变点检测与估计方法的介绍

Jin等(2016) [6]针对线性回归模型提出了两阶段多变点检测方法，第一阶段是分割阶段(cutting stage)，将数据序列分割为 $p_{n} + 1$ 段，该分割方法降低了变点估计的计算复杂度，并通过引入一个特殊的设计矩阵将线性回归模型的变点检测问题转化为高维线性回归模型的变量选择问题，利用MCP、SCAD、Lasso和自适应Lasso方法得到高维线性回归模型中回归系数的估计量。第二阶段是精炼阶段(refining stage)，基于拟似然比检验确定分割数据中准确的变点位置，并证明了变点个数估计和位置估计的相合性，具体如下：

Jin等考虑一个含有s个变点的线性回归模型，其中 $s \geq 2$ ， $1 < a_{1} < \dots < a_{s} < n$ ，模型如下[6]：

$\begin{matrix} y_{i} = \sum_{j = 1}^{q} x_{i, j} β_{j, 0} + \sum_{l = 1}^{s} \sum_{j = 1}^{q} x_{i, j} δ_{j, 0} I (a_{l} < i \leq n) + ε_{i} \\ = x_{i}^{T} [β_{0} + \sum_{l = 1}^{s} δ_{l} I (a_{l} < i \leq n)] + ε_{i}, i = 1, \dots, n \\ = {\begin{array}{l} x_{i}^{T} β_{0} + ε_{i} & 1 \leq i \leq a_{1}, \\ x_{i}^{T} (β_{0} + δ_{1}) + ε_{i} & a_{1} < i \leq a_{2}, \\ ⋮ & ⋮ \\ x_{i}^{T} (β_{0} + \sum_{l = 1}^{s} δ_{l}) + ε_{i} & a_{s} < i \leq n, \end{array} \end{matrix}$ (1)

其中， ${y = {(y_{1}, \dots, y_{n})}^{T}}$ 是n维观测值， ${x_{i} = {(x_{i, 1}, \dots, x_{i, q})}^{T}}$ 是q维解释变量序列， $β_{0} = {(β_{1, 0}, \dots, β_{q, 0})}^{T} \neq 0$ 是q维回归系数，s是变点数量， $a_{1}, \dots, a_{s}$ 是变点位置， $δ_{l} = {(δ_{1, l}, \dots, δ_{q, l})}^{T}$ ， $(l = 1, \dots, s)$ 是变点处回归系数的增量，且 $β_{0}$ 、s、 $a_{j}$ 、 $δ_{l}$ 都是未知的， $ε_{1}, \dots, ε_{n}$ 是随机误差。

2.1. 第一阶段(分割阶段)

2.1.1. 将线性回归模型转化为高维线性回归模型

先将观测数据分割为 $p_{n} + 1$ 段，其中 $p_{n} + 1 > s$ ，第一段的长度为 $n - p_{n} m$ ，其他所有段的长度都为m (段长m的选取方法参见文献[6])， $m = n / (p_{n} + 1)$ (这里c满足 $0 \leq c - c < 1$ )，记第一段观测点的指标集为 $ℐ_{1} = {1, \dots, n - p_{n} m}$ ，第j段观测点的指标集为 $ℐ_{j} = {n - (p_{n} - j + 2) m + 1, \dots, n - (p_{n} - j + 1) m}$ ( $j = 2, \dots, p_{n} + 1$ )，令 $X$ 是一个矩阵，

$\begin{matrix} X = {(X^{(1)}, X^{(2)}, \dots, X^{(p_{n} + 1)})}_{n \times q (p_{n} + 1)} \\ = (\begin{matrix} X_{(1)} & 0 & 0 & \dots & 0 \\ X_{(2)} & X_{(2)} & 0 & \dots & 0 \\ X_{(3)} & X_{(3)} & X_{(3)} & \dots & 0 \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ X_{(p_{n} + 1)} & X_{(p_{n} + 1)} & X_{(p_{n} + 1)} & \dots & X_{(p_{n} + 1)} \end{matrix}) \end{matrix}$ (2)

上式中， $X^{(1)} = {(X_{(1)}^{T}, X_{(2)}^{T}, \dots, X_{(p_{n} + 1)}^{T})}^{T}$ ， $X^{(j)} = {(0_{q \times (n - (p_{n} - j + 2) m)}, X_{(j)}^{T}, X_{(j + 1)}^{T}, \dots, X_{(p_{n} + 1)}^{T})}^{T}$ ， $X_{(1)} = {(x_{1}, \dots, x_{n - p_{n} m})}^{T}$ 为序列 ${x_{i}, i = 1, 2, \dots, n}$ 第 $ℐ_{1}$ 个子段的解释变量， $X_{(j)} = {(x_{n - (p_{n} - j + 2) m + 1}, \dots, x_{n - (p_{n} - j + 1) m})}^{T}$ 为第 $ℐ_{j}$ 个子段的解释变量 $(j = 2, 3, \dots, p_{n} + 1)$ ，这样原来 $n \times q$ 维的自变量矩阵就被拓展为 $n \times q (p_{n} + 1)$ 维。假设每个子段中至多有一个变点(At Most One Change-point, AMOC)，若变点 $a_{j}$ 位于第 $k_{j}$ 个子段中，即 $a_{j} \in ℐ_{k_{j}} = {n - (p_{n} - k_{j} + 2) m + 1, \dots, n - (p_{n} - k_{j} + 1) m}$ ， $(j = 1, 2, \dots, s)$ 。记 $A_{n} = {1, k_{1}, k_{1} + 1, \dots, k_{s}, k_{s} + 1}$ ，即 $A_{n}$ 表示由第一个子段和变点 $a_{j}$ 所在的子段以及其后一子段的指标集构成的集合。

基于以上数据序列的分割及下三角矩阵(2)的构造，模型(1)的矩阵形式为：

$y = X θ^{*} + X_{ω} \vec{ω} + ε$ (3)

其中， $y = {(y_{1}, y_{2}, \dots, y_{n})}^{T}$ ， $X$ 是由(2)式定义的下三角矩阵， $θ^{*} = {(θ_{1}^{T}, θ_{2}^{T}, \dots, θ_{p_{n} + 1}^{T})}^{T}$ ，关于 $X_{ω}$ 、 $\vec{ω}$ 、 $θ^{*}$ 的定义以及模型(3)的推导详见文献[6]。这样，模型(1)中多变点的估计问题就转化为高维线性回归模型(3)的变量选择问题。

2.1.2. 应用SCAD方法对高维线性回归模型进行变量选择

由文献[13]和[14]知高维线性回归模型(3)中回归系数 $θ^{*}$ 的SCAD估计为：

${\hat{θ}}^{*} = \underset{θ^{*}}{\arg \min} {\frac{1}{n} {‖ y - X θ^{*} ‖}^{2} + \sum_{j = 1}^{p_{n} + 1} \sum_{i = 1}^{q} p_{λ, γ} (| θ_{j i} |)},$ (4)

其中，对于 $u \in [0, \infty)$ ，SCAD的惩罚项为：

$p_{λ, γ} (u) = λ u I_{[0, λ]} (u) + \frac{γ λ u - 0.5 (u^{2} + λ^{2})}{γ - 1} I_{(λ, γ λ]} (u) + \frac{λ^{2} (γ^{2} - 1)}{2 (γ - 1)} I_{(γ λ, \infty)} (u),$

(4)式中， $γ > 0$ ，正则化参数 $λ > 0$ 且可通过贝叶斯信息准则(BIC)得到。并且SCAD的惩罚项满足以下假设：如果 $u > γ λ$ ，则 $p_{λ, γ} (0) = 0$ ， ${p^{'}}_{λ, γ} (u) = 0$ ， ${p^{'}}_{λ, γ} (0) = λ$ 。

2.2. 第二阶段(精炼阶段)

令 ${\hat{θ}}^{*} = {({\hat{θ}}_{1}^{T}, {\hat{θ}}_{2}^{T}, \dots, {\hat{θ}}_{p_{n} + 1}^{T})}^{T}$ ，其中 ${\hat{θ}}_{j} = {({\hat{θ}}_{j 1}, \dots, {\hat{θ}}_{j q})}^{T}$ ( $j = 1, \dots, p_{n} + 1$ )。记 ${\hat{A}}_{n} = {j : {\hat{θ}}_{j} \neq 0, j = 1, \dots, p_{n} + 1}$ 为系数不为零的子段的指标集构成的集合，则 ${\hat{A}}_{n}^{*} = {j : j \in {\hat{A}}_{n}, j - 1 \notin {\hat{A}}_{n}, j = 2, \dots, p_{n} + 1} = {{\hat{k}}_{1}, \dots, {\hat{k}}_{\hat{s}}}$ 为变点可能存在的子段的指标集构成的集合( ${\hat{k}}_{1} < \dots < {\hat{k}}_{\hat{s}}$ )。为了得到变点 ${a_{j}}$ 的估计值 ${{\hat{a}}_{j}}$ ，应用文献[15]中的定理3.1.1，利用拟似然比检验去检测 ${\hat{ℐ}}_{(j)} = ℐ_{{\hat{k}}_{j} - 1} \cup ℐ_{{\hat{k}}_{j}} = {n - (p_{n} - {\hat{k}}_{j} + 3) m + 1, \dots, n - (p_{n} - {\hat{k}}_{j} + 1) m}$ $(j = 1, \dots, \hat{s})$ 内是否存在变点，具体如下：

考虑以下模型，其可能的变点位置为 $ζ_{j}$ $(j = 1, \dots, \hat{s})$

$y_{i} = x_{i}^{T} β_{j} I (n_{j}^{(l)} \leq i \leq ζ_{j}) + x_{i}^{T} β_{j + 1} I (ζ_{j} < i \leq n_{j}^{(r)}) + ε_{i},$ (5)

其中， $n_{j}^{(l)} = n - (p_{n} - {\hat{k}}_{j} + 3) m + 1$ ， $n_{j}^{(r)} = n - (p_{n} - {\hat{k}}_{j} + 1) m$ ， $β_{j}$ 和 $β_{j + 1}$ 是未知的q维回归系数， $(i = n_{j} + 1, \dots, n_{j + 1})$ 。区间 ${\hat{ℐ}}_{(j)} = ℐ_{{\hat{k}}_{j} - 1} \cup ℐ_{{\hat{k}}_{j}}, (j = 1, \dots, \hat{s})$ 中是否存在变点等价于假设检验问题 $H_{0} : β_{j} = β_{j + 1} \leftrightarrow H_{1} : β_{j} \neq β_{j + 1}$ 。

记 $N_{j} = n_{j}^{(r)} - n_{j}^{(l)}$ 表示区间 ${\hat{ℐ}}_{(j)} = ℐ_{{\hat{k}}_{j} - 1} \cup ℐ_{{\hat{k}}_{j}}$ 的长度， $b_{j} = {(2 \log \log N_{j} + q (\log \log \log N_{j}) / 2 - \log Γ (q / 2))}^{2} / 2 \log \log N_{j}$ ， $c_{j} = {(b_{j} / (2 \log \log N_{j}))}^{1 / 2}$ ， ${\hat{σ}}_{j}^{2} = \min_{β} \sum_{i = n_{j}^{(l)}}^{n_{j}^{(r)}} {(y_{i} - x_{i}^{T} β)}^{2}$ 为回归模型中残差平方和的估计值，其中 $Γ (x) = \int_{0}^{+ \infty} t^{x - 1} e^{- t} d t (x > 0)$ 是Gamma函数。由文献[15]中的引理3.1.9可知，模型(5)中的回归系数是否存在变点的拟似然比检验统计量为：

$T_{j} = N_{j} ({\hat{σ}}_{j}^{2} - min_{β} \sum_{i = n_{j}^{(l)}}^{{\hat{ζ}}_{j}} {(y_{i} - x_{i}^{T} β)}^{2} - min_{β} \sum_{i = {\hat{ζ}}_{j} + 1}^{n_{j}^{(r)}} {(y_{i} - x_{i}^{T} β)}^{2}) / {\hat{σ}}_{j}^{2},$ (6)

且当 $T_{j} > b_{j} + 2 c_{j} \log (- 2 / \log (1 - α))$ 拒绝原假设 $H_{0}$ ，说明模型(5)中的回归系数存在一个变点 $ζ_{j} \in {n_{j}^{(l)}, \dots, n_{j}^{(r)}}$ 使得 $β_{j} \neq β_{j + 1}$ ，其中 $1 - α$ 是置信水平。变点 $ζ_{j}$ 的相合估计量为：

${\hat{ζ}}_{j} = \arg \min_{n_{j}^{(l)} + q < k < n_{j}^{(r)} - q} [min_{β} \sum_{i = n_{j}^{(l)}}^{k} {(y_{i} - x_{i}^{T} β)}^{2} + min_{β} \sum_{i = k + 1}^{n_{j}^{(r)}} {(y_{i} - x_{i}^{T} β)}^{2}] .$

若接受原假设 $H_{0}$ ，则删除第j段。记所有能够检测出的变点为 ${\tilde{ζ}}_{1} < \dots < {\tilde{ζ}}_{\tilde{s}}$ 。由于每个 ${\tilde{ζ}}_{j}, (j = 1, \dots, \tilde{s})$ 都仅用了2m个观测值得到，为了避免“过度估计(overestimation)”，提高变点估计的精准度，令 ${\tilde{n}}_{0} = 0$ ， ${\tilde{n}}_{j} = {\tilde{ζ}}_{j}$ ， $(j = 1, \dots, \tilde{s})$ ， ${\tilde{n}}_{\tilde{s} + 1} = n$ ，再次使用拟似然比检验(6)式去检测区间 ${{\tilde{n}}_{j - 1} + 1, \dots, {\tilde{n}}_{j + 1}}$ $(j = 1, \dots, \tilde{s})$ 中是否存在变点。若存在变点，变点估计量为：

${\hat{a}}_{j} = \arg \min_{{\tilde{n}}_{j - 1} + q < k < {\tilde{n}}_{j + 1} - q} [min_{β} \sum_{i = {\tilde{n}}_{j - 1} + 1}^{k} {(y_{i} - x_{i}^{T} β)}^{2} + min_{β} \sum_{i = k + 1}^{{\tilde{n}}_{j + 1}} {(y_{i} - x_{i}^{T} β)}^{2}]$ (7)

( $j = 1, \dots, \tilde{s}$ )

3. 实证分析

3.1. 指标选取

动力煤在电力、钢铁和建材等行业中发挥着重要作用，本文选取2021年12月22日至2024年11月6日秦皇岛动力煤(Q5500K)平仓价格(元/吨)的日数据作为研究对象(后续简述为秦皇岛动力煤价格)，共690个数据，其中前678个数据(2021年12月22日~2024年10月21日)作为训练集，后12个数据(2024年10月22日~2024年11月6日)作为测试集。基于以往学者的研究成果[16] [17]，综合考虑数据的公开性和可获取性，从替换能源、需求、运输成本和库存量4个维度选取5个指标的日数据作为影响动力煤价格的因素，数据均来源于前瞻数据库(https://d.qianzhan.com/)，具体如表1所示。

Table 1. Table of comprehensive influencing factors of thermal coal prices in Qinhuangdao

表1. 秦皇岛动力煤价格综合影响因素表

目标层	一级指标	二级指标	单位	符号表示
秦皇岛动力煤价格(y)	替换能源	WTI原油期货收盘价	美元/桶	$x_{1}$
	替换能源	液化天然气市场价	元/吨	$x_{2}$
	需求	螺纹钢期货收盘价	元/吨	$x_{3}$
	运输成本	中国沿海煤炭运价综合指数	2011年9月1日=1000点	$x_{4}$
	库存量	秦皇岛港煤炭库存量	万吨	$x_{5}$

3.2. 变点检测与模型建立

由于线性回归模型的解释性强、应用性广，下面建立秦皇岛动力煤价格(y)与表1中5个指标的全局线性回归模型：

$y = 4.6946 x_{1} + 0.0649 x_{2} - 0.0850 x_{3} + 0.6620 x_{4} - 0.3120 x_{5} + 363.2168$ (8)

图1给出了表1中各变量之间的相关系数，并将结果通过相关性热图可视化。

Figure 1. Correlation heat map between variables

图1. 各变量间的相关性热图

表2给出了全局线性回归模型(8)中各变量 $x_{i}$ $(i = 1, \dots, 5)$ 的方差膨胀系数。

Table 2. Table of variance inflation factor for each variable in the global linear regression model (8)

表2. 全局线性回归模型(8)中各变量方差膨胀系数表

变量	$x_{1}$	$x_{2}$	$x_{3}$	$x_{4}$	$x_{5}$
方差膨胀系数VIF值	1.9848	2.2737	1.9797	1.8368	1.1211

由图1可以看出各变量之间不存在显著相关性，且由表2可以看出方差膨胀系数 $V I F_{i}$ $(i = 1, \dots, 5)$ 均小于10，即全局线性回归模型(8)的各变量间不存在多重共线性，则利用这5个自变量能够较好地解释因变量的变化。接下来应用两阶段多变点检测与估计方法(SCAD)对模型(8)中的回归系数进行多变点检测与估计，根据文献[6]中段长的选取方法，这里选取段长 $m = 91$ ，由(7)式得到回归系数的变点位置为164和451，对应的时间分别为2022年8月25日和2023年11月7日，如图2中红色虚线所示。

Figure 2. Qinhuangdao thermal coal price time series diagram

图2. 秦皇岛动力煤价格时间序列图

图2给出了2021年12月22日至2024年10月21日秦皇岛动力煤价格的时间序列图。第一个变点(2022年8月25日)出现的原因是2022年7月28日中共中央政治局会议上提出“保交楼、稳民生”政策，使得房地产复工建设量增加，导致螺纹钢的价格上升，由于动力煤是生产螺纹钢的重要能源，进而影响动力煤价格的升高；第二个变点(2023年11月7日)出现的原因是2023年10月WTI原油价格下跌，使得替换能源动力煤的价格下降。

上述变点将整个观测数据分割为3个子段(第一子段为1~163，第二子段为164~450，第三子段为451~678)。应用R软件对每个子段分别建立线性回归模型，得到以下分段线性回归模型：

$y = {\begin{cases} 8.5740 x_{1} + 0.0096 x_{2} + 0.0917 x_{3} + 0.7592 x_{4} + 0.2729 x_{5} - 905.2000 1 \leq t < 164, \\ 5.3133 x_{1} + 0.0815 x_{2} - 0.1572 x_{3} + 0.9313 x_{4} - 0.4152 x_{5} + 485.7751 164 \leq t < 451, \\ - 4.8286 x_{1} - 0.0080 x_{2} + 0.1133 x_{3} - 0.0500 x_{4} + 0.2218 x_{5} + 781.0473 451 \leq t \leq 678, \end{cases}$ (9)

表3给出了全局线性回归模型(8)与分段线性回归模型(9)的调整后拟合优度(Adjusted R²)的结果。

Table 3. Comparison table of adjusted R² between model (8) and model (9)

表3. 模型(8)与模型(9)调整后的拟合优度(Adjusted R²)对比表

模型	模型(8)全局线性回归模型	模型(9)第一段的线性回归模型	模型(9)第二段的线性回归模型	模型(9)第三段的线性回归模型
调整后的拟合优度(Adjusted R²)	0.6481	0.8459	0.8573	0.7863

图3是由全局线性回归模型(8)和分段线性回归模型(9)得到的2021年12月22日至2024年10月21日秦皇岛动力煤价格拟合值与真实值的对比图，其中蓝色实线(-)表示真实值曲线，绿色虚线(--)表示由全局线性回归模型(8)得到的拟合值曲线，红色点状线(·*·)表示由分段线性回归模型(9)得到的拟合值曲线。

Figure 3. Comparison chart of the fitted value and the real value of Qinhuangdao thermal coal price obtained from model (8) and model (9)

图3. 由模型(8)和模型(9)得到的秦皇岛动力煤价格拟合值与真实值的对比图

由表3可以看出全局线性回归模型(8)的拟合优度 $R^{2} < 0.65$ ，而分段线性回归模型(9)三个子段的拟合优度R²均大于0.78。并且结合图3可以得到，分段线性回归模型(9)能利用 $x_{i}$ $(i = 1, \dots, 5)$ 更精准地刻画秦皇岛动力煤价格(y)的走势。

3.3. 短期预测

分别利用全局线性回归模型(8)和分段线性回归模型(9)的最后一个子段对2024年10月22日~2024年11月6日的测试集进行短期预测。

Table 4. Statistical index table of the prediction results of model (8) and the last subsegment of model (9)

表4. 模型(8)与模型(9)最后一个子段预测结果的统计指标表

统计指标	由全局线性回归模型(8)得到的预测值	由分段线性回归模型(9)得到的预测值
均方根误差(RMSE)	188.6133	34.4454
平均绝对误差(MAE)	188.3771	32.1677
平均绝对百分比误差(MAPE)	22.1268%	3.7803%
对称平均绝对百分比误差(SMAPE)	19.9183%	3.7002%

图4是由全局线性回归模型(8)和分段线性回归模型(9)最后一个子段得到的预测值与真实值的对比图，其中蓝色实心圆表示真实值散点，绿色实心正方形表示由模型(8)得到的预测值散点，红色实心三角表示由模型(9)最后一个子段得到的预测值散点。

Figure 4. Comparison chart of the predicted value and the true value obtained from the model (8) and the last subsegment of the model (9)

图4. 由模型(8)和模型(9)最后一个子段得到的预测值与真实值的对比图

从表4和图4可以看出在对秦皇岛动力煤价格的短期预测方面，分段线性回归模型(9)最后一个子段的预测效果优于全局线性回归模型(8)。说明应用线性回归模型刻画秦皇岛动力煤价格的走势前进行变点检测与估计是至关重要的，应用分段线性回归模型能够更精准地刻画秦皇岛动力煤价格的走势。

4. 结论

本文将两阶段多变点检测与估计方法应用到秦皇岛动力煤价格(y)与WTI原油期货收盘价( $x_{1}$ )、液化天然气市场价( $x_{2}$ )、螺纹钢期货收盘价( $x_{3}$ )、中国沿海煤炭运价综合指数( $x_{4}$ )、秦皇岛港煤炭库存量( $x_{5}$ )的全局线性回归模型中，检测并估计了回归系数的多变点，通过变点数量和位置的估计结果建立了更精准的分段线性回归模型来刻画秦皇岛动力煤价格的走势，说明在进行数据分析和统计建模之前进行变点检测与估计是至关重要的，可以帮助我们建立更精准的模型。

基金项目

新疆维吾尔自治区自然科学基金项目(2023D01A37)。

NOTES

^*通讯作者。

参考文献

[1]	Page, E.S. (1954) Continuous Inspection Schemes. Biometrika, 41, 100-115. [Google Scholar] [CrossRef]
[2]	Mo, C., Ruan, Y., He, J., Jin, J., Liu, P. and Sun, G. (2018) Frequency Analysis of Precipitation Extremes under Climate Change. International Journal of Climatology, 39, 1373-1387. [Google Scholar] [CrossRef]
[3]	Pepelyshev, A. and Polunchenko, A.S. (2017) Real-Time Financial Surveillance via Quickest Change-Point Detection Methods. Statistics and Its Interface, 10, 93-106. [Google Scholar] [CrossRef]
[4]	李小兰. 超声散斑运动追踪中的峰值跳变点分析研究[D]: [硕士学位论文]. 成都: 西南石油大学, 2020.
[5]	Jin, B., Shi, X. and Wu, Y. (2011) A Novel and Fast Methodology for Simultaneous Multiple Structural Break Estimation and Variable Selection for Nonstationary Time Series Models. Statistics and Computing, 23, 221-231. [Google Scholar] [CrossRef]
[6]	Jin, B., Wu, Y. and Shi, X. (2016) Consistent Two‐Stage Multiple Change‐Point Detection in Linear Models. Canadian Journal of Statistics, 44, 161-179. [Google Scholar] [CrossRef]
[7]	Sun, X. and Wu, Y. (2020) Simultaneous Multiple Change Points Estimation in Generalized Linear Models. In: Fan, J.Q. and Pan, J.X., Eds., Contemporary Experimental Design, Multivariate Analysis and Data Mining: Festschrift in Honour of Professor Kai-Tai Fang, Springer International Publishing, 341-356. [Google Scholar] [CrossRef]
[8]	吕丽, 金百锁. 线性模型中多变点的置信区间估计[J]. 系统科学与数学, 2021, 41(8): 2310-2326.
[9]	唐静, 王艳洁, 郭一达, 等. 环渤海动力煤价格预测及用煤企业经营策略研究——基于LSTM和概率区间评估的分析[J]. 价格理论与实践, 2024(2): 42-46+125.
[10]	赵修茗, 张甜, 邹绍辉. 动力煤期货价格波动对我国煤炭经济影响研究[J]. 中国矿业, 2020, 29(1): 34-40.
[11]	云小鹏. 动力煤市场波动特征研究[J]. 煤炭工程, 2018, 50(6): 131-134.
[12]	刘威, 陈文昊, 姜宇翔, 等. 基于多元线性回归模型对煤炭问题的研究[J]. 智慧中国, 2020(9): 83-84.
[13]	Zhang, C. (2010) Nearly Unbiased Variable Selection under Minimax Concave Penalty. The Annals of Statistics, 38, 894-942. [Google Scholar] [CrossRef]
[14]	Fan, J. and Li, R. (2001) Variable Selection via Nonconcave Penalized Likelihood and Its Oracle Properties. Journal of the American Statistical Association, 96, 1348-1360. [Google Scholar] [CrossRef]
[15]	Csorgo, M. and Horváth, L. (1997) Limit Theorems in Change-Point Analysis. Wiley, 218-219.
[16]	黄梦婷, 朱家明. 基于逐步回归法对中国煤炭价格影响因素的实证分析[J]. 哈尔滨师范大学自然科学学报, 2021, 37(2): 28-33.
[17]	向钰鑫. 基于机器学习的煤炭价格预测模型研究[D]: [硕士学位论文]. 重庆: 重庆理工大学理学院, 2023.

为你推荐

友情链接