基于贝叶斯推断的缓冲自回归模型参数估计

doi:10.12677/SA.2023.121005

期刊菜单

基于贝叶斯推断的缓冲自回归模型参数估计
Parameter Estimation of Buffered Autoregressive Model Based on Bayesian Inference

DOI: 10.12677/SA.2023.121005, PDF, HTML, XML,
作者: 韦祖栋：华南农业大学数学与信息学院，广东广州
关键词: 缓冲自回归模型；贝叶斯推断；MCMC算法；Buffered Autoregression Model； Bayesian Inference； MCMC Algorithm

摘要: 本文基于马尔科夫链蒙特卡罗(MCMC)算法的贝叶斯推断下，研究缓冲自回归模型的参数估计问题。通过缓冲自回归模型参数的联合后验分布得到各参数的条件后验分布，再利用Gibbs抽样、随机游走Metropolis-Hastings算法抽取样本，并以正态分布为建议分布，对缓冲自回归模型进行参数估计。随机模拟结果显示用该方法估计各参数的效果较好。

Abstract: Based on Bayesian inference of Markov chain Monte Carlo (MCMC) algorithm, this paper studies the parameter estimation of buffered autoregressive models. The conditional posterior distribution of each parameter is obtained through the joint posterior distribution of the parameters of the buffered autoregressive model. Then, the Gibbs sampling and random walk Metropolis Hastings algorithm are used to extract samples, and the normal distribution is used as the suggested distribution to estimate the parameters of the buffered autoregressive model. The results of stochastic simulation show that the method is effective in estimating the parameters.

文章引用：韦祖栋. 基于贝叶斯推断的缓冲自回归模型参数估计[J]. 统计学与应用, 2023, 12(1): 32-39. https://doi.org/10.12677/SA.2023.121005

1. 引言

时间序列分析作为一个非常有效的研究实际问题的方法，在过去的20多年间，前人对时间序列模型进行了大量的理论与实证研究。但随着经济社会的快速发展，Clements和Hansen等人发现，经典的线性自回归时间序列模型不再适用于经济和金融时间序列的研究 [1] [2] ，难以解释金融时间序列中的非线性结构变化，非线性的时间序列模型也因此应运而生。门限自回归(TAR)模型作为非线性时间序列模型中成熟的代表，自Tong开创性的引入TAR模型以来 [3] ，门限型时间序列模型在经济、环境等领域的研究发挥了重要作用。传统的门限自回归模型根据门限变量的状态变化将时间序列划分为两个甚至更多的不同区域，并在每个区域建立不同的线性自回归模型。当门限变量超过或低于某个值时，时间序列的概率结构突然发生变化。但是在一些领域中，例如经济学、地理学等，我们经常观察到状态转变的缓冲现象，即当门限变量超出或低于限制区域时，我们感兴趣的变量仍停留在前一状态保持不变。Li等人将这种缓冲现象引入到门限自回归模型当中 [4] 。同时，考虑到在金融时间序列模型中，条件异方差是一个极其重要的部分，Lo等人在汇率研究中提出了缓冲GARCH模型 [5] 。Zhu等人随后也介绍了具有广义自回归条件异方差的缓冲自回归模型 [6] ，并通过汇率分析，将其与AR-GARCH和T-GARCH模型进行了对比，进一步说明了缓冲自回归GARCH模型在刻画时间序列模型中的条件均值与方差的优越性。

Markov链Monte Carlo (MCMC)算法作为现代统计计算中重要的一种方法，主要利用马尔科夫链的细致平衡条件进行采样，再通过所采样的样本进行数值计算的一种方法。过去的许多研究员，为了简化TAR、TARMA等模型统计推断中的分析工作和数值多重积分问题，均使用MCMC方法来估计模型的未知参数，不仅相对快速地的估计出模型参数，同时对比其他方法，提高了估计的精度。早在Chen和Lee中，马尔科夫链蒙特卡罗(MCMC)算法就被用于门限自回归模型的贝叶斯推断 [7] 。So则利用可逆跳MCMC算法检验GARCH和TGARCH模型 [8] 。不管是对门限参数估计还是对其他参数估计，MCMC算法都显示出了较好的效果。

过去的研究主要集中在缓冲自回归模型的应用方面，而对该模型的参数估计及检验研究较少，特别是结合MCMC算法与贝叶斯推断的方法寥寥无几。而基于过往研究的基础，我们对模型进行贝叶斯推断后，我们主要利用Gibbs抽样和随机游走的Metropolis-Hastings (M-H)算法的MCMC方法对缓冲自回归模型做参数估计，得到参数估计结果落在95%置信区间内，证明结果是可靠和有效的。

2. 模型描述

我们定义如下的缓冲自回归模型：对于序列 ${y_{t}, t = 1, 2, \dots, n}$ ，

$y_{t} = {\begin{matrix} ψ_{0} + \sum_{i = 1}^{p} ψ_{i} y_{t - i} + a_{t}, & R_{t} = 1, \\ φ_{0} + \sum_{i = 1}^{p} φ_{i} y_{t - i} + a_{t}, & R_{t} = 0, \end{matrix}$

其中，状态参数 $R_{t}$ 定义如下：

$R_{t} = {\begin{array}{l} 1 & y_{t - d} \leq r_{L} \\ 0 & y_{t - d} \geq r_{U} \\ R_{t - 1} & 其他 \end{array}$

其中， $a_{t}, t = 1, 2, \dots, n$ 相互独立，其均值为0，方差为 $σ^{2}$ ； $y_{t - d}$ 为门限变量；d是延迟参数； $r_{L}$ 和 $r_{U}$ 是缓冲区 $(r_{L}, r_{U}]$ 的门限参数。对于现实中的时间序列 ${y_{t}}$ ，考虑到前几个观测值的状态可能无法很好地识别，我们很自然地假设， $(r_{L}, r_{U}]$ 为 $[a, b]$ 的子集， $a, b$ 为门限变量 $y_{t - d}$ 数据样本的上下 $α$ 经验分位数 [9] [10] 。

3. 贝叶斯推断

为了对参数进行抽样，我们需要求得各个参数的条件后验分布结果，同时，各参数条件后验分布形式决定了参数所使用的抽样方式。根据共轭先验分布的特点，我们进行如下设定：

设 $y_{t}$ 由 $t = 1$ 时刻开始观察，记：

$\begin{array}{l} ψ_{1} = {(ψ_{0}, ψ_{1}, \dots, ψ_{p})}^{T}, ψ_{2} = {(φ_{0}, φ_{1}, \dots, φ_{p})}^{T}, \\ γ = {(r_{L}, r_{U})}^{T}, Y = {y_{1}, y_{2}, \dots, y_{n}} \end{array}$

则 $y_{t}$ 的条件均值可得：

$μ_{t} = E [y_{t} | Y_{(t - 1)}] = [ψ_{0} + \sum_{i = 1}^{p} ψ_{i} y_{t - i}] R_{t} + [φ_{0} + \sum_{i = 1}^{p} φ_{i} y_{t - i}] (1 - R_{t})$

其中， $Y_{(t - 1)} = {(y_{t - 1}, \dots, y_{t - p})}^{T}$ 。

记 $Ψ = {(ψ_{1}, ψ_{2}, γ, σ, d)}^{T}$ 为待估的参数向量。我们利用贝叶斯推断得到各参数的条件后验分布，再根据条件后验分布的情况，选择合适的MCMC方法进行参数估计。

对于未知参数，我们选择的先验分布如下：

1) $ψ_{1}, ψ_{2}$ 相互独立， $ψ_{j} ~ N (ψ_{j 0}, V_{j}^{- 1}), j = 1,2$ ，其中 $ψ_{j 0}, V_{j}^{- 1}$ 为正态分布的均值向量和协方差矩阵；

2) $σ^{2}$ 服从逆伽马分布 $I G (α, β)$ ；

3) 门限参数 $r_{L}, r_{U}$ 服从 $[a, b]$ 上的均匀分布，且 $a \leq r_{L} < r_{U} \leq b$ ；

4) 延迟参数d服从 $1, 2, \dots, d_{0}$ 上离散的均匀分布，且 $d_{0}$ 数值较大。

以上各先验分布得超参数已知，根据贝叶斯公式，可推出 $Ψ$ 的先验分布满足：

$p (Ψ) \propto \prod_{j = 1}^{2} p (ψ_{j}) p (σ^{2}) I (a < r_{L} \leq r_{U} \leq b)$

可得 $Ψ$ 的联合后验分布为：

$p (Ψ | y) \propto p (y | Ψ) p ( Ψ )$

模型的似然函数为：

$p (Ψ | y) \propto \prod_{t = d_{0} + 1}^{n} \frac{1}{\sqrt{2 π}} \frac{1}{a_{t}} {[\frac{{(y_{t} - u_{t 1})}^{2}}{2 a_{t}^{2}}] \cdot R_{t} + [\frac{{(y_{t} - u_{t 2})}^{2}}{2 a_{t}^{2}}] \cdot (1 - R_{t})}$

其中，

$u_{t i} = E (y_{t i} | y_{t i - 1}) = {\begin{matrix} ψ_{0} + \sum_{i = 1}^{p} ψ_{i} y_{t - i} + a_{t}, & i = 1 \\ φ_{0} + \sum_{i = 1}^{p} φ_{i} y_{t - i} + a_{t}, & i = 2 \end{matrix}$

根据贝叶斯定理，计算各参数后验分布如下：

1) $ψ_{j}, j = 1, 2$ 条件后验分布相互独立且服从正态分布：

$p (ψ_{j} | y, Ψ - ψ_{j}) ~ N (ψ_{_{j 0}}^{*}, V_{j}^{* - 1}), j = 1,2$

其中

$ψ_{j 0}^{*} = {(\frac{A_{i}}{σ^{2}} + V_{j})}^{- 1} (\frac{A {}_{i}}{σ^{2}} {\hat{ψ}}_{j} + V ψ_{j 0}), V_{j}^{*} = (\frac{A_{i}}{σ^{2}} + V_{j})$

$\begin{array}{l} x_{j, t} = {(1, y_{t - 1}, \dots, y_{t - h})}^{T}, X_{1}^{*} = {(x_{1, h + 1}, x_{1, h + 2}, \dots x_{1, τ})}^{T}, \\ X_{2}^{*} = {(x_{2, τ + 1}, x_{2, τ + 2}, \dots, x_{2}, n)}^{T}, Y_{1}^{*} = {(y_{h + 1}, y_{h + 2}, \dots, y_{τ})}^{T}, \\ Y_{2}^{*} = {(y_{τ + 1}, y_{y + 2}, \dots, y_{n})}^{T}, A_{i} = X_{i}^{* T} X_{i}^{*}, \\ {\hat{ψ}}_{j} = A_{i}^{- 1} X_{i}^{* T} Y_{i}^{*} . \end{array}$

2) $σ^{2}$ 条件后验分布为逆伽马分布：

$p (σ^{2} | y, Ψ - σ^{2}) ~ I G (α + \frac{n - p}{2}, β + \frac{s^{2}}{2}),$

其中，

$s^{2} = \sum_{i = 1}^{2} {(Y_{i}^{*} - X_{i}^{* T} ψ_{i})}^{T} (Y_{i}^{*} - X_{i}^{* T} ψ_{i}) .$

3) $γ$ 的条件后验密度函数为：

$p (γ | y, Ψ - γ) \propto \exp (- \frac{1}{2 σ^{2}} \cdot s^{2}) \cdot I (a < r_{L} < r_{U} < b),$

其中 $s^{2}$ 是关于r的函数。

4) d条件后验分布为多项分布，密度函数为：

$p (d | y, Ψ - d) = \frac{L (ψ_{1}, ψ_{2}, σ^{2}, γ, d | y)}{\sum_{d = 1}^{d_{0}} L (ψ_{1}, ψ_{2}, σ^{2}, γ, d | y)},$

其中， $L (ψ_{1}, ψ_{2}, σ^{2}, γ, d | y) = σ^{n - p} \exp (- \frac{s^{2}}{2 σ^{2}})$ 。

综上，我们可看出，除了门限参数向量 $γ$ 的条件后验分布不是标准分布，其余参数的条件后验分布均是常见的分布，因此可以利用Gibbs抽样。而对门限参数向量采用随机游走的Metropolis-Hasting抽样的MCMC方法 [11] 。

我们以 $γ$ 为例，记 $f (\cdot)$ 为其条件后验密度函数。M-H算法的基本思想是通过在参数空间随机取值作为起始点，通过建议函数与转移概率构建一个细致平稳的马尔科夫链，使得 $f (\cdot)$ 成为稳定分布，并通过获得的随机点与起始点概率密度的比值大小决定是否保留随机点。则利用随机游走的M-H抽样步骤如下 [12] ：

1) 在第l步迭代时，通过建议分布产生一个 $γ$ 候选值 $γ^{*}$ ，使其满足：

$γ^{*} = γ^{[l - 1]} + ε_{γ}, ε_{γ} ~ N (0, σ_{γ}^{2})$

$γ^{[l - 1]}$ 是l在 $l - 1$ 步迭代时接受的值。通常，我们选择 $σ_{γ}^{2}$ 为对角矩阵，通过监测和调整对角线上的元素大小来保证接受率处在0.25~0.60之间。

2) 根据接受概率：

$p = \min {1 ， \frac{f (γ)}{f ((γ^{[l - 1]}))}} > u, u ~U (0, 1)$

决定是否接受候选值 $γ^{*}$ 。否则，在第l步迭代时， $γ^{[l]} = γ^{[l - 1]}$ 。其中， $U (0, 1)$ 表示 $0, 1$ 之间的均匀分布。

4. 随机模拟

我们利用R软件进行随机模拟，基于Gibbs抽样和随机游走的M-H算法讨论参数估计效果，我们设定如下缓冲自回归模型：

$y_{t} = {\begin{matrix} 0.3 + 0.8 y_{t - 1} + a_{t}, R_{t} = 1 \\ 0.4 + 0.7 y_{t - 1} + a_{t}, R_{t} = 0 \end{matrix}$

状态参数设定为：

$R_{t} = {\begin{array}{l} 1 & y_{t - d} \leq 0.5 \\ 0 & y_{t - d} \geq 1.0 \\ R_{t - 1} & 其他 \end{array}$

在模拟实验中，我们生成1500个观测值，并选择最后1000个观测值作为样本。我们在实验中运行MCMC迭代过程18,000次，根据每个参数的采样方案舍去样本产生的前9000个样本，取后面9000个作为有效样本。为了验证方法的稳定性，我们进行了两次模拟实验。最后缓冲自回归模型的随机模拟结果如下。

Table 1. Results of random simulation experiment

表1. 随机模拟实验结果

Figure 1. Trace plots of 9000 MCMC iterations of estimated parameters

图1. 9000次 MCMC迭代估计参数的轨迹图

Figure 2. The histograms of the estimated parameters

图2. 参数频率分布直方图

当模型与真实情况下拟合度较高时，后验均值应与真实值十分接近。从表1的结果可以看出，缓冲自回归模型各个参数的后验均值与真值十分接近，并且每个参数的后验标准差也较小。同时，在95%的置信度下，参数的后验均值落在置信区间之中，可以看出结果是可靠的。在图1参数的迭代轨迹图与图2参数频率分布直方图也表明各参数迭代过程稳定、收敛的。依据以上的结果与分析，我们认为对缓冲自回归模型用MCMC抽样方案是有效的，随机模拟实验的结果较好。

5. 总结

本文在基于贝叶斯推断的基础上，得到缓冲自回归模型的条件后验分布，并结合MCMC抽样的方法对模型的参数进行估计。通过模拟实验表明，不仅模型的参数估计效果较为理想，还说明本文模型选择的后验概率估计是有效的。有了以上的实验结果依据，进一步，我们可以对模型的缓冲区进行非线性检验等。此外，在模拟实验的过程中，我们考虑到缓冲模型在预测均值、方差时的表现出来的优越性，因此，我们也可以将其应用在计算风险值方面。

参考文献

[1]	Clements, M.P., Franses, P.H. and Swanson, N.R. (2004) Forecasting Economic and Financial Time-Series with Nonlinear Models. International Journal of Forecasting, 20, 169-183. [Google Scholar] [CrossRef]
[2]	Hansen, B.E. (2011) Threshold Autoregression in Economics. Statistics and Its Interface, 4, 123-127. [Google Scholar] [CrossRef]
[3]	Tong, H. (1978) On a Threshold Model. In: Chen, C.H., Ed., Pattern Recognition and Signal Processing. Sijthoff & Noordhoff, Amsterdam.
[4]	Li, G., Guan, B., Li, W.K. and Yu, P.L.H. (2015) Hysteretic Autoregressive Time Series Models. Biometrika, 102, 717-723. [Google Scholar] [CrossRef]
[5]	Lo, P., Li, W. and Li, G. (2016) On Buffered Threshold GARCH Model. Statistica Sinica, 26, 1555-1567. [Google Scholar] [CrossRef]
[6]	Zhu, K., Yu, P.L.H. and Li, W.K. (2017) Buffered Autoregressive Models with Conditional Heteroscedasticity: An Application to Exchange Rates. Journal of Business and Economic Statistics, 35, 528-542. [Google Scholar] [CrossRef]
[7]	Chen, C.W.S. and Lee, J.C. (1995) Bayesian Inference of Threshold Autoregressive Models. Journal of Time Series Analysis, 16, 483-492. [Google Scholar] [CrossRef]
[8]	So, M.K.P. and Chen, C.W.S. (2003) Subset Threshold Autoregression. Journal of Forecasting, 22, 49-66. [Google Scholar] [CrossRef]
[9]	Chan, K.S. (1991) Percentage Points of Likelihood Ratio Tests for Threshold Autoregression. Journal of the Royal Statistical Society: Series B, 53, 691-696. [Google Scholar] [CrossRef]
[10]	Andrews, D.W.K. (1993) Tests for Parameter Instability and Structural Change with Unknow Change Point. Econometrica, 61, 821-856. [Google Scholar] [CrossRef]
[11]	夏强, 刘金山. 基于贝叶斯推断的TAR模型的门限非线性检验[J]. 应用概率统计, 2011, 27(3): 276-282.
[12]	茆诗松, 王静龙, 濮晓龙. 高等梳理统计[M]. 北京: 高等教育出版社, 1998.

为你推荐

友情链接