一种基于ALD和AEP分布的贝叶斯分位数回归
A Bayesian Quantile Regression Based on ALD and AEP Distribution
DOI: 10.12677/AAM.2020.97125, PDF, HTML, XML, 下载: 653  浏览: 1,139 
作者: 李东升, 林 挺:贵州民族大学数据科学与信息工程学院,贵州 贵阳;吴有富:贵州交通职业技术学院,贵州 贵阳
关键词: 分位数回归非对称指数幂分布非对称拉普拉斯分布吉布斯抽样Quantile Regression Asymmetric Exponential Power Distribution Asymmetric Laplace Distribution Gibbs Sampling
摘要: 本文采用非对称指数幂分布(AEP)与非对称拉普拉斯分布(ALD)对分位数回归模型的误差项进行假定,对此进行贝叶斯分位数回归的参数估计。针对参数后验密度的复杂性,采用吉布斯抽样算法,对ALD分布和AEP分布进行后验参数抽样。通过数值模拟结果可知,服从AEP分布的误差假定对数据的适应性比ALD分布的要强。
Abstract: In this paper, the asymmetric exponential power distribution (AEP) and asymmetric Laplace distribution (ALD) are used to make assumptions about the error terms of the quantile regression model, and the parameters of Bayesian quantile regression are estimated for this. Aiming at the complexity of the posterior density of parameters, the Gibbs sampling algorithm is used to sample the posterior parameters of the ALD distribution and AEP distribution. According to the numerical simulation results, the error following the AEP distribution is assumed to be more adaptable to the data than the ALD distribution.
文章引用:李东升, 吴有富, 林挺. 一种基于ALD和AEP分布的贝叶斯分位数回归[J]. 应用数学进展, 2020, 9(7): 1054-1065. https://doi.org/10.12677/AAM.2020.97125

1. 引言

分位数回归模型传承于经典最小二乘回归模型,相比于经典最小二乘回归模型,分位数回归模型提供了更多的信息,有利于解释因变量与自变量之间的关系。近年来,分位数回归在各个领域得到广泛的应用,很多学者越来越关注因变量在任意分位数水平下与自变量的关系。

1978年Koenker首次提出“分位数回归”概念 [1],用于解释因变量与自变量之间的关系。1999年Koenker和Machado研究了非对称拉普拉斯分布和分位数回归之间的关系 [2]。2001年Keming Yu [3] 介绍了一种贝叶斯分位数回归思想,采用基于非对称拉普拉斯分布对参数进行估计,并证实无论数据的原始分布如何,使用非对称拉普拉斯分布对贝叶斯分位数回归建模是一种非常自然且有效的方法。自此,贝叶斯估计方法在分位数回归中有越来越多的应用。

目前,对于分位数回归模型的研究,基本集中在贝叶斯分位数估计、离散选择分位数回归估计、分位数处理效应模型以及无条件分位数回归方法的研究。针对贝叶斯分位数回归估计,它的关键在于将误差项设定为服从某种分布,由于非对称指数幂分布的优良性质比非对称拉普拉斯分布较好,而且非对称拉普拉斯分布还是非对称指数幂分布的一个特例,本文利用这一思想,使用非对称指数幂分布的似然函数来进行贝叶斯分位数回归参数估计。

2. 非对称拉普拉斯分布与非对称指数幂分布

对贝叶斯分位数回归模型进行参数估计,需要假定分位数回归中的误差项服从非对称拉普拉斯分布或者非对称指数幂分布。根据概率密度函数构建极大似然函数,依据贝叶斯定理,从参数先验分布中求解后验分布。两种分布的概率密度函数如下:

非对称拉普拉斯分布(Asymmetric Laplace Distribution, ALD)的概率密度函数为:

f ( y ; μ , σ , p ) = p ( 1 p ) σ exp { y μ σ [ p I ( y μ ) ] } , y ( , + ) (1)

其中, 0 < p < 1 为偏度参数, σ > 0 为尺度参数, < μ < + 为位置参数。

非对称指数幂分布(Asymmetric Exponential Power Distribution, AEPD)是由Zhu Dongming [4] 等提出的,其概率密度函数为:

f AEP ( y | μ , σ , α , p 1 p 2 ) = { 1 σ exp ( | y μ α σ / Γ ( 1 + p 1 ) | p 1 ) , y μ 1 σ exp ( | y μ ( 1 α ) σ / Γ ( 1 + p 2 ) | p 2 ) , y > μ (2)

其中, Γ ( x ) 为gamma函数, 0 < α < 1 为偏度参数, σ > 0 为尺度参数, p 1 > 0 p 2 > 0 分别控制左尾和右尾参数, < μ < + 为位置参数。当 α = 1 2 p 1 = p 2 时,AEPD分布为对称的指数幂分布;当 α = 1 2 p 1 = p 2 = 2 时,AEPD分布为标准的正态分布;当 p 1 = p 2 = 1 时便是ALD分布; p 1 ( p 2 ) 值越小,则左尾(右尾)越厚, α 值越大,则分布呈现为左偏。

3. 贝叶斯分位数回归

在进行贝叶斯分位数回归模型的参数估计时,需要构建一般线性回归模型,假定回归模型中的误差项服从ALD分布与AEP分布,对此构建相应的似然函数。通过贝叶斯定理、参数先验分布求解该分布的后验分布。由于似然函数的复杂性,为了更快的求解后验分布,采用吉布斯抽样算法的思想。

3.1. 设线性回归模型

y i = β 1 x i 1 + β 2 x i 2 + + β k x i k + ε i , i = 1 , , n ; k = 1 , , n (3)

其中, x i 为自变量, y i 为因变量, β k 为未知参数向量,误差项 ε i ~ ALD ( 0 , 1 , τ ) ε i ~ AEP ( 0 , σ , α , p 1 , p 2 )

3.2. 非对称拉普拉斯分布似然函数(ALD)

根据假设分位数回归模型的误差项服从ALD分布,其似然函数为:

L ( y i | x i T β , σ , p ) = p n ( 1 p ) n σ n exp { 1 σ i ρ p ( y i x i T β ) } (4)

其中, ρ τ ( u ) = u ( p I ( u < 0 ) )

为了在分位数回归中采用吉布斯算法,因此参考2011年Kozumi和Kobayashi [5] 在文章中给出的吉布斯抽样方法,对此进行贝叶斯分位数回归参数估计。

3.3. 非对称指数幂分布似然函数(AEPD)

Naranjo在2012 [6] 和2015 [7] 年对SEP分布和AEP分布进行相关的研究,提出了关于非对称指数幂相关的理论和方法。

Y | [ U 1 = u 1 ] ~ U ( μ α σ Γ ( 1 + 1 p 1 ) u 1 1 p 1 , μ ) U 1 ~ G a ( 1 + 1 p 1 , 1 ) ,且概率为 α ,和 Y | [ U 2 = u 2 ] ~ U ( μ , μ + ( 1 α ) σ Γ ( 1 + 1 p 2 ) u 2 1 p 2 ) U 2 ~ G a ( 1 + 1 p 2 , 1 ) ,且概率为 ( 1 α ) ,则 Y ~ AEP ( μ , σ , α , p 1 , p 2 )

根据假设分位数回归模型的误差项服从AEPD分布,其似然函数为:

L ( y , x , u 1 , u 2 | β , σ , α , p 1 , p 2 ) = i = 1 n 1 σ { exp ( u 1 ) I [ x i T β α σ Γ ( 1 + 1 p 1 ) u 1 1 p 1 < y i < x i T β ] + exp ( u 2 ) I [ x i T β < y i < x i T β + ( 1 α ) σ Γ ( 1 + 1 p 2 ) u 2 1 p 2 ] } (5)

其中, y = ( y 1 , , y n ) T u 1 = ( u 11 , , u 1 n ) T u 2 = ( u 21 , , u 2 n ) T x = ( x 1 , , x n ) T β = ( β 1 , , β n ) T

根据贝叶斯定理,参数的联合后验密度为:

P ( u 1 , u 2 , β , σ , α , p 1 , p 2 | y , x ) f ( β ) f ( σ ) f ( α ) f ( p 1 ) f ( p 2 ) σ n × i = 1 n ( exp ( u 1 ) i = 1 n 1 σ { exp ( u 1 ) I [ x i T β α σ Γ ( 1 + 1 p 1 ) u 1 1 p 1 < y i < x i T β ] + exp ( u 2 ) I [ x i T β < y i < x i T β + ( 1 α ) σ Γ ( 1 + 1 p 2 ) u 2 1 p 2 ] } ) (6)

其中, f ( β ) , f ( σ ) , f ( α ) , f ( p 1 ) , f ( p 2 ) 均为待估参数的先验密度函数。

设定参数的先验分布为:

{ u 1 , u 2 ~ E x p ( 1 ) σ ~ I G ( a σ , b σ ) α ~ B e t a ( a α , b α ) p 1 , p 2 ~ N ( a p i , b p i ) β ~ N k ( b , B ) (7)

其中, E x p ( 1 ) 为参数为1的指数分布,IG为逆伽玛分布,Beta为贝塔分布,N为正态分布, N k 为多元正态分布。

根据贝叶斯定理可得参数的待估后验密度为:

1) u 1 , u 2

P ( u 1 i | y , x , β , σ , α , p 1 , p 2 ) f ( u 1 i ) I [ u 1 i > ( ( x i T β y i ) Γ ( 1 + 1 p 1 ) α σ ) p 1 ] ( y i < x i T β ) E x p ( 1 ) I [ u 1 i > ( ( x i T β y i ) Γ ( 1 + 1 p 1 ) α σ ) p 1 ] ( y i < x i T β ) (8)

P ( u 2 i | y , x , β , σ , α , p 1 , p 2 ) f ( u 2 i ) I [ u 2 i > ( ( y i x i T β ) Γ ( 1 + 1 p 2 ) ( 1 α ) σ ) p 2 ] ( y i > x i T β ) E x p ( 1 ) I [ u 2 i > ( ( y i x i T β ) Γ ( 1 + 1 p 2 ) ( 1 α ) σ ) p 2 ] ( y i > x i T β ) (9)

其中, I ( ) 为指示函数。

2) σ

P ( σ | y , x , u 1 , u 2 , α , β , p 1 , p 2 ) f ( σ ) 1 σ n I [ σ > σ _ ] I G ( n 1 + a σ , b σ ) I [ σ > σ _ ] (10)

u 1 i > 0 时, x i T β α σ Γ ( 1 + 1 p 1 ) u 1 i 1 p 1 < y i ,化简为:

σ > ( x i T β y i ) Γ ( 1 + 1 p 1 ) α u 1 i 1 / p 1

u 2 i > 0 时, y i < x i T β + ( 1 α ) σ Γ ( 1 + 1 p 2 ) u 2 1 p 2 ,化简为:

σ > ( y i x i T β ) Γ ( 1 + 1 p 2 ) ( 1 α ) u 2 i 1 / p 2

由此可得: σ _ = max { ( x i T β y i ) Γ ( 1 + 1 p 1 ) α u 1 i 1 / p 1 , ( y i x i T β ) Γ ( 1 + 1 p 2 ) ( 1 α ) u 2 i 1 / p 2 }

3) α

P ( α | y , x , u 1 , u 2 , σ , β , p 1 , p 2 ) f ( α ) I [ α _ < α < α ¯ ] B e t a ( a α , b α ) I [ α _ < α < α ¯ ] (11)

u 1 i > 0 , u 2 i > 0 时,有 x i T β α σ Γ ( 1 + 1 p 1 ) u 1 i 1 p 1 < y i < x i T β + ( 1 α ) σ Γ ( 1 + 1 p 2 ) u 2 1 p 2

化简可得: max { 0 , ( x i T β y i ) Γ ( 1 + 1 p 1 ) σ u 1 i 1 / p 1 } < α < min { 0 , 1 ( y i x i T β ) Γ ( 1 + 1 p 2 ) σ u 2 i 1 / p 2 }

α _ = max { 0 , ( x i T β y i ) Γ ( 1 + 1 p 1 ) σ u 1 i 1 p 1 }

α ¯ = min { 0 , 1 ( y i x i T β ) Γ ( 1 + 1 p 2 ) σ u 2 i 1 / p 2 }

4) p 1 , p 2

P ( p 1 | y , x , u 1 , u 2 , α , σ , β , p 2 ) f ( p 1 ) I [ x i T β y i α σ < u 1 i 1 / p 1 Γ ( 1 + 1 p 1 ) ] ( u 1 i > 0 ) N ( a p 1 , b p 1 ) I [ x i T β y i α σ < u 1 i 1 / p 1 Γ ( 1 + 1 p 1 ) ] ( u 1 i > 0 ) (12)

P ( p 2 | y , x , u 1 , u 2 , α , σ , β , p 1 ) f ( p 2 ) I [ y i x i T β ( 1 α ) σ < u 2 i 1 / p 2 Γ ( 1 + 1 p 2 ) ] ( u 2 i > 0 ) N ( a p 2 , b p 2 ) I [ y i x i T β ( 1 α ) σ < u 2 i 1 / p 2 Γ ( 1 + 1 p 2 ) ] ( u 2 i > 0 ) (13)

5) β

β j T = ( β 1 , , β j 1 , β j + 1 , , β k ) 为不含第j个参数的向量, β 的先验分布服从多元正态分布,根据贝叶斯定理和多元正态分布性质可得:

P ( β j | y , x , u 1 , u 2 , β j , α , σ , β , p 1 , p 2 ) f ( β j ) I [ β j ( β _ j , β ¯ j ) ] N ( b j * , B j * ) I [ β j ( β _ j , β ¯ j ) ] (14)

其中, j = 1 , , k b j * = b j B j ( j ) B ( j ) ( j ) 1 ( β ( j ) b ( j ) ) B j * = B j j B j ( j ) B ( j ) ( j ) 1 B ( j ) j ;由似然函数可知:

x i T β α σ Γ ( 1 + 1 p 1 ) u 1 1 p 1 < y i < x i T β + ( 1 α ) σ Γ ( 1 + 1 p 2 ) u 2 1 p 2

x i j > 0 时,化简为:

y i x i ( j ) T β ( j ) x i j ( 1 α ) σ u 2 i 1 / p 2 x i j Γ ( 1 + 1 / p 2 ) < β j < y i x i ( j ) T β ( j ) x i j + α σ u 1 i 1 / p 1 x i j Γ ( 1 + 1 / p 1 )

x i j < 0 时,化简为:

y i x i ( j ) T β ( j ) x i j + α σ u 1 i 1 / p 1 x i j Γ ( 1 + 1 / p 1 ) < β j < y i x i ( j ) T β ( j ) x i j ( 1 α ) σ u 2 i 1 / p 2 x i j Γ ( 1 + 1 / p 2 )

由此可得:

β _ j = { y i x i ( j ) T β ( j ) x i j ( 1 α ) σ u 2 i 1 p 2 x i j Γ ( 1 + 1 p 2 ) , y i x i ( j ) T β ( j ) x i j + α σ u 1 i 1 / p 1 x i j Γ ( 1 + 1 / p 1 ) }

β ¯ j = { y i x i ( j ) T β ( j ) x i j + α σ u 1 i 1 p 1 x i j Γ ( 1 + 1 p 1 ) , y i x i ( j ) T β ( j ) x i j ( 1 α ) σ u 2 i 1 / p 2 x i j Γ ( 1 + 1 / p 2 ) }

4. 数据模拟分析

针对一般化的形式,数据由以下设定生成:

{ y i = β 1 x 1 + β 2 x 2 + ε i , i = 1 , 2 , , n x i ~ u n i f ( 0 , 100 ) β 1 = 3 , β 2 = 2 , (15)

由于不同的误差项分布会影响分位数回归系数的变化,本文将讨论误差项 ε i ~ ALD ( 0 , 1 , p ) ε i ~ AEP ( 0 , σ , α , p 1 , p 2 ) ,生成两种不同的模拟数据。

图1给出了标准化非对称拉普拉斯分布的密度图。从中可以看到,随着偏度参数(p)不断的变化,该分布也呈现出不同的变化:当 p = 0.1 时,ALD密度图的取值集中在中右尾,当 p = 0.3 时,ALD密度图呈现左偏现象,取值偏在右尾,当 p = 0.5 时,两侧分布是对称的。

Figure 1. Normalized asymmetric Laplace distribution (ALD) density map

图1. 标准化非对称拉普拉斯分布(ALD)密度图

图2给出了非对称指数幂分布(AEPD)随偏度参数( α )变化密度图。从图中可以看到,随着偏度参数 α 不断的增大,该图呈现左偏现象。

Figure 2. Density diagram of asymmetric exponential power distribution (AEPD) with skewness parameter (α)

图2. 非对称指数幂分布(AEPD)随偏度参数(α)变化密度图

图3给出了非对称指数幂分布(AEPD)随着左尾参数( p 1 )变化密度图。从图中可以看出,随着左尾参数 p 1 不断的减小,该分布呈现左尾厚重的现象。

Figure 3. Density diagram of asymmetric exponential power distribution (AEPD) as a function of the left tail parameter ( p 1 )

图3. 非对称指数幂分布(AEPD)随着左尾参数( p 1 )变化密度图

图4给出了非对称指数幂分布(AEPD)随着左尾参数( p 2 )变化密度图。从图中可以看出,随着左尾参数 p 2 不断的减小,该分布呈现右尾厚重的现象。

Figure 4. Density diagram of asymmetric exponential power distribution (AEPD) with the right tail parameter ( p 2 )

图4. 非对称指数幂分布(AEPD)随右尾参数( p 2 )变化密度图

针对模型(15)产生相应的分布数据,ALD分布随机数可由R语言中ald包中的rALD函数生成;对于AEPD分布随机数可由3.3节中生成。采用Gibbs抽样算法对两种分布进行参数抽样,在对非对称指数幂分布进行参数抽样时,可依据(8)、(9)、(10)、(11)、(12)、(13)和(14)进行贝叶斯条件后验密度参数抽取。从条件后验密度中可以看出,对每种共轭分布进行参数抽样时,都必须进行截断处理,可使用R语言中的LaplacesDemon包,对常见的截断分布进行随机数抽样。

Table 1. Comparison table of estimated simulated values and true values following ALD distribution and AEP distribution

表1. 服从ALD分布和AEP分布的估计模拟值与真值对照表

从上表1中可以看出,非对称指数幂分布对于贝叶斯分位数回归来说是非常适应的,由于非对称指数幂的优势,在处理数据的偏度和重尾时,非对称拉普拉斯分布就稍逊一些,ALD分布只能处理偏度问题,对于拖尾的数据,ALD分布并没有参数对其进行控制,所以AEP分布相对处理起来就比ALD分布灵活一些,也更适合现在的数据。在低分位点和高分位点可以看出,对于未知参数的估计有所变化,ALD分布的参数估计使得参数值在变小,而AEP分布的参数估计却在变大。也可以看到,AEP分布在其他未知参数的估计也比较接近真实值;在样本量为25时,AEP分布的模拟结果更加接近真实真;在样本量为100时,各分位点下,AEP分布的模拟结果都稍接近真实值。

图5中给出了样本量为100时,迭代5000次,去掉前500次,服从ALD分布的 β 1 β 2 在0.25分位点的MCMC抽样轨迹图,可以看出,均在设定值上下波动,因此抽样构成的马尔科夫链收敛。

Figure 5. Traces of MCMC sampling values of β 1 and β 2 following ALD distribution

图5. 服从ALD分布的 β 1 β 2 的MCMC抽样值轨迹图

图6中给出了样本量为100时,迭代5000次,去掉前300次,服从AEP分布的 β 1 β 2 在0.25分位点的MCMC抽样轨迹图,可以看出,均在设定值上下波动,因此抽样构成的马尔科夫链收敛。

Figure 6. Traces of MCMC sampled values of β 1 and β 2 following AEP distribution

图6. 服从AEP分布的 β 1 β 2 的MCMC抽样值轨迹图

5. 结束语

本文对贝叶斯分位数回归的参数估计,从以往的ALD分布扩展到AEP分布,并对ALD分布和AEP分布进行Gibbs算法抽样。从ALD分布和AEP分布的密度图可以看出,AEP分布相对于ALD分布来说对于数据的适应性更强。从模拟的情况来看,AEP分布针对数据在低分位和高分位时,参数的估计值会比较接近真值,这也体现了它的优势。由于AEP分布的特点,AEP分布在金融数据中会得到更好的运用,由于金融数据的复杂性,ALD分布在厚尾状况下,无法对数据进行处理,而AEP分布刚好能处理这方面的问题。

参考文献

[1] Koenker, R. and Bassett Jr, G. (1978) Regression Quantiles. Econometrica, 46, 33-50.
https://doi.org/10.2307/1913643
[2] Koenker, R. and Machado, J.A. (1999) Goodness of Fit and Related Inference Processes for Quantile Regression. Journal of the American statistical Association, 94, 1296-1310.
https://doi.org/10.1080/01621459.1999.10473882
[3] Yu, K. and Moyeed, R.A. (2001) Bayesian Quantile Regression. Statistics & Probability Letters, 54, 437-447.
https://doi.org/10.1016/S0167-7152(01)00124-9
[4] Zhu, D. and Zinde-Walsh, V. (2009) Properties and Estimation of asymmetric Exponential Power Distribution. Journal of Econometrics, 14, 86-99.
https://doi.org/10.1016/j.jeconom.2008.09.038
[5] Kozumi, H. and Kobayashi, G. (2011) Gibbs Sampling Methods for Bayesian Quantile Regression. Journal of Statistical Computation and Simulation, 81, 1565-1578.
https://doi.org/10.1080/00949655.2010.496117
[6] Naranjo, L., Pérez, C.J. and Martín, J. (2012) Bayesian Analysis of a Skewed Exponential Power Distribution. Proceedings of COMPSTAT, Limassol, 27-31 August 2012, 641-652.
[7] Naranjo, L., Pérez, C.J. and Martín, J. (2015) Bayesian Analysis of Some Models That Use the Asymmetric Exponential Power Distribution. Statistics and Computing, 25, 497-514.
https://doi.org/10.1007/s11222-014-9449-1