1. 引言
1959年Sklar首次提出Copula的概念并证明了任何一个n维联合分布函数都可以用某个Copula函数“连接”n单变量的边际分布函数表达,其中边际分布描述了单个变量的特征,而Copula函数用以刻画边际分布之间的“结构” [1] 。Copula函数本质是把多元随机变量的联合分布函数用各一维边际分布函数连接起来的函数。更进一步,如果给出了一组边际分布和某个Copula函数,那么就可以用该Copula构造一个联合分布。Copula的这种灵活的特征使得它在金融、环境资源管理等领域得到广泛的应用。
Copula函数的优良性质和特殊结构使得其在极端事件统计规律的研究中具有重要作用,极值Copula函数的相关函数作为极值Copula函数的重要推导函数,国外从上个世纪的八十年代开始对相关函数进行估计 [2] 。Csorgo与Revesz率先提出了经典相关函数的非参数Pickands估计 [3] 。Muller和Roeder通过变量替换和顶点限制的方式获得了二元极值Copula相关函数的CFG-估计,并证明了二元CFG-估计为非参数无偏估计 [4] 。2008年,Zhang,Wells和Peng将相关函数的二元CFG-估计推广到了多元,并推导出了多元CFG-估计仍为非参数无偏估计 [5] 。Peter和Nader [6] 通过交叉验证的方法获得了HT-估计。Gordon和Johan [7] 在HT-估计的基础上采用最小二乘法获得了相关函数的OLS-估计。
综合现有的文献可以发现,国内外很多学者关注于极值Copula函数的相关函数的研究。受此启发,本文在OLS-估计和N-W核回归估计模型的基础上构建了二元相关函数的N-W核回归估计并通过数值模拟验证了N-W核回归估计在一定程度上优于OLS-估计 [6] 。
2. 极值Copula函数的相关函数
假设为二元随机变量,令的联合分布函数为H,边缘分布分别为F,G且均为连续函数,则,服从的均匀分布,C为二元极值Copula函数,令,,任何C都可以有如下表达式 [2] :
(2.1)
上式中为C的相关函数。函数具有如下性质:
1)为凸函数;
2);
3)。
为的n个独立样本取,,,由于,分别为U,V的第i个分量。
当时的概率表达式为:
.
由此可知服从均值为的指数分布。因此,服从位置参数为的Gumbel分布 [7] ,故有
(2.2)
其中g为Euler常数,。
由(2.2)式得
, ,
有
成立,所以为的渐近无偏估计。
Kendal’s t系数是一个最具有代表性的相关系数,Kendal’s t系数的定义如下 [8] [9] :
Kendal’s t系数与相关函数的表达式 [4] :
3. N-W核估计
设是来自的一个样本,,令且,则X与Y之间的回归模型为:
,
为未知函数,可以通过权函数方法来拟合,对于样本,权函数估计就是对进行估计 [10] 。的非参数回归估计量可以表示为:
核估计是权函数估计的一种方法,最常见的核估计是Nadaraya和Waston于1964年提出的N-W核权函数回归估计即N-W核估计,N-W核估计得到函数 的核光滑方法即 [11] [12] [13]
, (3.1)
其中,为核函数,h为带宽或窗宽。核函数具有以下性质:
1);
常见的核函数如表1。
依据N-W核回归的定义构建相关函数的核回归的模型:
由(3.1)可得到相关函数的N-W核估计公式
, (3.2)
其中为上的随机变量。
核估计的结果与带宽h的选择有关所以相关函数的N-W核估计结果同样与带宽h有关。选择的带宽h值越小,核估计的偏差值就会越小,核估计的方差反而越大;反之,选择的带宽h值越大,核估计的偏差值就会越大,核估计的方差反而越小。所以要在核估计的偏差与方差之间做一个权衡,使核估计的均方误差最小。选择带宽主要有直接插入法、经验法则、最小平方交叉验证法和惩罚函数法。本文使用广义交叉验证法的最优带宽公式 [14] :
其中,,为的经验密度函数。
4. 随机模拟
二元极值Copula函数的相关函数的模型 [15] :
(4.1)
其中,。当时(4.1)为:
(4.2)
Table 1. Common kernel functions
表1. 常见的核函数
注:为示性函数。
模型(4.1)在除去的情况后为非对称模型,本文选择(4.2)模型与估计值进行比较。在(4.2)模型中的r与Kendal’s t系数关系为。
在本文的模拟过程中相关函数的N-W核回归估计均在最优宽带的前提下选择Gaussian核函数,其中Gaussian核函数的, [14] 。表2为样本量分别为50,100和500情况下,随机生成的二元随机变量,N-W核估计和OLS估计分别与模型的均方误差。表3为样本量分别为250,500和1000情况下,随机生成50%的和30%的以及20%的,的混合分布二元随机变量,N-W核估计和OLS估计分别与模型的均方误差。
如表2与表3所示的t的值均从0取到0.95,间隔为0.05,相当于r的值从1取到20,但间隔不等。如表2与表3所示在t相同样本量不同的情况下,随着样本量的增加相关函数的N-W核估计和OLS估计与模型的均方误差几乎均在减小。在如表2所示在t相同样本量相同的情况下,相关函数的N-W核估计与模型的均方误差均略大于相关函数OLS-估计与模型的均方误差。但是在如表3所示却相反;如表2与表3所示均在样本量相同的情况下,随着r的增加相关函数的N-W核估计与相关函数的OLS-估计的均方误差都逐渐减小再增加;如表2所示相关函数的N-W核估计分别在样本量为50,
Table 2. Mean square error in pure data
表2. 数据纯净情况下的均方误差
Table 3. Mean square error in mixed data
表3. 数据混杂情况下的均方误差
100和500情况下在,和附近处取得最小。相关函数的OLS估计分别在样本量为50,100和500情况下在均在附近处取得最小;如表3所示相关函数的N-W核估计分别在样本量为250,500和1000情况下均在附近处取得最小。相关函数的OLS估计分别在样本量为250,500和1000情况下均在和附近处取得最小;在样本量服从,,的情况下,可知在附近处均方误差为最小。有模拟结果可知在分布已知数据纯净的情况下,相关函数的OLS估计效果好,分布未知混杂数据的情况下,相关函数的N-W核估计效果好。
5. 总结
本文在二元极值Copula函数的相关函数OLS估计的基础上,结合具有模型简单,参数少且稳定性高的非参数估计方法N-W核估计,提出了相关函数的N-W核估计,并证明了该估计的无偏性。通过生成服从不相关的二元正态分布的随机变量数值生成N-W核估计与OLS估计模拟相关函数。分别与选定的相关函数的模型进行比较,可以得出N-W核估计的稳定性在分布未知数据混杂的情况下要高于OLS估计。
本文数值分析选择了相关系数单一且样本量较小的情况分析,相关系数的选择和样本量的个数可能会对相关函数的估计会造成影响,在以后的研究中还需进一步的验证方法的适用性。
基金项目
国家自然科学基金项目(71762008)。
参考文献