相依函数型数据均值检验的样本量确定
Determination of Sample Size for Mean Test of Dependent Functional Data
摘要: 随着科学技术的进步,收集和储存函数型数据成为了可能。像金融市场的高频股票数据、气象里的温度数据、空气PM2.5数据等都是天然的函数型数据,并且这些函数型数据之间是相依的,不再满足独立同分布的条件,又称之为相依性函数型数据。当函数型数据具有相依特征时,样本协方差函数不再是总体协方差函数的一致估计量,导致函数主成分计算不准确,进而影响后续的统计推断。本文将利用长期协方差函数得到更加准确的函数型主成分,证明了检验统计量收敛到卡方分布,并给出效应量的度量方法从而计算最低样本量。最后通过数据模拟以及该方法应用到空气质量指数(AQI)和六大空气主要污染物PM2.5、PM10、SO2、NO2、O3、CO的浓度数据证明方法的有效性。
Abstract: With the advancement of science and technology, it has become possible to collect and store functional data. High frequency stock data in financial markets, temperature data in meteorology, PM2.5 data in the air, etc. are all natural functional data, and these functional data are interdependent and no longer meet the conditions of independent and identically distributed data, also known as dependent functional data. When functional data has dependency characteristics, the sample covariance function is no longer a consistent estimate of the population covariance function, resulting in inaccurate calculation of the principal components of the function, which in turn affects subsequent statistical inference. This article will use long-term covariance functions to obtain more accurate functional principal components, prove that the test statistic converges to a chi square distribution, and provide a measurement method for the effect size to calculate the minimum sample size. Finally, the effectiveness of the method was demonstrated through data simulation and its application to the Air Quality Index (AQI) and concentration data of the six major air pollutants PM2.5, PM10, SO2, NO2, O3, and CO.
文章引用:张可. 相依函数型数据均值检验的样本量确定[J]. 统计学与应用, 2024, 13(5): 1796-1806. https://doi.org/10.12677/sa.2024.135176

1. 引言

函数型数据最早是1982年Ramsay [1],1991年Ramsay和Dalzell [2]提出的,其为定义在某个集合T上的函数,表示为 X( t ) 。例如随时间变化的股票交易价格,随位置变化的温度等。假设检验作为两大统计推断问题之一,历来受到研究学者的极大关注。近年来,函数型数据中的假设检验问题也受到了关注。例如1998年Fan [3]研究了函数型数据的显著水平;针对函数型数据,2012年Ferraty [4]对其条件分布,Bugni [5]对缺失数据进行了检验;针对协方差算子,2013年Fremdt [6]对其是否相等以及Jaruvskova [7]对其是否存在变点进行了检验;针对两样本均值函数相等性的检验问题,2009年Horváth [8]等利用FPCA给出了协方差算子特征根和特征函数的估计,然后基于此估计构造了渐近分布和渐近混合分布两个检验统计量。2010年Zhang [9]等研究了FDA中两样本Behrens-Fisher检验问题,对两个高斯过程均值函数相等性进行了检验,提出了混合卡方渐近统计量。2014年Portugue [10]提出的针对响应变量是实值的函数线性模型的拟合优度检验;2020年Hu [11]等对主成分结构不明显的函数数据,构造了一个4阶的U统计量,并证明了该检验统计量是渐近正态的。

长期以来,样本量与统计功效总是相伴出现的。统计功效由显著性水平、效应量和样本量三者共同决定。在显著性水平和效应量不变的情况下,样本量越大,功效就越高。所以,统计功效实际上取决于样本量的大小,而提高统计功效的主要方法是增加样本量。然而如果样本量太小,研究结果的可重复性及代表性就欠佳可能得出错误的结论。但是如果样本量过大,试验过程中对研究对象的潜在伤害越大,比如一些动物实验还可能存在一定的伦理问题,而且研究所需的经费和资源就越多,项目执行的难度也越大。样本量在实验结果、动物伦理和经济效应方面具有的突出、核心和重要作用,这要求我们在假设检验中必须提前给出合适、准确的样本量。

本文余下内容结构如下:第2节介绍预备知识,提出检验统计量,证明其理论性质。第3节对检验统计量在不同功效下做Monte Carlo模拟计算最低样本量。第4节验证该样本量确定方法在气象数据的应用。第5节总结全文。

2. 相依函数型数据均值检验

2.1. 可逼近的函数时间序列

引理1 我们假设 { ε i } 是;L2-m-可逼近的函数时间序列,因此也是平稳的,并且 { ε i } 满足在 L 2

E ε 0 =0 ,以及 E ε 0 2 ( t )dt 有界即 E ε 0 2 ( t )dt < ,那么 N 1/2 i=1 N ε i D Z

其中 Z 是一个高斯过程,

EZ( t )=0,E[ Z( t )Z( s ) ]=c( t,s ) , c( t,s )=E ε 0 ( t ) ε 0 ( s )+ i1 E ε 0 ( t ) ε i ( s ) + i1 E ε 0 ( s ) ε i ( t ). (1)

核函数 c L 2 ( [ 0,1 ]×[ 0,1 ] ) 上的平方可积函数。

不失为一般性,我们假设 μ( t ) 是非零的均值函数,

X i ( t )=μ( t )+ ε i ( t ),1iN (2)

其中随机误差函数 { ε i } 满足引理1的假设。

核函数 K 满足以下条件:

K(0)=1 K 是连续有界函数, K( u )=0 且如果 | u |>c ,那么对于某些 c>0. (3)

接下来我们定义经验协方差函数,

γ ^ i ( t,s )= 1 N j=i+1 N ( X j ( t ) X ¯ N ( t ) )( X ji ( s ) X ¯ N ( s ) ),0iN1.

其中 X ¯ N ( t )= 1 N 1iN X i ( t )

c 的估计量为

c ^ N ( t,s )= γ ^ 0 ( t,s )+ i=1 N1 K( i h )( γ ^ i ( t,s )+ γ ^ i ( s,t ) ) , (4)

其中 h=h( N ) 是满足以下条件的平滑窗宽:

N 时, h( N ), h( N ) N 0. (5)

引理2 假设函数型时间序列满足(1)中的模型,在条件(3) (5)下

( c ^ N ( t,s ) c N ( t,s ) ) 2 dtds P 0,

其中 c( t,s ) 是(1)式中的定义, c ^ N ( t,s ) 是(4)式中定义。

引理1和引理2的证明Horváth,Kokoszka,Reeder [12]已给出。这里我们直接引用结论。

2.2. 均值函数的检验

我们知道两个样本假设检验过程中,样本量的大小一致时检验效果会更好,同时样本量数量相同也符合很多情况下我们设计实验的习惯。所以在该问题下我们第一个假设就是训练样本和测试样本的样本量数量相同。

我们考虑两个样本数量相同的训练样本 X 1 ,, X N 和测试样本 X 1 ,, X N 。我们假设这两个样本分别来自以下模型:

X i ( t )=μ( t )+ ε i ( t ).

X i ( t )= μ ( t )+ ε i * ( t ).

其中 1iN

我们假设随机误差函数 ε i ε i 都满足所提出的条件,特别注意的是他们的长期协方差核定义如下:

c ( t,s )=E ε 0 ( t ) ε 0 ( s )+ i1 E ε 0 ( t ) ε i ( s )+ i1 E ε 0 ( s ) ε i ( t ) .

我们假设随机误差函数 { ε i ,1iN } { ε i ,1iN } 是相互独立的,对于这个假设检验问题我们得:

H 0 :μ= μ *  versus  H 1 :μ μ * .

我们知道在 L 2 = L 2 ( [ 0,1 ] ) 空间里,原假设 μ= μ * 意味着 ( μ( t ) μ * ( t ) ) 2 dt=0 ,备择假设 μ μ * 意味着 ( μ( t ) μ * ( t ) ) 2 dt>0 。因为统计推断是关于样本观测值的平均函数,并且我们知道

X ¯ N ( t )= 1 N 1iN X i ( t ) X ¯ N ( t )= 1 N 1iN X i * ( t )

分别是 μ μ 的无偏估计量,因此如果

T N = N 2 ( X ¯ N ( t ) X ¯ N ( t ) ) 2 dt

很大,我们就有足够的我们有充分的理由拒绝原假设。

定理1如果 H 0 ,以及引理1和引理2均成立,并且当 N 时,我们有:

T N D 0 1 Γ 2 ( t )dt

其中, { Γ( t ),0t1 } 是一个均值为零的高斯过程并且具有协方差

E[ Γ( t )Γ( s ) ]=d( t,s )= c( t,s )+ c ( t,s ) 2

证明:为了证明以下定理我们先说明一个事实:当 N 我们有:

max 1iK | λ ^ i λ i | P 0, max 1iK φ ^ i c ^ i φ i P 0 (6)

其中 c ^ i =sgn( φ ^ i , φ i ) ,这样的事实我们在经验协方差算子和总体协方差算子的特征值和特征函数的估计里已经广泛应用。

引理1和引理2表明,当 N 时我们有

( N 1/2 1iN ε i ) D Γ (1) ( t ) , ( N 1/2 1iN ε I * ) D Γ (2) ( t ) ,

其中 Γ (1) Γ (2) L 2 上相互独立的均值为零的高斯过程并且它们的协方差分别为

E[ Γ (1) ( t ) Γ (1) ( s ) ]=c( t,s ) , E[ Γ (2) ( t ) Γ (2) ( s ) ]= c * ( t,s ) ,

并且当 H 0 成立时我们知道还有

N 2 0 1 ( N 1 1iN ε i ( t ) N 1 1iN ε i * ( t ) ) 2 dt D 0 1 Γ 2 ( t )dt. (7)

其中 Γ( t )= 1 2 1/2 Γ (1) ( t )+ 1 2 1/2 Γ (2) ( t ) 。定理1得证。

定理2:如果 H 1 和定理1成立, 2 N T N P 0 1 ( μ( t ) μ * ( t ) ) 2 dt ,特别地我们还知道 2 N T N P

证明:通过希尔伯特空间中的Ergodic Theorem我们知道, X ¯ N ( t )μ( t ) =op( 1 ) 以及 X ¯ N * ( t ) μ * ( t ) =op( 1 ) 。定理2得证。

定理1中的核函数 d( t,s ) 所定义出来的协方差算子 D ,记 D 中的特征值满足 λ 1 λ 2 ,通过Karhunen-Loève展开式(K-L展开),我们可以得到

0 1 Γ (2) ( t )dt= i=1 λ i N i 2

其中 { N i ,1i } 是相互独立的标准正态随机变量。

由于特征值 λ i 未知,所以无法直接用上述公式来模拟 0 1 Γ (2) ( t )dt 的分布,下面我们来解释如何估计 λ i

假设 D ^ D L 2 中的一致估计量,当 N

( d ^ ( t,s )d( t,s ) ) 2 dtds P 0 (8)

我们设想满足上式关系式的估计量 D ^ 的构造。首先对于估计量 D ^ 不管 H 0 H 1 是否成立上式都成立,其次估计量 D ^ 也不依赖于 μ μ 。并且我们还知道(6)式在 H 0 H 1 下都成立,因此我们可以在备择假设 H 1 估计 0 1 Γ (2) ( t )dt 的分布。

假设 λ ^ 1 λ ^ 2 D ^ 的特征值,我们有

d ^ ( t,s ) φ ^ i ( s )ds = λ ^ i φ ^ i ( t ),

其中, φ ^ i ( t ) 是相应的特征函数且 φ ^ i 2 ( t )dt=1 。然后选择合适的 d 使得累计方差比例 CPV= i=1 d λ ^ i / i=1 2N λ ^ i 足够大,我们可以用 i=1 d λ ^ i N i 2 的分布来近似 0 1 Γ (2) ( t )dt 的分布。

我们的统计推断是基于 X ¯ N X ¯ N * 的差值,当 N

N 2 E[ ( X ¯ N ( t ) X ¯ N * ( t ) )( X ¯ N ( s ) X ¯ N * ( s ) ) ]d( t,s )

因此, d( t,s ) X ¯ N X ¯ N * 的差值的渐近协方差核。我们使用 X ¯ N X ¯ N * φ 1 , φ 2 ,, φ d 上的投影,定义投影为

a i = X ¯ N X ¯ N * ,φ i ,1id,

从而得到向量 α= [ a 1 , a 2 ,, a d ] T

我们还能从定理3的证明过程知道:

( N 2 ) 1/2 α D N d ( 0,Q ) (9)

其中 N d ( 0,Q ) 表示均值为0的 d 元正态随机变量,并且协方差矩阵

Q=[ λ 1 λ 2 λ d ]

由于协方差算子 D 未知,我们无法直接计算出 φ i 。但是我们知道满足协方差算子 D 的估计量也可以用来计算 φ i 的估计量。我们假设 φ ^ i 是上式中定义的特征函数且

a ^ i = X ¯ N X ¯ N * , φ ^ i ,1id,

根据上式我们提出下面这个检验统计量

T N = N 2 i=1 d a ^ i 2 λ ^ i .

定理3 假设 H 0 ,定理1和(8)式成立且 λ 1 > λ 2 >> λ d ,那么 T N D χ 2 ( d ) 。其中 χ 2 ( d ) 是一个自由度为 d 的卡方随机变量。

证明:在定理3的假设下,我们有

{ N 1/2 1iN ε i , φ k ,1kd } D N d (1) ( 0, Q (1) )

{ N 1/2 1iN ε i * , φ k ,1kd } D N d (2) ( 0, Q (2) )

其中 N d (1) ( 0, Q (1) ) N d (2) ( 0, Q (2) ) 是相互独立的 d 元正态随机变量。

因为

a k = N 1 1iN ε i , φ k N 1 1iN ε i * , φ k ,1kd

其中 Q= Q (1) + Q (2) 2

我们知道矩阵 Q=( Q( k,l ),1k,ld ) 满足

Q( k,l )= d( t,s ) φ k ( t ) φ l ( s )dtds= λ k δ kl ,

其中 δ ij 是一个克罗内克函数, φ k 是正交的特征函数, λ k 是相应的特征值。

由(6)式我们有

a ^ k = c ^ k ( N 1 1iN ε i , φ k N 1 1iN ε i * , φ k )+ N 1 1iN ε i N 1 1iN ε i * , φ ^ k c ^ k φ k .

再由(7)式我们有

( N 2 ) 1/2 | 1 N 1iN ε i 1 N 1iN ε i * , φ ^ k c ^ k φ k | [ T N ( ( φ ^ k c ^ k φ k )dt ) ] 1/2 =op( 1 ).

再由(9)式以及矩阵Q的对角性。定理3得证。

参考Jacob Cohen [13]效应量的计算方式,

Effect size ( w )= T N T N +N

从而就能计算特定显著性水平 α 下要检测到特定效应量Effect size和检验功效power的最低样本量。同样地,我们规定:0.2或更小的w是较小的效应量;0.5附近的w是中等效应大小;0.8或更大的w是较大的效应量。

3. 数值模拟

为了计算最低样本量,本节将使用蒙特卡洛模拟的方法进行数值模拟。由定理3可知检验统计量在原假设下渐近服从 χ 2 ( d ) ,其中d是所选取的主成分的个数。主成分个数d选取是函数型数据主成分分析经常遇到的问题。常见的方法有交叉验证法、碎石图方法、pseudo-AIC、以及累计方差占比(CPV)方法,本文采用的是累计方差占比(CPV)方法,即

CPV( d )= i=1 d λ ^ i i=1 2N λ ^ i .

选取合适的 d 使得 CPV( d ) 不小于95%。

Horváth,Kokoszka,Reeder [12]通过他们提出的方法进行数值模拟时只研究了检验水平(size)和检验功效(power),而没有给出高功效下的最低样本量表。参考Horváth et al.的数据生成方式,不失为一般性,设定均值函数 μ( t )= μ * ( t )=0 时,原假设成立,备择假设下,设定 μ( t )=0 以及 μ * ( t )=ct( 1t ) 。随机误差函数 { ε i ( t ) } { ε i * ( t ) } 都是独立同分布的布朗桥。

核函数选择的是Politis和Romano [14]的flap top核,即

K( t )={ 1 0| t |<0.1 1.1| t | 0.1| t |<1.1, 0 1.1| t |

其中窗宽为 h= h * = N 1/3

[ 0,1 ] 区间上等间距取301个观测点,c从0.5变化到1,在显著性水平 α 为0.01、0.05、0.10三种情形下做1000次重复模拟结果如表1所示。本文所有程序都是用R完成的。

Table 1. Sample size and empirical power of mean function equality test for dependency functional data

1. 相依性均值函数相等检验的样本量和经验功效

Power = 0.8

Power = 0.9

α = 0.01

α = 0.05

α = 0.10

α = 0.01

α = 0.05

α = 0.10

c

n

EP

n

EP

n

EP

n

EP

n

EP

n

EP

0.5

320

0.801

270

0.801

228

0.802

413

0.906

323

0.901

302

0.900

0.6

227

0.800

182

0.801

160

0.804

301

0.914

232

0.903

215

0.918

0.7

165

0.808

118

0.803

106

0.809

213

0.915

170

0.903

159

0.900

0.8

131

0.803

102

0.806

93

0.803

173

0.903

135

0.901

113

0.902

0.9

106

0.803

85

0.801

75

0.806

132

0.901

109

0.901

95

0.907

1.0

85

0.809

66

0.803

58

0.800

102

0.900

87

0.912

75

0.903

4. 气象数据实例分析

改革开放以来,随着我国工业化和城市化进程的不断加速,大气污染问题日益凸显。2013年我国遭遇了有观测以来最严重的雾霾天气。空气质量问题是关乎国家生态安全和人民福祉的重大课题。因此持续关注和研究空气质量数据有重要意义。空气质量指数(AQI)和六大空气主要污染物:细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO)不仅是天然的函数型数据,另一个重要特征是这些数据还是相依型函数型数据。以PM2.5浓度为例,可以看出本文选取的数据具有明显的函数曲线特征,因此可以用函数型数据中的平滑方法对数据进行处理。同时,这些曲线并不是具有相同分布的独立曲线,它们不是简单的随机曲线样本。一方面,某一天的PM2.5浓度曲线会受到前几天PM2.5浓度曲线的影响,曲线之间具有记忆性;另一方面,某一时刻的PM2.5浓度也总受到前面时刻PM2.5浓度的影响。因此,本文选取的样本符合假设条件,可以进行实例分析。

为了验证我们提出的均值函数假设检验问题的样本量确定方法的有效性,本章将选取北京市东城区和西城区空气质量历史数据进行研究。此时我们关心的是自2020年9月中国明确提出实现“双碳”目标以来,北京市东城区和西城区的空气质量指数(AQI)和六大空气主要污染物PM2.5、PM10、SO2、NO2、O3、CO的浓度是否相同。数据均来自北京市环境保护检测中心。

因为检验的思路基本一致,所以我们以空气质量指数(AQI)为例。首先,对采集的每天24个空气质量指数(AQI)数据补齐缺失值,利用缺失时刻前后三小时的平均值代替缺失值。在拟合之间我们首先压缩一下数据范围,我们将空气质量指数(AQI)数据对数化处理,然后通过数据变换,将每天时间 [ 0,24 ] 变换到 [ 0,1 ] 上面。然后对于这些离散的观测值我们再使用50个傅里叶基光滑拟合。对2024年3月1日至3月30日北京市东城区和西城区的空气质量指数AQI、六大污染物PM2.5、PM10、SO2、NO2、O3、CO的浓度数据进行光滑处理如图1所示。

Figure 1. AQI、PM2.5、PM10、SO2、NO2、O3、CO concentration curves smoothed in Dongcheng District and Xicheng District

1. 东城区和西城区平滑处理后的AQI、PM2.5、PM10、SO2、NO2、O3、CO浓度曲线

使用本文提出的方法估计出特征值和特征函数再按照CPV ≥ 95%,均选取5个主成分,计算统计量 T=45.45918 ,利用公式计算效应量大小

Effect Size ( W )= T N T N +N

设置显著性水平 α=0.01 ,功效power = 0.9,利用R语言的pwr包我们计算得到样本量大小为35。选择北京市东城区和西城区2024年3月1日至4月4日这35天的空气质量指数AQI计算本文提出检验的p值,p值等于2.60981e−07。因此,显然有充分的理由拒绝原假设。同样的方法运用于东城区和西城区六大空气主要污染物PM2.5、PM10、SO2、NO2、O3、CO的浓度是否相同检验问题时,计算得到所需的样本量分别为:53、28、29、29、25、56。选择相应天数进行检验,计算得到p值均接近零,如表2所示。这意味着该样本量的确定方法是有效的。

Table 2. Sample size and p-value for mean test of air quality data

2. 空气质量数据均值检验的样本量及p-value

空气质量数据

Effect Size

样本量大小

p-value

AQI

0.788989

35

2.60981e−07

PM2.5

0.64600

53

0.00066

PM10

0.89394

28

0

SO2

0.87843

29

0

NO2

0.86958

29

0

O3

0.93815

25

0

CO

0.62870

56

0

5. 结论

本文针对相依性函数型数据,假设训练样本和测试样本在样本数量相同条件下提出检验统计量,并对该检验统计量的理论性质进行研究,得到了原假设下的渐近分布,并提出了效应量的度量方式。在显著性水平 α 、检验功效power、效应量Effect size确定的情况下计算最低样本量。最后将该方法应用到空气质量指数(AQI)和六大空气主要污染物PM2.5、PM10、SO2、NO2、O3、CO的浓度数据证明了该方法的有效性。

参考文献

[1] Ramsay, J.O. (1982) When the Data Are Functions. Psychometrika, 47, 379-396.
https://doi.org/10.1007/bf02293704
[2] Ramsay, J.O. and Dalzell, C.J. (1991) Some Tools for Functional Data Analysis. Journal of the Royal Statistical Society Series B: Statistical Methodology, 53, 539-561.
https://doi.org/10.1111/j.2517-6161.1991.tb01844.x
[3] Fan, J. and Lin, S. (1998) Test of Significance When Data Are Curves. Journal of the American Statistical Association, 93, 1007-1021.
https://doi.org/10.1080/01621459.1998.10473763
[4] Ferraty, F., Quintela-del-Río, A. and Vieu, P. (2011) Specification Test for Conditional Distribution with Functional Data. Econometric Theory, 28, 363-386.
https://doi.org/10.1017/s0266466611000351
[5] Bugni, F.A. (2012) Specification Test for Missing Functional Data. Econometric Theory, 28, 959-1002.
https://doi.org/10.1017/s0266466612000023
[6] Fremdt, S., Steinebach, J.G., Horváth, L. and Kokoszka, P. (2012) Testing the Equality of Covariance Operators in Functional Samples. Scandinavian Journal of Statistics, 40, 138-152.
https://doi.org/10.1111/j.1467-9469.2012.00796.x
[7] Jarušková, D. (2013) Testing for a Change in Covariance Operator. Journal of Statistical Planning and Inference, 143, 1500-1511.
https://doi.org/10.1016/j.jspi.2013.04.011
[8] Horvath, L., Kokoszka, P. and Jaruvskova, D. (2009) Two Sample Inference in Functional Linear Models. Canadian Journal of Statistics, 37, 571-591.
[9] Zhang, J., Liang, X. and Xiao, S. (2010) On the Two-Sample Behrens-Fisher Problem for Functional Data. Journal of Statistical Theory and Practice, 4, 571-587.
https://doi.org/10.1080/15598608.2010.10412005
[10] García-Portugués, E., González-Manteiga, W. and Febrero-Bande, M. (2014) A Goodness-Of-Fit Test for the Functional Linear Model with Scalar Response. Journal of Computational and Graphical Statistics, 23, 761-778.
https://doi.org/10.1080/10618600.2013.812519
[11] Hu, W., Lin, N. and Zhang, B. (2020) Nonparametric Testing of Lack of Dependence in Functional Linear Models. PLOS ONE, 15, e0234094.
https://doi.org/10.1371/journal.pone.0234094
[12] Horváth, L., Kokoszka, P. and Reeder, R. (2012) Estimation of the Mean of Functional Time Series and a Two-Sample Problem. Journal of the Royal Statistical Society Series B: Statistical Methodology, 75, 103-122.
https://doi.org/10.1111/j.1467-9868.2012.01032.x
[13] Cohen J. (1988) Statistical Power Analysis for the Behavioral Sciences. 2th Edition, Routledge, 215-227.
[14] Politis, D.N. and Romano, J.P. (1996) On Flat-Top Kernel Spectral Density Estimators for Homogeneous Random Fields. Journal of Statistical Planning and Inference, 51, 41-53.
https://doi.org/10.1016/0378-3758(95)00069-0