1. 引言
回归诊断是回归分析中的重要内容,其主要的任务就是检测、识别样本观测数据与统计模型存在偏离的数据点,一般常见的诊断方法有全局影响分析和局部影响分析。全局影响分析是对比完全删除某个样本观察值前后估计量的变化程度来度量相应观察值的影响程度 [1],以此识别出影响点。局部影响分析是1986年Cook [2] 首次提出用于识别异常点和强影响点的研究方法,从似然函数出发,利用微分几何观点提出的曲率的概念,再引入微小扰动的思想,通过似然距离来度量数据点的影响。近年来,局部影响分析受到统计学者们的广泛关注和发展,许多诊断方法也相继提出,如Tsai [3]、Billor和Loynes [4] 提出了基于新的似然距离用斜率替代曲率的局部影响分析方法。Shi [5] 提出了通过定义广义Cook统计量的局部影响分析方法。在实际生活中,Belsley [6] 等学者研究发现普通最小二乘估计在进行回归诊断时会掩没一些影响点,为了克服复共线性带来的某些不好影响,许多学者考虑用有偏估计替代最小二乘估计来减轻在影响点检测时带来的负面影响。如Jahufer [7]、Jahufer [8]、Shi [9]、Billor [10] 等所做的研究。另一方面,引入约束限制也是克服复共线性的一种方法,如Paula [11] 研究了不等式约束下线性模型的局部影响分析,Liu [12] 研究了随机约束线性模型的局部影响分析,Yang [13] 等研究了等式约束下椭球线性模型的局部影响分析。
基于前人的研究,使得我们考虑线性模型受随机约束且变量之间存在复共线性时的局部影响分析,因此本文考虑随机约束Liu估计应用于局部影响分析中,并分别利用Cook似然距离方法和TBL方法,给出了在方差扰动、因变量扰动、自变量扰动这三种扰动下的诊断统计量。
2. 模型与估计
考虑线性模型
(2.1)
其中y是
的因变量,X是秩为p的
阶设计矩阵,e是
随机误差向量,期望为
,协方差矩阵为
,其中
是已知常数,
为n阶单位矩阵。假定参数估计
受如下随机约束
(2.2)
其中r是
的已知随机向量,R是秩为q的
阶已知矩阵且
,u是
随机误差向量,期望为
,方差矩阵为
,V是
阶已知正定矩阵。
基于模型(2.1)和(2.2),便于应用于局部影响分析中利用Marquardt [14] 提出的方法,得到随机约束Liu回归的增广模型:
(2.3)
这里
(2.4)
z是的阶数为
,Z的阶数为
,
的阶数为
的随机误差向量,期望为
,协方差矩阵为
,
,且该模型的各随机误差分量间相互独立。
为了将局部影响方法应用到随机约束Liu估计中,我们给出随机约束Liu回归模型(2.3)参数估计
、
的极大似然估计。因此,我们假设模型(2.3)的随机误差服从
的正态分布。
则对应的似然函数为
(2.5)
其中
。
下面我们给出参数
,
的极大似然估计。
定理1 对于模型(2.3)我们有
.
证明:对
分别关于
和
求导,得
, (2.6)
, (2.7)
其中
表示矩阵Z的第i列。令(2.6)式为零得
同理,令(2.7)式为零,我们计算
(2.8)
易得
其中
,证毕。
3. 局部影响分析
为了评估各扰动模型的局部影响,我们现在推导Cook方法下的观测信息矩阵
和矩阵
,以及TBL方法的梯度G,以便我们得到最大影响曲率和最大斜率这两个重要的统计量。
3.1. 观测信息矩阵
为了进一步探讨随机约束Liu回归模型下的影响点检测,我们推导其模型的观测影响矩阵,将参数估计
划分为
,对观测信息矩阵
也进行相应划分。
定理2 对随机约束Liu估计,
阶矩阵
(3.1)
证明:对(2.6)式的
分别关于
、
求导得
,
,
将其中的未知数取为
和
时,即得到矩阵
的前行。再对(2.7)式
关于
和
分别求导,得
,
.
在上两式中令
和
,则得到
的最后一行。
特别地,利用(2.8)式可得
因此可以写成矩阵形式
证毕。
接下来,我们分别讨论关于方差的扰动、因变量的扰动和自变量的扰动下相应的诊断统计量。
3.2. 方差扰动模型
此处我们考虑方差的扰动。令
是
阶正定扰动矩阵且
,
。显然
,即
,对应于无扰动情形,此时
。这种情形下,扰动的协方差矩阵是
。
扰动的对数似然函数为
(3.2)
定理3 对随机约束Liu估计得
阶矩阵
(3.3)
其中
,
,
表示矩阵X的第i行第j列的元素,
表示
的第j个元素。
证明:利用(3.2)式的对数似然函数可得
,
.
进一步
其中,
表示矩阵R的第i列,
表示
的第i个元素。上式关于
求导并在
、
取值可得
其中
,
表示矩阵X的第j行。
又利用(3.2)式的对数似然函数可得
上式关于
求导并在
、
取值可得
,
因此可以写成矩阵表示
证毕。
在TBL方法下,我们得
定理4对随机约束Liu回归模型得
(3.4)
证明:利用(4.2)式的对数似然函数可得
.
代入
、
即得
,
证毕。
3.3. 响应变量的扰动模型
此处我们考虑让因变量y的扰动形式记为
,其中扰动
。则无扰动的情形对应于
,而扰动后的对数似然为
(3.5)
其中
。
定理5 对随机约束Liu回归模型得
阶矩阵
(3.6)
证明:利用(3.5)式中的对数似然函数可得
,
上式关于
求导并在
,
取值可得
.
又利用(3.5)式的对数似然函数可得
其中
是
的第j个元素。上式关于
求导并在
、
取值可得
,
因此可写成矩阵形式
证毕。
在TBL方法下,我们得
定理6 对随机约束Liu回归模型得
(3.7)
证明:利用(3.5)式的对数似然函数可得
代入
、
即得
,
,
证毕。
3.4. 解释变量的扰动模型
Cook (1986)指出当自变量之间存在复共线性时,自变量的微小扰动会影响最小二乘回归的结果。我们讨论自变量扰动令
,则第t个自变量的扰动为
,这里
表示n维的扰动向量,d为
的向量,则
为第t个分量为1、其余为0的向量,s为尺度因子,则
用于解释X各列的不同的测量单位。显然无扰动的情形对于
,而扰动后的对数似然函数
为
(3.8)
而这里的
为
, (3.10)
其中
表示将矩阵Z中X代替为
得到的矩阵。
定理7对随机约束Liu估计模型,扰动设计矩阵的第t列得
阶矩阵
,
,
,
,
证明:利用(4.8)和(4.10)式可得
,
,
其中
表示
的第i列。进一步
是
的第s行第i列的元素。
将上式关于
求导并在
、
计算得
,
此式可合写为
又由(3.8)和(3.10)式算得
上式关于
求导并在
、
取值可得
,
因此可以写成矩阵形式
证毕。
在TBL方法下,我们得到
定理8 对随机约束Liu估计模型,扰动设计矩阵的第t列得
证明:利用(3.8)和(3.10)式可得
代入
、
即得
,
证毕。
4. 实证分析
为了验证在Cook和TBL的基础上提出的新方法的合理性,考虑引入Longley [15] 宏观经济数据集来检验该新方法。这组数据由就业、国民生产总值内含平减物价、国民生产总值、失业数、军事武装部队规模、14岁及以上的非机构人口、年份7个指标组成。其中y是总派生就业率,x1是GNP隐含价格平减指数,x2是国民生产总值,x3是失业率,x4是武装力量的规模,x5是14岁及以上的非机构人口,x6是年份。Belsley等人利用最大特征值与最小特征值的比值计算得到条件数值,该数据集下的条件数为43275,说明Longley宏观经济数据集变量之间存在很强的共线性。
Cook (1977) [16] 利用Longley基于最小二乘估计的全局影响分析,从大到小依次检测出5、16、4、10、15为影响点(本文所有排序都是从大到小),Walker和Birch [17] 基于岭估计的全局影响分析,检测出16、10、4、15、1为影响点,容易见两种方法检测出的影响点有较大差异,这是因为最小二乘估计在回归诊断时的不稳定性导致的。此外,取岭参数
,Shi和Wang考虑岭估计局部影响分析,检测出10、4、15、16、1为影响点,当数据集复共线性很强时,Liu提出了Liu估计,该估计在克服复共线性和均方误差准则皆优于岭估计。考虑其优良性,取Liu参数
,Jahufer和Chen (2010)利用Liu估计局部影响分析,检测出4、10、1、5、6为影响点,
局部影响分析方法探测到了基于Liu估计下的影响点,Zhang (2010)基于Liu估计局部影响分析,在方差扰动、响应变量扰动、解释变量扰动三种模型下,检测出4、5、6、10、11、13为影响点。同样我们选择该数据集,以此来和前人的检测结果进行比较。因此,选择Ozkale (2009) [18] 选择的数据点2、3 来构成随机约束的(3.5)式。首先对数据点2、3进行标准化处理,所以有
在方差扰动下,取Liu参数
,使用Cook的方法所得到的
向量的检测结果见图1(a),影响最大的分量为10,4。使用TBL所得到的
向量的检测结果见图1(b),同样影响最大的分量为10,4。这说明在方差扰动下随机约束Liu回归在Cook方法和TBL方法探测到的影响点没有明显差异。
(a) (b)
Figure 1. (a) is the index graph of
under variance disturbance; (b) is the index graph of
under variance disturbance
图1. (a)为方差扰动下
的指标图;(b)为方差扰动下
的指标图
在响应变量扰动下,取Liu参数
,在图2(a)中,基于Cook方法的最大分量
依次对应点10、4、15、6、1。在图2(b)中,基于TBL方法的最大分量
依次对应点10、4、15、6、1。根据Schwarzmann [19] 无偏估计下
正比于残差向量,通过本文定理6知
是正比于残差向量的,易见两图
、
几乎完全一样,即他们是成比例的。说明随机约束Liu回归下
和
是正比于残差向量的
(a) (b)
Figure 2. (a) is the index graph of
under the disturbance of response variable; (b) is the index graph of
under the disturbance of response variable
图2. (a)为响应变量扰动下
的指标图;(b)为响应变量扰动下
的指标图
在单个解释变量扰动下。同样取Liu参数
,基于Cook方法的最大分量
,见图3(b)、图3(c)、图3(e)的检测结果,发现扰动解释变量x2、x3、x6的影响点都为10、4、15、6、1,见图3(a)的检测结果,发现扰动解释变量x1的影响点为10、4、1、15、6,见图3(d)的检测结果,发现扰动解释变量的x4的影响点为10、4、15、5、6,见图3(f)的检测结果,发现扰动解释变量的x5的影响点为10、4、6、5、15,易见自变量的改变会导致检测结果的改变。基于TBL的最大分量
,见图4(a)~(e)的检测结果,发现扰动解释变量扰动x1、x2、x3、x4、x5、x6都的影响点都为10、4、15、6、1。与其他学者的方法相比,检测结果有三个以上是相同的,说明本文基于随机约束下Liu估计提出的局部影响分析方法的合理性。
两种方法也反映了Cook方法更能为我们提供更多信息,同时,通过检测结果发现我们选取的数据点2、3不是影响点,这也说明了我们选取的约束条件不同也会对我们的结果产生负面影响。在这种情形下我们检测到的结论和前人探测到的结论是可比较的。我们也考虑不同的Liu参数d值检测出的影响点也不完全相同,说明Liu参数d的选取会影响我们的检测结果。
5. 结论
本文研究了具有随机线性约束Liu回归中的影响诊断方法。利用Marquardt (1970)的方法得到了极大似然随机约束Liu估计,我们在三种扰动模型下导出了Cook方法的观测信息矩阵
和
,以及TBL方法的梯度G。从而得到Cook方法的
和
,以及扰动模型下TBL方法的
和
。最后,通过数据集进行了验证,说明本文所提出的理论与方法的合理性。