1. 引言
在现实生活中许多领域都涉及对相关特征预测的问题,而且其问题通常在个体层次或亚群体层次发生。在对特征预测问题分析时,可将新观测数据(含有特征信息的数据)在训练集(已有)数据中,找到一个与其相匹配的群组,即借用这个群组中训练集数据的相关信息来提高预测的准确性。基于这思想,Jiang等 [1] 提出了分类混合模型预测(Classified Mixed Model Prediction, CMMP),通过数值模拟显示,在预测准确性方面上,CMMP方法显著优于回归预测(Regression Prediction, RP)方法。CMMP方法得到统计学者的认同,此外该方法在小区域估计领域存在广泛的应用,如刘育孜等 [2] 通过用CMMP方法对农作物面积的估算;王婕雯等 [3] 通过用CMMP方法对小麦面积估算。同时,基于CMMP思想,有许多文献对该方法进行了改进和推广,如Sun等 [4] 将适用于连续响应变量的线性混合模型的CMMP方法拓展到集群二分类数据(离散响应变量),从而提出了分类混合逻辑模型预测方法。此外,Sun等 [5] 又对该方法进行改进,结合协变量数据中信息进行分类匹配,提出新的分类混合模型预测方法,其预测准确性也优于(Mixed Model Prediction, MMP)方法 [6]。
CMMP方法的匹配判别策略度量是均方预测误差(Mean Squared Prediction Error, MSPE),研究发现,在这种准则下,即使训练集数据中的某组数据和新观测数据的确来自同一群组,但是在判别匹配关系即 值时,仍有可能存在不正确的情况,由于这种匹配的错误率,从而影响CMMP方法预测的准确性。因此通过改善CMMP方法的匹配准则,提高匹配的正确率,就有可能提高CMMP方法预测的正确性。Gneiting等 [7] 提出严格适当评分准则(Strictly Proper Scoring Rules, SPSRs)。SPSRs优点在于分布预测,比点预测更加实用,同时分布预测能提供更多有用的信息。SPSRs准则也得到各学者的相应研究,比如Merkle和Steyvers [8],Landes [9],Du, H.L. [10] 等。根据SPSRs的定义,MSPE准则满足“适当的(Proper)”的条件,但不满足“严格适当的(Strictly Proper)”条件,然而“严格适当的(Strictly Proper)”的评分规则优于“适当的(Proper)”的评分规则。从这个角度看,将CMMP方法中的匹配准则(MSPE)换成SPSRs准则,则匹配的正确率可能会提高,从而提高预测的准确性,为此我们提出SPSRs准则下分类混合效应预测记为CMMP-SPSRs。在SPSRs中,关于分类变量的评分规则提出多种方法,如Brier评分(Brier score),对数评分(Logarithmic score)和0~1评分(Zero-one score)等,本章选择其中的对数评分(Logs)进行相关分析。
本文内容安排如下:第二节将在嵌套误差回归模型中,提出CMMP-SPSRs方法的混合效应预测,并验证该方法预测的优良性。在第三节通过数值模拟分析,将CMMP-SPSRs方法与RP方法比较。第四节用一个真实数据对CMMP-SPSRs方法进行验证。
2. 基于SPSRs准则下分类混合模型预测
假设已知一组训练集数据为,
并且知其分组情况,即
属于第i组的第j个数据。假定训练集数据可采用嵌套误差回归(Nested-Error Regression, NER)模型来建模,如下所示
(1)
其中
是已知协变量向量,
为未知的回归系数向量,即固定效应,
是随机效应,
为误差项。同时也假设随机效应
和误差项
相互独立,且有
和
。
假设现有一组新观测数据为
其下标n与上文含义相同,只做符号区分并没有其他含义。假定新观测数据也可以嵌套误差回归模型来建模
(2)
其中
为不依赖j的协变量;同时参数
和(1)式中的
相同;
可能为:第一种情况(匹配
),与
中的某一个相同,但并不知道具体哪一个,需要在训练集数据中寻找与新观测数据相匹配的群组;第二种情况(不匹配
),一个全新的随机效应。假设
,
有界。
是新观测误差项且相互独立,并假设
,
有界,且和训练集数据中的
,
也相互独立。此外,
和
并不要求服从正态分布,同时也不要求
,
。则需要预测的混合效应为
(3)
其中此时的参数
表示已知的;同时记
分别表示其对应的一致估计,可以利用训练集数据得到
。理由如下:由于新观测数据中的样本量通常不是很大,如果仅仅通过新观测数据提供的信息来对参数进行估计是不够的。虽然新观测数据不足,但是训练集数据的样本量通常是很多的。因此,通过训练集数据来对相关参数进行估计远优于新观测数据。很明显,如果参数估计值更准确,此时的经验最佳预测和最佳预测两者的预测也会更接近,同时得到的预测结果也更好。本章参数
统一采用极大似然估计。
2.1. 新观测数据与训练集存在匹配关系
假设新观测数据与训练集数据中的某一群组来自同一组群,即
,但并不知道属于哪一组,故需要寻找具体的参数I,可根据已知的训练集数据提供的相关信息来估计出这个具体的I值,即
,则新观测数据的混合效应(3)式可写成
,通过此表达式,可以看出此时新观测数据与训练集数据中的第i群组相匹配,故
与(3)式混合效应的关系为:
。混合效应
的最佳预测,即
,给定训练集数据后的条件期望,
根据模型的正态性假定,则有,
其中训练集数据 并且
记为n维全1列向量,
记为n阶单位矩阵,
表示元素全为1的n阶矩阵。那么待预测新观测数据的混合效应最佳预测为
(4)
同时,其
,给定训练集数据后的条件的方差为,
(5)
将(4)式中的参数
分别用它们的一致估计
代替,则可得到经验最佳预测,
(6)
同样,将(5)式中的参数换成其对应的估计,则
,给定训练集数据后的条件方差估计表达式为,
(7)
综上所述,既有
的期望也有方差,故其表达形式为:
。从而
的密度函数为,
(8)
根据
的密度函数(8)式,又根据SPSRs的定义,可得对数评分(Logs)表达式为,
(9)
接下来对参数I进行估计。采用SPSRs匹配准则来估计参数I进行估计,根据其定义有
(10)
那么与(10)式相对应的SPSRs即为期望符号内的表达式,从而提出基于SPSRs的匹配准则
(11)
其中
,
,
。
最终,通过将
替换(6)式中的i,则
的分类混合效应预测(Classified Mixed-Effect Predictor, CMEP)为
。
下面的定理阐述了当给定一些合理条件下,则可保持分类混合效应预测的渐进性质。
记
是本文中所涉及的全部样本容量。假设方差参数
的参数空间为
,而参数
的参数空间是p维的欧几里得空间
。
表示矩阵A的范数。让
表示(4)式等号右边的部分,但其中i被
替换,并且参数
为真参数向量。当参数
换成其一致估计
时,则对应其经验最佳预测,记为
。做如下假设:
A1. 当
情形下,将i换成
时,模型(1)依然成立;下标由I换成i时,模型(2)也成立。
A2. 参数空间
的内点为参数
的真值
。
A3.
是有界的,其中
为
的第k个元素。
A4. 记
,
,若
时,
,且
,
,
,而且当
时,
其中
等为正常数,且使得
,
。为了不失一般性,假定
。
定理1. 如果假设A1~A4都成立,那么有
,即SPSRs准则下的分类混合效应预测满足渐进性。
证明:首先考虑当
存在匹配关系时的情形。通过本文上述理论的推导与证明,从而可知新观测数据的分类混合效应预测(CMEP)可表示为
。接下来证明
。
记
,则有
,同时也有
。设
表示
中
,
,而有
因此,有
(12)
另外,通过泰勒公式展开有
(13)
其中
表示
在点
上的微分,其中
介于
与
之间。
通过结合上述的(12)式和(13)式,同时又根据上面理论可知
。从而有
(14)
其中根据上述的假设有
。
另一方面
使
在
中达到最小,即可表示为
因此,有
(15)
整理得
当
(表示
是一个固定值,只与参数i相关)时,显然有
;如果当
时,记
,
,如果有
,
,
,则有
。故,综上所述有,
(16)
令
和
分别表示
项中参数i换成其对应参数
和I;同时为了方便区分,故将
用
来表示。则一方面通过(14)式有
(17)
另一方面,同理,通过(14)式有
(18)
结合(16),(17)和(18)式,有
(19)
根据
,再结合(19)式可得
(20)
设
和
,则有
。又假设存在
,则一方面有
另一方面有
由此结合(16)式得到
由此可见,当
情况成立时,则有
,
。因此,回到最初的问题中,即由(20)式可知
。从而,定理得证。
2.2. 新观测数据与训练集数据不匹配
在不假设匹配关系存在的情况下,则匹配关系可能存在也有可能不存在,即不存在新观测数据与训练集数据中的某一组群相匹配的前提,这比较符合实际。如果匹配关系存在则可按2.1节推导;当匹配关系不存在时,即
,则新观测数据与训练集数据是相互独立的。接下来讨论匹配关系不存在的情况。
如果不匹配,则此时的混合效应为(3)式,从而有
与训练集数据相互独立,故可得的最佳预测为,
同理,与匹配情况一样,BP为,
(21)
其
,方差为
(22)
将(21)的参数
用它的一致估计
代替,则可
得到相应的经验最佳预测
。
同样,将(22)式中的参数
换成其对应的一致估计
,则有
,的方差估计为:
。
综上所述,可得
表达形式为:
。从而,
的密度函数可以表示为
(23)
同理,这种情况下,则对数评分(Logs)表达式为
(24)
与匹配情况中的(10)式的推导过程相同,可得出此时的SPSRs为:
(25)
将(10)式和(16)式比较,区别是:将
换成
;
换成
。故将之前的方法做如下延伸:令
由(3.11)式给出,比较
和
的大小。如果前者更小,则
的CMEP为
;否则,
的CMEP是
。
3. 数值模拟分析
本节主要对SPSRs准则下CMEP的预测效果进行分析,主要将CMEP-SPSRs方法与PR方法的MSPE结果进行比较,讨论其预测效果。针对新观测数据与训练数据是否匹配两种情形分别讨论,具体步骤如下:
1) 新观测数据与训练集数据存在匹配关系
步骤1:训练集数据
按照(1)式生成,其中
。给定
,
,协变量
服从
的随机数;群组特定的随机效应
服从
的随机数,其中给定
;误差项
服从
的随机数,其中给定
。
步骤2:新观测数据
按照(2)式生成,其中给定
,
,协变量
服从
的随机数;将(1)式中
,
分别替换为
,
。故需要预测的混合效应为(3)式。
步骤3:先基于(4)式可获得
的最佳预测
,同时又根据(5)式可得到
的方差为
;然后得到参数的最大似然估计,
。最后将参数估计代回(4)与(5)式,则分别可获得
的经验最佳预测
和
方差估计
。
步骤4:通过(11)式获得
。接着将
替换(6)式中的i,则得到
的分类混合效应预测(CMEP):
。
步骤5:记
表示
的标准回归预测(RP),其中
表示为
的最小二乘(Least-Square, LS)估计。因此要计算出
,从而得到RP。
步骤6:分别计算CMMP-SPSRs方法和RP方法的MSPE:
,
。
通过Matlab软件按以上步骤进行编程,除步骤2以外,所有步骤重复100次,然后获得CMMP-SPSRs方法和RP方法预测混合效应的MSPE平均值,这样有利于降低误差,最后将MSPE的平均值作为评价预测准确性的指标。结果如表1~3中所示。%Improve为CMMP-SPSRs方法和RP方法MSPE的相对大小。

Table 1. Comparison of two MSPE methods with matching relationship, fixed at m = 50 , n n e w = 5 , σ ϵ 2 = 1
表1. 存在匹配关系两种方法MSPE的比较,固定

Table 2. Comparison of two MSPE methods with matching relationship, fixed at m = 50 , n n e w = 5 , σ α 2 = 1
表2. 存在匹配关系两种方法MSPE的比较,固定

Table 3. Comparison of two MSPE methods with matching relationship, fixed at m = 50 , σ ϵ 2 = 1 , σ α 2 = 1
表3. 存在匹配关系两种方法MSPE的比较,固定
从表1~3中数据可以发现RP方法的MSPE都大于CMMP-SPSRs方法的MSPE。具体来说,表1:当只有随机效应方差
改变时,随着
值增加,两者方法的MSPE都有增大,但通过%Improve可以发现RP方法的MSPE增大的速度高于CMMP-SPSRs方法;同时在MSPE方面上,发现CMMP-SPSRs方法小于RP方法,故CMMP-SPSRs方法优于RP方法。表2:当只有误差项方差
改变时,随着
值增加,CMMP-SPSRs方法和RP方法的MSPE也增加,但CMMP-SPSRs方法始终小于RP方法,即CMMP-SPSRs方法更优。表3:当只有
改变时,从数据中可以看出,CMMP-SPSRs方法混合效应预测的准确性随着
值增加而提高,这符合实际,当新观测数据增多,从而预测的准确性也会增加。RP方法并没有因为
的改变而发生明显的变化,且MSPE值一直比CMMP-SPSRs方法大,因此CMMP-SPSRs方法优于RP方法。
2) 新观测数据与训练集数据不匹配
步骤1:训练集数据
可以按照模型(1)式生成,其中
。同时给定
,
,协变量
由
分布产生的随机数;群组特定的随机效应
服从
的随机数,其中给定
;误差项
服从
的随机数,其中给定
。
步骤2:新观测数据
可以按照模型(2)式生成,其中同时给定
,
,协变量
由
分布产生的随机数;将(1)式中
,
分别替换为
,
。故需要预测的混合效应为(3)式。
步骤3:首先基于(21)式获得
的最佳预测
,同时通过(22)式得到
。然后得到参数的MLE。最后可获得
的经验最佳预测
和
。
步骤4:与匹配关系中的步骤5相同,得到RP。
步骤5:基于(1)匹配情况下得到
和
的分类混合效应预测:
。同时计算
和
的大小。如果前者较小,则
的分类混合效应预测为
;否则,
的分类混合效应预测是
。
步骤6:与(1)匹配中的步骤6一样。
通过表4和表5中的数据比较可以发现,在不匹配情况下,两者的MSPE的变化趋势和匹配情况相类似,即CMMP-SPSRs方法相对RP方法依旧存在优越,同时%Improve的变化趋势也是相似的。由此,可以得出不管新观测数据和训练集数据中是否存在匹配关系,CMMP-SPSRs方法相对于RP方法预测都更具有优越性。
4. 实例应用分析
本节以电视学校和家庭预防与戒烟项目(Television School and Family Smoking Prevention and Cessation Project, TVSFP) [11] 的数据来对CMMP-SPSRs方法验证,其中研究对象是来自美国加利福尼亚州洛杉矶和圣地亚哥学校的七年级学生。最初该项目主要以学校为基础的社会抵抗课程和以电视为基础的预防和戒烟方面的独立与联合效果研究。为了对嵌套误差回归模型的演示,选择TVSFP数据中的一个子集,即取洛杉矶中的28所学校,这些学校被随机分配为四种研究条件中的一种:1) 抵制社会的课程(social-resistance classroom curriculum, CC);2) 电视干预(television intervention, TV);3) 结合CC和TV;4) 不做任何处理。烟草与健康知识量表(Tobacco and Health knowledge scale, THKS)得分是主要研究结果变量之一,作为本次实验的响应变量。THKS是由七个问卷项目组成,用于评估学生的烟草和健康知识。目前数据只涉及干预前和干预后时间点完成的THKS。该数据是来自28所学校的1600名学生,每所学校有1至13间教室,每个教室有2至28名学生。该数据可在http://www.hsph.harvard.edu/fitzmaur/ala/tvsfp.txt上查找。

Table 4. Comparison of two MSPE methods without matching relationship, fixed at m = 50 , n n e w = 5 , σ ϵ 2 = 1
表4. 不存在匹配关系两种方法MSPE的比较,固定

Table 5. Comparison of two MSPE methods without matching relationship, fixed at m = 50 , n n e w = 5 , σ α 2 = 1
表5. 不存在匹配关系两种方法MSPE的比较,固定
将这28所学校的数据作为训练集数据的一个子集。因为并不知道训练集(总体)数据,所以假设总体数据为相应学校数据的10倍(重复),故而,相应学校的总体均值与样本均值相同的。在28所学校中选择其中一所学校作为新观测数据,但并不知道这新观测数据来自具体哪一个学校,故而需要对其进行估计。接下来分别采用CMMP-SPSRs方法和RP方法对新观测的混合效应(均值)进行预测。最后为28所学校中的每所都重复以上操作。
假设训练集数据符合嵌套误差回归模型为
(26)
,
,
,
为2至28不等。其中
是干预后的THKS得分,
为干预前的THKS得分,即不做任何处理的数据;
为CC的数据;
为TV的数据;
为结合CC和TV的数据。
是固定效应且为未知参数,其中
和(1)式中的假设相同。参数
的最大似然估计可由(26)式得到,记为
,同时通过计算也可获得参数
的最小二乘估计记为
。依次选择一所学校的模拟样本作为新观测数据,28所学校则作为训练集数据。假设新观测数据也符合嵌套误差回归模型(NER),则需要预测的混合效应为
。
接下来分别用CMMP-SPSRs方法和RP方法对新观测数据的混合效应进行预测,在预测准确性方面比较了这两种方法。结果如表6所示,其中CMMP-SPSRs和RP列表示为绝对预测误差,即,
其中
表示CMMP-SPSRs方法的混合效应预测总体均值,
表示RP方法下的混合效应预测总体均值,
表示为总体均值。

Table 6. CMMP vs RP for TVSFP data
表6. TVSFP数据的CMMP vs RP
通过表6中的数据可以看出,在这28所学校中,CMMP-SPSRs方法的预测误差都比RP方法小,换句话讲,CMMP-SPSRs方法的预测准确性比RP方法更优。改进的百分比由4.6%到329.8%不等。新观测数据和训练集数据间的匹配关系可能存在也有可能并不存在,本文通过匹配关系判别策略,利用训练集数据中尽量相似的群组中信息来提高预测的准确性。
5. 总结
本文主要讨论了嵌套误差模型中分类混合效应预测问题,主要对CMMP方法在识别准则的预测理论和方法进行改进,总结如下:对参数I的匹配准则方法的改进,在已有的分类混合模型CMMP方法,其匹配准则采用的方法为均方预测误差。为了优化CMMP方法,故提出了新的匹配准则方法:SPSRs。本文主要对CMMP-SPSRs方法和RP方法进行了比较,通过大量数值模拟可看出,当匹配关系存在或者不存在,CMMP-SPSRs方法对于回归预测方法依然保持着很好的预测效果。
下一步的工作是在对待预测效应进行识别时,只讨论了两种可能,即新的样本属于某个小域或者不属于任何小域。结合模型结构误定和SPSRs准则,我们可以进一步考虑待预测样本按一定概率(或者模糊隶属度)落在小域中的相应预测方法。