1. 引言
在心理学实验的进行过程中,被试的情绪、想法、行为和生理功能,往往不是保持不变,而是随时间变化一直波动的(Vallacher et al., 2002)。传统的追踪或是横断研究往往只能够描述或解释被试群体中较为稳定的,在短时间内恒定的变量间的关系,难以揭示事件对于情绪、欲望等随时间动态变化的变量的持续性影响(Setodji et al., 2019)。这可能导致我们在研究过程中,将变量由时间推移所导致的动态变化,归因于实验事件对于变量的影响,进而导致研究者对于干预效果及其潜在机制产生错误解读(张银普等,2016;Setodji et al., 2019)。因此,为了更深入地探讨变量变化的原因到底是因为时间推移,还是受到实验事件的影响,研究者往往需要采用密集追踪测量以得出个体状态变量随时间推移动态变化的细节(Trull & Ebner-Priemer, 2013)。
密集追踪是在短时间内对于个体进行多次测量的方法,测得的数据更有利于我们探究个体在实验过程中心理动态变化的过程及其作用机制。近年来,随着手机等通讯设备的发展,数据采集的难度和成本大大降低,研究者可以更加频繁地对被试生理和心理状态等方面的数据进行收集;随着数据采集越来越便捷,场景越来越多样,这些都有利于研究者通过密集追踪的方式探索心理随时间变化的动态过程。如今在心理学的各个领域的研究中都有使用密集追踪数据(Chen & Zhang, 2020; Windt et al., 2018),如,成瘾行为(Lanza et al., 2014; Shiffman, 2009; Weinstock et al., 2017)、压力症状(Chun, 2016)、心理资本(Malmberg & Martin, 2019; Sturgeon et al., 2014)饮食障碍问题(Munsch et al., 2009)、亲密关系(Howland & Rafaeli, 2010)、人格障碍(Trull et al., 2008)和语言使用(Lazarević et al., 2020; 安媛媛,徐慰,2017)等。
目前针对密集追踪研究的数据分析方法主要有传统的多层线性模型(Multilevel Modeling, MLM)的方法,以及新兴的动态结构方程模型(Dynamic Structural Equation Modeling, DSEM)的分析方法。二者均可以方便地对密集追踪数据中的自回归和交叉滞后效应进行建模(刘源等,2022)。但目前尚未有研究探讨过时间点和样本量对于这两个模型中参数估计的影响,也未有研究比较在不同时间点和样本量条件下两个模型参数估计的优劣,为研究者在实际研究中选择和使用模型提出建议。为了更直观地比较MLM、DSEM在不同时间点和样本量条件下的估计表现,本研究会利用这两种模型方法在不同时间点和样本量条件下进行模拟研究和比较,并对这两种模型方法的优缺点和适用范围进行总结,帮助研究者针对自身的实际研究情况灵活选择适合的模型方法。
2. 文献综述
2.1. 密集追踪数据的分析方法
2.1.1. 多层线性模型
以两水平的多层线性模型为例,在利用多层线性模型分析纵向数据时,以不同时间点下的追踪结果为第一层数据,以不随时间变化的稳定的个体特征或所接受的实验处理为第二层数据,形成两层数据结构(Raudenbush & Bryk, 2002)。以存在随机自回归效应的两水平数据为例,个体i在时间t的方程表达式如下:
(1)
在方程(1)中,
代表截距,
表示斜率,Xit表示第i个被试在第t次测量时自变量的水平,
表示残差,代表第i个被试在第t次测量中因变量不能被自变量所解释的部分。方程(1)与一般的回归方程很相似,区别在于(1)中的截距和斜率都不是定值,而是随机变量,他们的取值是由第二水平的变量所决定的。常见的第二水平的变量有个体特征和实验处理,以他们为自变量建立两个第二水平的回归方程,方程表达式如下:
(2)
(3)
其中,
是方程(2)的截距,是个体水平的自变量W1为0时因变量Y的平均值。
是方程(2)中自变量W1的回归系数,表示因变量Y自回归效应的强弱。
是方程(2)中的残差,是个体水平上因变量Y不被自变量W1解释的部分,
是方程(3)的截距,是自变量W1为0时因变量自回归效应的均值。
是方程(3)中自变量W1的回归系数,可以被理解为自变量W1对因变量自回归效应的影响大小。
是方程(3)中的残差,是因变量Y的自回归效应中未被W1解释的部分。
在使用多层线性模型分析纵向数据时,假设不同个体在水平1估计的残差方差是一致的
,
但对某些变量来说,不同个体间在短期内的波动轨迹有较大差异(例如情绪)。此时多层线性模型的假设可能导致参数有偏估计(Jahng & Wood, 2017)。因此当研究问题关注的是个体心理动态变化过程的变异性和不稳定性时,有可能会得到不正确的参数估计(Jahng, 2008),影响研究者对变量干预效果和机制的探索(Jahng, 2008)。其次,MLM通常假设随机效应服从一定的正态分布,但在实际的研究中,这一假设往往不能得到满足,因此以这一假设为前提得到的随机效应的估计参数往往也是不准确的(Piccirillo & Rodebaugh, 2019)。此外,在多层线性模型当中,我们往往需要对数据进行中心化,以此来分解组间效应和组内效应(Curran & Bauer, 2011)。传统的中心化方法有个体均值中心化、总均值中心化等。但在一些情况下,比如数据内部存在自回归效应(Nickell, 1981)或情境效应(Contextual Effects)时,使用个体均值中心化或是总均值中心化处理数据往往会产生较大的估计偏差(Asparouhov & Muthén, 2019)。
2.1.2. 动态结构方程模型
基于传统的多层线性模型在密集型追踪数据分析过程中存在的诸多问题,研究者们提出了新的统计分析方法,动态结构方程模型(Dynamic Structural Equation Modeling, DSEM)。DSEM模型最初由于计算机技术的限制没有得到广泛应用,直到研究者使用Mplus软件进行DSEM模型的研究给予了指导。
DSEM模型包含三个子模型,最一般的模型是交叉分类的DSEM模型,它包含了个体和特定时间的随机效应。第二个模型是两级DSEM模型,它只包含个体特异的随机效应。两级DSEM模型也是在现有研究中被最多使用,应用价值最大的一个模型,因为相比交叉分类的DSEM模型,他更容易估计、识别和解释,相比单级DSEM模型它可以从数据中获取更多的信息。第三个模型是针对来自单个个体的时间序列数据的单级DSEM模型(Zhang & Nesselroade, 2007)。在后一种模型中,没有随机效应。在这里,我们描述了最一般的交叉分类的DSEM模型。两级和单级DSEM模型是交叉分类DSEM模型的特殊情况。
完整的DSEM模型会将观测分数分解为3个部分,其表达式如下:
(4)
其中,
表示个体i在t时刻的观测分数,
表示的是在个体水平上个体i对于观测分数的特异贡献,
表示的是在时间水平上时间t对于观测分数的特异贡献,
是在观测分数去除了个体水平的特异贡献
和时间水平的特异贡献
后的剩余部分。两层的DSEM模型只包含前2个部分
和
,不考虑时间t对于观测分数的特异贡献,而单层DSEM模型只包含
,个体i和时间t对于观测分数的特异贡献都不考虑。这3个部分都是满足正态分布的潜在随机向量,被用于形成三组结构方程模型。
根据刚才的分解,我们可以得到一个第一水平的变量
和两个第二水平的变量,分别是个体i的特异贡献
和时间t的特异贡献
,他们的方程表达式如下:
(5)
(6)
(7)
(8)
(9)
(10)
其中,方程(4)和(5)是第一水平变量
的表达式,
表示
对应的潜变量,Λ为因子负载矩阵,R、K、B、Q、Γ表示回归系数矩阵。
是个体特异的时不变协变量的向量,
是时间特异而个体不变的协变量的向量。同样的,
和
是个体和时间特异的潜变量。剩余的
,
,
,
,
,
代表均值为0的残差。
具体来说,DSEM在第一水平当中的各个参数的随机效应(比如因子载荷和截距项等)均可以在第二水平和第三水平用个体特异和时间特异的变量进行解释,DSEM模型可以同时考虑不同个体i和时间点t的特异贡献。与此同时,DSEM模型还允许研究者对于残差方差的随机效应进行建模,残差方差代表的是因变量短时间内的波动大小。
相比传统的分析方法,DSEM 在密集追踪数据的分析上存在很多优势。首先,DSEM是多种模型方法的结合,能更便捷、全面地分析模型中潜变量与显变量,潜变量与潜变量,显变量与显变量之间的关系(Hamaker et al., 2018; Zhou et al., 2021)。与此同时它不仅能够对两变量的模型进行建模分析,三个及以上的变量也可以用DSEM建模分析。在各个时间点测量的观测变量,均可以被分解为时间特异的部分,个体特异的部分,他们之间也都可以通过DSEM建立回归路径,大大提升了研究者对于纵向密集数据建模的灵活性。其次,使用DSEM建模可以很方便地将纵向密集数据中的特征纳入模型(比如心理过程变化的动态趋势等),不仅可以考虑变量本身的自回归效应,还可以考虑变量间关系随时间的动态变化(Zhou et al., 2021)。另外,DSEM对模型参数的估计采用贝叶斯模型的框架,当模型中的待估参数较多,模型较为复杂时,贝叶斯方法相比传统的频率学派更有优势(张沥今等,2019;Zhou et al., 2021)。Song和Zhang在2014年也曾提出多层动态因子模型(Multilevel Dynamic Factor Model, MDFM),但后来发现当MDFM中存在大量的随机效应时,模型往往无法收敛。而DSEM解决了这一问题,研究者可以在该模型中设置任意的测量节点和随机效应,没有数量限制,即使研究中有较多的测量时间点和随机效应,对DSEM造成的计算量负担也相对较小。Schultzberg和Muthén在2018年的研究中表明,DSEM在各个测量时间点数量下,对于随机参数的均值均有一个较为良好的估计(Schultzberg & Muthén, 2018)。
然而,DSEM也存在一些不足与局限。首先是在面对测量间隔不等距的数据时,我们选择的最小时间间隔单位δ会对DSEM第一水平的参数估计产生一定的影响,不同的δ可能会产生不同的参数估计结果(Asparouhov & Muthén, 2019)。其次,相比于传统的多层线性模型,DSEM对于测量数据的时间点和样本量往往有更高的要求,一般至少需要10个以上的时间点模型才可以收敛。
2.2. 模型估计的影响因素
首先,样本量在大多数情况下都会影响到参数估计结果。关于积极感受和消极感受与个体抑郁之间关系的研究中,他们使用积极消极感受量表(PANA)对101名青年被试104名老年被试进行了60次测量。Joly-Burra et al. (2018)进行的关于健康老年人的前瞻记忆与认知抑制功能关系的研究中,使用GO/NO GO范式对92名法国老年人测量得到了共368个时间序列。在2018年进行的关于睡眠时长和儿童久坐行为的双向影响的研究中,对于277个家庭的孩子进行了测量,连续两周通过使孩子佩戴动力加速仪判断孩子每天久坐和睡眠的时间(Armstrong et al., 2019)。
除此之外,时间点对参数估计也会有一定影响。在Öhrlund et al. (2019)进行的关于居民用电量与电价指定策略和关税收取策略影响的研究中,他们212名用户在2年时间内每小时的用电量,共计7981个时间点的用电数据。在Mun等(2019)进行的关于疼痛体验的个体内变化和个体间差异的研究中,研究采用了三种不同的测量模式,分别是时间偶然抽样、事件偶然抽样和混合抽样,对连续10天内被试的疼痛体验进行了测量。
3. 问题提出
在上文中我们介绍了纵向密集型数据的特点和优势,传统的密集数据分析方法MLM,新型的分析方法DSEM,以及这两种方法各自的优缺点。由上文可知,DSEM模型使研究者可以更灵活地对密集纵向数据进行分析建模,但因为DSEM模型更为复杂,存在更多的待估参数,使用DSEM模型需要数据具备更多的时间节点和样本量。但目前尚未有研究探索过在不同的时间点样本量条件下,DSEM和MLM参数估计性能的优劣,对于DSEM模型达到相对准确的参数估计所需的时间点和样本量数量并未有研究进行过讨论。
在现有的DSEM实证研究中,被试样本量和时间节点数量的跨度很大。例如,在Hamaker et al. (2018)的研究当中指出,通过每日日记的方式采集数据,连续对100名被试进行了100次施测(即N = 100和T = 100)。在McAdams & Constantian (1983)的研究当中,对50个被试的亲密关系和隶属关系,进行了连续7天,每天7个随机时间点的测量(即N = 50,T = 49)。在Bolger & Schilling (1991)进行的研究中,对339名被试,连续6周每天测量他们的神经质和感知压力(即N = 339,T = 42),Shiffman & Waters (2004)进行的关于吸烟行为和复发的研究当中,通过生态瞬时评估对215名被试进行了100次数据采集。
因此本文旨在通过模拟研究的形式探索DSEM和MLM在处理纵向密集型数据时,其中的各个参数达到稳定且准确估计所需的时间节点和样本数量。本研究将基于嵌套模型的比较,同时考察包含随机残差方差的潜变量模型(DSEM)和不包含随机残差方差的模型(MLM)。
4. 研究设计
为了解决以上问题,本文希望通过比较在不同的时间点和样本量条件下MLM和DSEM模型各个参数估计的MSE,SIG和95%覆盖率,以判断2个模型对于各个参数估计的稳定性和精确性,找到两个模型准确估计所需的最小时间点和样本量数量,为研究者进行密集纵向数据分析时的模型使用提供建议。
4.1. 模型定义
模拟研究中考虑的模型是基于Hamaker等人(2018)的模型。图1显示了在蒙特卡罗模拟中考虑的4种模型变化的模型图。这些模型符合路径分析的规范,与Mplus用户指南中的符号相一致。矩形是观测变量,圆是潜变量。从A到B的单向箭头意味着A影响B,并对应一个回归斜率。一个从观察到的或潜在变量开始的单向箭头是一个具有相应方差的残差,一个填充的小圆是一个随机系数。线中间的填充圆代表的是随机斜率,单向箭头末端的填充圆代表的是随机截距。从填充圆开始的单向箭头代表的是一个随机残差方差。
在模型1到模型2中,允许三个研究者感兴趣的参数是随机的。模型1中包含了随机均值和随机自回归系数,模型2增加了一个随机残差方差。在模型3到4,同样的模式重复,但添加了会影响随机均值、自回归系数的协变量W。所有的模型表达式都嵌套在下面的2个第一水平和第二水平的方程表达式当中:
(11)
(12)
(13)
其中,公式(12)代表的是第一水平,第i个被试在第t − 1个时间节点的观测变量
与第i个被试在第t个时间节点的观测变量间的自回归关系,
代表截距,
表示斜率,Xit表示第i个被试在第t次测量时自变量的水平,
表示残差,代表第i个被试在第t次测量中因变量不能被自变量所解释的部分。公式(12) (13)代表的是第二水平,
是方程(2)的截距,是个体水平的自变量W1为0时因变量Y的平均值。
是方程(2)中自变量W1的回归系数,表示因变量Y自回归效应的强弱。
是方程(2)中的残差,是个体水平上因变量Y不被自变量W1解释的部分,
是方程(3)的截距,是自变量W1为0时因变量自回归效应的均值。
是方程(3)中自变量W1的回归系数,可以被理解为自变量W1对因变量自回归效应的影响大小。
是方程(3)中的残差,是因变量Y的自回归效应中未被W1解释的部分。

Figure 1. Diagram of DSEM and MLM models
图1. DSEM和MLM模型示意图
4.2. 参数设定
在上述四个模型的基础上,本模拟研究的参数设定主要结合目前已有的纵向密集型数据的研究以及2017年Schultzberg和Muthén进行的两水平DSEM模型的时间和样本数量的研究以及Mplus Examples (Monte Carlo Counterparts)。本研究假设存在两个变量Y和W,Y变量存在自回归效应,W会对Y变量的均值,自回归斜率的大小产生影响。在此将Y在时间序列上的自回归参数的均值设定为0.2/0.5,方差设定为0.04,而变量Y的均值设为0.5,方差设置为0.07,协变量W的均值设为0,方差设为0.119,协变量W对随机自回归斜率的回归系数为0.31,对因变量Y的回归系数为0.41,残差方差的log值的均值设为−1.18,方差设为0.02。
4.3. 考察指标
本研究的考察指标为4个参数估计指标。DSEM模型的拟合优度指标一般采用DIC指标,但由于DIC的值会受到模型自由度和待估参数数量的影响,因此目前没有办法通过DIC对不同方法间模型拟合进行比较,DSEM相关的模型研究此前都没有探讨比较过模型的拟合指标,因此在本研究中我们也未对其拟合指标进行比较和探讨(Schultzberg & Muthén, 2018)。主要依据参数估计的误差均方根、95%覆盖率和统计检验力这几个指标对不同模型进行比较。
1) 误差均方
误差均方(Mean square error, MSE)为描述参数估计精度的指标。MSE越小则表明参数估计越精确,相对更加稳健可以用于比较不同条件下模型参数估计的稳定性,其计算公式如下,
(14)
其中,NR表示模拟研究中条件的重复次数,
表示所考察参数在第r次上的估计值。
2) 统计检验力
显著性系数(Significant Coefficients)提供了对统计检验力和一类错误率的讨论,这一指标也可通过Mplus8.3软件进行计算生成。统计检验力(Statistical Power)是100次重复当中参数估计的95%置信区间不包含0的比例。本研究主要考察自回归系数的均值、随机效应,以及协变量对于自回归系数和因变量的回归系数的统计检验力。
3) 95%覆盖率
95%覆盖率用于表示100次重复次数中参数估计的95%置信区间包含真值的比例,这一指标可以直接通过Mplus8.3软件生成。
(15)
5. 研究结果
5.1. 误差均方
在这里,模拟研究误差均方的结果见图2。当因变量Y的自回归效应较弱时(
),协变量对于随机自回归斜率的影响(
)的MSE根,在存在随机残差方差但残差方差又未被估计时大于0.2,其余情况这一参数的估计都是较为稳定的;协变量对于因变量Y的均值的MSE,当错误假设是否存在随机残差方差时,在各个时间点样本量条件下该参数估计的稳定性普遍较差(MSE > 0.2),只有在被试数在50以上时,这一参数估计的MSE才接近于0.2,而当正确假设是否存在随机残差方差时,MLM在N ≥ 50,T ≥ 20的条件下可以或者稳定的参数估计结果,而DSEM在N ≥ 20,T ≥ 50的条件下就可以获得稳定的参数估计结果;随机自回归斜率均值的MSE,无论是DSEM还是MLM,在各个时间点样本量条件下都可以获得比较稳的参数估计结果。
当因变量Y的自回归效应较强时(
),协变量对于随机自回归斜率的影响(
)的MSE在正确假设是否存在随机残差方差时,在N ≥ 50,T ≥ 20的条件下该参数的估计结果均很稳定,当错误假设时,在N ≥ 20,T ≥ 50或是N ≥ 50,T ≥ 20的条件下,该参数的估计结果是稳定的;协变量对于因变量Y的均值的MSE,当正确假设是否存在随机残差方差时,N*T ≥ 200时,该参数的估计结果是稳定的,当错误假设是否存在随机残差方差时,在N ≥ 50,T ≥ 50或是在N ≥ 100,T ≥ 20时,该参数的估计结果是稳定的;随机自回归斜率均值的MSE,在正确假设是否存在随机残差方差时,MLM和DSEM在各个时间点样本量条件下,参数估计的结果都很稳定,而在错误假设是否存在随机残差方差时,参数估计的结果都比较不稳定(MSE > 0.2)。

Figure 2. MSE of the effect of covariates on random autoregressive coefficients (phi on w)
图2. 协变量对于随机自回归系数的影响(phi on w)的MSE
5.2. 统计检验力
模拟研究统计检验力的结果见图3,当因变量Y的自回归效应较弱时(
),协变量对于随机自回归斜率的影响(
)的显著性水平,在各个时间点样本量条件下,使用DSEM模型与使用MLM模型相比差异不大,显著性水平更多的是受到时间点和样本量数量的影响。相比时间点数量,样本量对于参数显著性水平的影响更大,当样本量在50及以上且时间点数量在20及以上时,协变量对于因变量Y的影响的显著性水平大于0.8。
随机自回归斜率的均值(phi)的显著性水平在各个模拟条件下均较高,使用正确的或错误的模型进行估计对于该参数的显著性水平的影响较小,该参数的显著性水平只受时间点和样本量的影响,样本量的影响要大于时间点数量。当随机自回归效应较强时,N ≥ 50,T ≥ 20时,该参数的显著性水平大于0.8,当随机自回归效应较弱时,当N ≥ 00,T ≥ 10或者N ≥ 50,T ≥ 50时,该参数的显著性水平大于0.8。
协变量对于因变量的斜率(y on w)的显著性水平会受到估计模型的影响,当数据中存在随机残差方差却使用MLM模型进行估计时,参数的显著性水平会降低,但数据中不存在随机残差方差时,即便使用DSEM模型进行估计,参数的显著性水平不受影响,各个条件下DSEM模型估计的显著性水平均由于MLM模型。

Figure 3. Statistical test power of the influence of covariates on the random autoregressive coefficients (phi on w)
图3. 协变量对于随机自回归系数的影响(phi on w)的统计检验力
5.3. 95%覆盖率
时间点、样本量、因子载荷、对各个拟合模型参数估计的95%覆盖率影响均不大,只有在样本量为100,时间点数量为10的情况下95%覆盖率才在0.9以下。在其余各个情况下,所有参数的95%覆盖率均大于0.95,绝大部分情况下95%覆盖率的值在1。
6. 讨论
模拟研究中我们发现无论是DSEM还是MLM模型,对于模型中随机均值的估计都是比较准确的。随机均值在各个模型各个时间点样本量条件下都得到了良好的估计,各个样本量时间点条件下,MSE都接近于零,显著性水平接近于1。除了可以良好估计各个参数随机均值,模型对于协变量对于随机自回归斜率的影响这一参数也有非常好的估计结果。对于N ≥ 50时,该参数在各个条件下均有良好的估计精度和稳定性。
此外,由于DSEM研究条件的设置往往不是单纯的时间点和样本量的问题,而是二者的组合。与此同时,在现实的研究过程中,往往会出现我的测量次数是固定的,能够调整的只有被试数量,或是被试数量是固定的,能够调整的只有测量次数的情况,因此很多研究者都很关注对于DSEM或是MLM模型而言,N和T之间是否存在互相补偿的关系。根据本模拟研究的结果而言,大N小T的估计结果普遍要优于小N大T,实际研究中研究者可以通过增大样本量来适当地减小测量次数,这对于参数估计的准确度和稳定性不会有很大的影响。
因此当研究可以明确残差方差是否随机时,建议在有残差方差时使用DSEM模型,没有残差方差时使用MLM模型。而如果不明确是否有残差方差,且时间点和样本量都大于等于10时,一般使用DSEM模型估计会更好。