基于SAM的结构方程模型的小样本估计
Small Sample Estimation of Structural Equation Model Based on SAM
摘要: 本文提出一种基于结构后测量(SAM)的结构方程模型(SEM)小样本估计方法,旨在解决传统结构方程模型在小样本情况下的估计偏差问题。SAM方法通过分阶段建模策略,先估计测量模型,再估计结构模型,结合普通最小二乘法(OLS)的预测优势与SAM的稳健性,有效提升小样本下的参数估计精度。通过蒙特卡洛模拟实验以及教育投入对人才质量培养的仿真实验验证,在小样本情况下,所提出的方法在路径系数和载荷矩阵的估计上都具有更高的准确性,研究结果为小样本社会科学研究提供了方法论支持。
Abstract: This paper proposes a small sample estimation method of structural equation model (SEM) based on structural after measurement (SAM), aiming to solve the estimation bias of traditional SEM in small samples. Through the phased modeling strategy, the SAM method first estimates the measurement model and then the structural model, which combines the prediction advantage of ordinary least squares (OLS) and the robustness of SAM to effectively improve the accuracy of parameter estimation under small samples. Through the Monte Carlo simulation experiment and the simulation experiment of education investment on talent quality training, the proposed method has higher accuracy in the estimation of path coefficient and load matrix in small samples, and the research results provide methodological support for social science research with small samples.
文章引用:朱敏, 齐德全. 基于SAM的结构方程模型的小样本估计[J]. 应用数学进展, 2025, 14(5): 490-497. https://doi.org/10.12677/aam.2025.145277

1. 引言

结构方程模型(Structural equation model, SEM)是在20世纪60、70年代出现的多元统计方法,是在社会和行为科学中广泛使用的一类统计模型的总称,包括多元回归、路径分析、因子分析等[1]。通过建立潜变量之间的关系,可以揭示出变量之间的潜在机制和相互作用,在农业、林业、医学、教育学和心理学等领域有着广泛的应用。

在农业方面,刘洪彬等人[2]采用SEM,利用辽宁省沈阳市沈北新区233户农户调查数据进行实证分析,发现了社会经济因素特征、农户自身条件特征和耕地自然条件特征对农户耕地质量土壤质量保护认知均有显著的正向影响,其中农户自身条件特征是影响耕地土壤质量保护中农户认知行为的主要因素,为未来提高农业生产的政策制定与实施提供了重要方向;在林业方面,高羽等人[3]运用SEM的方法,深入分析了气候、土壤以及海拔等关键因素对兴安落叶松林生长指标的复杂影响及其内在路径关系,他们选取了这些环境因素作为自变量,构建了结构方程模型来探究这些自变量与兴安落叶松生长指标之间的关系,发现了兴安落叶松的地上生物量和地下生物量随着海拔和年平均降水量的增加先增后减,而树高则随海拔的升高而增加,指出了气候因子对兴安落叶松林静态生长的影响最为显著,其总影响系数的绝对值最大,土壤和海拔的影响次之。在临床医学方面,马雨鸿等人[4]利用SEM,对妊娠糖尿病的风险因素进行了效应评估,他们选取了一般资料、家族糖尿病历史及生化指标作为关键的外部影响变量,并据此构建了一个与妊娠期糖尿病密切相关的结构方程模型,该模型不仅揭示了这三个因素均能对妊娠糖尿病产生直接的效应,而且它们的总体效应值均显著超过了0.5的阈值,从而强调了在临床上必须高度重视孕妇是否携带这些风险因素,并预先规划实施相应的预防和管理策略的重要性;在教育学方面,贾丽霞等人[5]通过运用SEM构建了包含5个一级指标和18个二级指标的体系,以多视角定量研究影响新疆纺织产业协同育人的因素,并结合新疆高校纺织专业进行了实证检验,研究发现这些一级指标间存在关联且均与协同育人总体成效正相关,提出了强化协同育人协作主体作用和完善协同育人保障机制的建议,为纺织院校新工科人才的协同培养提供了有益的参考和借鉴;在心理学方面,Joshanloo [6]通过展示如何在SEM的框架内运用惩罚法(亦称正则化)来观察复杂多维结构的因子结构和测量不变性,对韩国和加拿大36项测量七种幸福观念的变量进行了因子结构和测量不变性的检验,利用惩罚因子分析将因子分析中的交叉载荷和MIMIC模型中的预测路径缩减至接近零,证实了因子结构与理论框架的一致性,从实证上验证了所提出的幸福观念七维因子模型,同时强调了解决跨文化测量非不变性的重要性,此外,还指出了在幸福价值观量表方面潜在的改进领域。

以上SEM的应用都基于大样本的情况,同时估计结构方程测量部分和结构部分的所有参数,这样导致由结构模型的修改所引起的测量模型参数的变化,进而改变潜在变量的含义。Rosseel等人[7]在大样本情况下,运用了结构后测量(Structural after measurement, SAM)的方法,通过分步估计,确保潜在变量的定义在结构模型分析前已稳定,从而保持理论一致性。在实际应用当中,还有因成本太高或其他原因导致样本量有限的小样本情况。

综上,在小样本情况下,本文改进SAM方法,先通过最大似然估计法估计测量模型,再通过最小二乘法估计结构模型,利用SAM的稳健性有效提升小样本下的参数估计精度。通过仿真实验与实证分析,所提出的方法具有较好的表现。

2. 研究方法

SEM由测量部分和结构部分两部分组成,测量部分表示如下:

x=ν+Λη+ε, (1)

其中, x P×1 维的观测变量随机向量, ν P×1 维的截距向量, Λ 是潜在变量与观测变量相关的因子载荷矩阵, ε P×1 维的残差随机向量。

结构部分表示如下:

η=α+βξ+ζ, (2)

其中, η M×1 维的内生潜在变量随机向量, ξ M×1 维的外生潜在变量随机向量, α M×1 维的截距向量, β M×M 维的回归系数矩阵, ζ M×1 维的误差向量。

对于小样本的参数估计问题,传统的结构方程模型使用最大似然估计进行模型的参数估计,并拟合进行模型的评价;本文使用结构后测量的方法,首先,使用最大似然估计的方法对测量部分进行参数估计;然后求解映射矩阵,通过映射矩阵求解出因子得分矩阵;最后,使用普通最小二乘法(OLS)对结构部分进行参数估计。

首先,使用最大似然估计(ML)的方法对结构方程模型中的测量部分进行参数估计。假设观测变量服从多元正态分布 X~N( μ,Σ ) ,其中 Σ=ΛΦ Λ +Θ Φ 是潜在变量的协方差矩阵, Θ 是误差的协方差矩阵。求得似然函数为:

L( Λ,Θ )= ( 2π ) np/2 | Σ | n/2 exp( n 2 tr( S Σ 1 ) ), (3)

其中, tr[ ] 是计算其矩阵参数的对角元素之和的跟踪算子。对(3)式两端取对数,去掉无关的常数项得对数似然函数为:

lnL= N 2 [ ln| Σ |+tr( S Σ 1 ) ] (4)

其中, Σ=ΛΦ Λ +Θ 。(4)式对 Λ Θ 求导并令导数为0得:

F ML Λ = Σ 1 ( SΣ ) Σ 1 Λ=0, (5)

F ML Θ =diag( Σ 1 ( SΣ ) Σ 1 )=0. (6)

经代数运算解得因子载荷矩阵 Λ 的估计量和误差方差矩阵 Θ 的估计量:

Λ ^ =S Σ 1 Λ ( Λ T Σ 1 Λ ) 1 (7)

Θ ^ =diag( SΛ Λ T ). (8)

其次,使用普通最小二乘法对结构方程模型结构部分进行参数估计。先对(1)中的潜在变量 η 进行估计值的求解,为了用已得的因子载荷矩阵 Λ ^ 和误差方差矩阵 Θ ^ 求解(1)中潜在变量 η 的估计值,引入映射矩阵 K ,最大似然估计中,映射矩阵 K 要求满足 KΛ= Ι m ,可以通过

K= ( Λ ^ T Θ ^ 1 Λ ^ ) 1 Λ ^ T Θ ^ 1 (9)

来求解映射矩阵 K 。何鹏等人[8]提出 η 的估计值求解公式(即因子得分矩阵求解公式)为:

η ^ =WX. (10)

本文将权重矩阵 W 取为映射矩阵 K ,得到因子得分矩阵:

η ^ =KX. (11)

使用普通最小二乘法得潜变量之间路径系数 β 的估计:

β ^ = ( ξ ^ T ξ ^ ) 1 ξ ^ T η ^ . (12)

如果存在异方差的情况,可以将上面的OLS换成加权最小二乘法(WLS)或广义最小二乘法(GLS)。

3. 仿真实验与实证分析

3.1. 仿真实验

为了验证基于SAM方法的SEM在小样本数据中的应用效果,本文通过Monte Carlo模拟研究基于SAM的SEM (简记为SAM-SEM)在小样本下的表现,主要对比SAM-SEM、传统SEM (简记为CB-SEM)和偏最小二乘结构方程模型(简记为PLS-SEM)在估计潜变量间路径系数时,估计量的偏差与精确性。本文实验包括数据生成、模型估计和结果分析三个主要步骤。

在模拟实验中,设定2个潜变量(X1、X2),每个潜变量由3个观测变量组成,观测变量服从正态分布,均值为0,方差为0.2,标准差由载荷和误差项共同决定。参考Yuan等人(2020) [9]在研究小样本性质时设置的样本量,本文取 N=10,30,50 ,用来观察不同方法在小样本下的估计性质是否随样本量的变化而变化。这里,由于在有2个潜在变量且每个潜在变量有3个观测变量的情况下,样本量应该达到模型中需要估计的参数数量的10倍[10],所以50仍是小样本的情况。为了方便进行不同方法下路径系数估计性能的比较,本文固定每种情况下的 β ,均设为 β 0 =0.5 。将通过CB-SEM得到的 β 估计量记为 β ^ cb ,通过SAM-SEM得到的 β 估计量记为 β ^ sam ,通过PLS-SEM得到的 β 估计量记为 β ^ pls

进行500次模拟实验,获得500组样本组,每组样本组可以得到一个参数 β 的估计值,其中第 i 组样本得到的估计值记为 β ^ i i=1,2,,500 ,则 β ^ 的偏差记为:

Bias= 1 500 i=1 500 ( β ^ i β 0 ) (13)

β ^ 的均方根误差可以记为:

RMSE= 1 500 i=1 500 ( β ^ i β 0 ) 2 (14)

在样本量为10的情况下,一次模拟的小样本数据如表1所示。

Table 1. Observed variable data generated when the sample size was 10

1. 样本量为10的时候生成的观测变量数据

n

x11

x12

x13

x21

x22

x23

1

−0.9259258

−0.2016124

−0.64696779

0.23540272

0.2766308

−0.12800939

2

−0.2816233

−0.2930842

−0.23108993

−0.01425864

−0.2259515

−1.03381082

3

0.7881235

1.4914082

0.36932254

1.01635828

0.7570743

1.22642784

4

−0.2695634

0.4420691

1.01229163

0.69234914

−0.3852656

−0.25694553

5

−0.1760959

0.4579236

0.61778967

−0.22797189

−0.5904481

−0.40293984

6

0.6177398

1.5085148

0.52676956

2.30401946

1.5583462

1.67802435

7

0.7434027

0.5703608

0.09637415

−0.24931788

0.5883378

0.20512471

8

−0.9434584

−0.9132306

−0.96773136

−1.17218657

−1.2307254

−1.6211469

9

−1.0584726

−0.6176277

−0.06330071

−0.0836258

0.2908123

−0.02317995

10

0.2041935

−0.4821152

−0.30468096

−0.32896029

0.544485

−0.38126332

注:由于样本量为30、50的情况下,产生数据过多,本文仅展示样本量为10的情况。

分别计算了CB-SEM、SAM-SEM和PLS-SEM在各自的样本组中得到的路径系数和载荷矩阵估计上的均方误差(MSE)和参数估计偏差(bias)。结果如下表2所示。

Table 2. Mean-squared error (MSE) and parameter estimation bias (bias) in conventional SEM, PLS-SEM and SAM-SEM

2. 在传统SEM、PLS-SEM和SAM-SEM中的均方误差(MSE)和参数估计偏差(bias)

N

β ^

bias

MSE

10

β ^ cb

−11.773

119.693

β ^ sam

0.056

0.114

β ^ pls

0.277

0.105

30

β ^ cb

0.217

0.081

β ^ sam

0.100

0.039

β ^ pls

0.235

0.062

50

β ^ cb

0.217

0.062

β ^ sam

0.116

0.026

β ^ pls

0.231

0.058

表2中可以看出,在估计的偏差方面,当 N=10,30,50 时,SAM-SEM的bias显著地小于CB-SEM和PLS-SEM的bias,优势明显。在估计的精确性方面,当 N=30,50 时,SAM-SEM的MSE显著地小于CB-SEM和PLS-SEM的MSE;当 N=10 时,SAM-SEM的MSE虽然没有PLS-SEM的小,但差别不是很大,而且显著地小于CB-SEM的MSE。

在Monte Carlo模拟实验中,样本量选取的不同,参数设置的不同,偏差与均方根误差的结果也是不一样的,综合来看,SAM-SEM得到的估计结果明显优于CB-SEM得到的估计结果,也优于PLS-SEM得到的估计结果。

3.2. 实证分析

为了进一步验证基于SAM方法的SEM在小样本数据中的应用效果,探讨教育投入对人才质量培养的影响。由于2013年是中国教育领域综合改革的标志性起点,根据《关于2013年深化教育领域综合改革的意见》(教育部1号文件),该年度集中推进了研究生教育改革、教育经费管理机制优化等关键政策。又因为截至2025年3月,2023年数据尚未完全公开,而2024年数据更处于整理阶段。选取2013年至2022年教育投入与人才培养相关数据进行实证分析。

参考陈星等人[11]在论述新中国的教育投入的评价标准和指标时选取的变量,并结合对于人才培养发展现状的分析了解,提出各个潜变量,探讨教育投入对人才质量培养的影响。教育经费是衡量教育投入最直接、最基础的指标,它反映了政府和社会对教育的资金支持力度;每万人口中高等教育在校生的数量越多,说明该地区或国家的高等教育资源越丰富,教育投入在扩大教育规模、提高教育普及率方面取得了成效;国家财政性教育经费是教育投入的重要组成部分,它体现了国家对教育的重视程度和支持力度。因此,提出教育投入的三个观测变量,即教育经费支出、每万人口高等教育在校生数、国家财政性教育经费。科研论文发表数量的多少可以作为衡量人才质量培养在学术研究方面成效的一个指标;毕业生就业情况是衡量人才质量培养效果的重要方面;较高的高等教育毛入学率意味着更多的人有机会接受高等教育,从而有可能培养出更多高素质的人才。于是,提出人才质量培养的三个观测变量,即科研论文发表数量、毕业生就业人数值、高等教育毛入学率。教育投入以及人才质量培养中变量的选取见表3

Table 3. Selection of variables in education investment and talent quality training

3. 教育投入以及人才质量培养中变量的选取

潜变量

显变量

教育投入(ξ)

教育经费支出(x11)

每万人口高等教育在校生数(x12)

国家财政性教育经费(x13)

人才培养质量(η)

科研论文发表数量(x21)

毕业生就业人数值(x22)

高等教育毛入学率(x23)

根据表3中的变量可以构建结构方程模型,其中测量部分表达为:

x 2i = Λ j η+ ε j ,i=1,2,3,j=1,2,3 (15)

x 1i = Λ j ξ+ ε j ,i=1,2,3,j=4,5,6 (16)

其中, η 是内生潜在变量, ξ 是外生潜在变量, x 1i x 2i 3×1 维的观测变量随机向量, Λ j 是潜在变量与观测变量相关的因子载荷矩阵, ε j 3×1 维残差随机向量。

结构部分表示如下:

η=βξ+ζ, (17)

其中, η 是内生潜在变量, ξ 是外生潜在变量, β 是回归系数矩阵, ζ 是误差向量。

根据结构方程模型的设定可以得到教育投入对人才质量培养影响关系的路径图,如图1所示。

Figure 1. Path relationship diagram between variables

1. 变量间的路径关系图

在使用SAM法对结构方程模型进行参数估计时,首先,使用最大似然估计(ML)的方法对结构方程模型中的测量部分进行参数估计。经代数运算解得因子载荷矩阵 Λ 的估计量和误差方差矩阵 Θ 的估计量:

Λ ^ =S Σ 1 Λ ( Λ T Σ 1 Λ ) 1 =[ 1 0.942 1 0 0 0 0 0 1 1.012 0 1.011 ] (18)

Θ ^ =diag( SΛ Λ T )=[ 0.000 0 0 0 0 0 0 0.010 0 0 0 0 0 0 0.001 0 0 0 0 0 0 0.031 0 0 0 0 0 0 0.010 0 0 0 0 0 0 0.012 ] . (19)

其次,通过因子载荷矩阵的估计值 Λ ^ 和误差方差矩阵的估计值 Θ ^ 求解出映射矩阵 K

K=[ 0.6810869 0 0.001828267 0 0.317248 0 0 0.1417382 0 0.4619335 0 0.3862888 ] (20)

通过(12)式得到因子得分矩阵:

η ^ =KX=[ 1.51123305 0.98788303 0.81225906 0.56103948 0.21266148 0.07034006 0.44399762 0.81042006 1.22039360 1.4084138 1.1276863 0.8178512 0.5180852 0.1969301 0.1250156 0.5014465 0.8129867  1.0747994 1.53992476 1.5547182 ]  . (21)

最后,使用普通最小二乘法得到SAM-SEM下潜变量之间路径系数 β 的估计。又根据结构方程模型的设定以及变量间的路径关系图,进行CB-SEM和PLS-SEM拟合,可以得到CB-SEM和PLS-SEM下潜在变量间路径系数的估计值,如表4所示。

Table 4. Pathway coefficient between potential variables in the influence of educational investment on talent quality training

4. 教育投入对人才质量培养的影响中潜在变量间的路径系数

路径系数

CB-SEM

SAM-SEM

PLS-SEM

η~ξ

0.9820288

0.9818154

0.9919605

在CB-SEM模型中,教育投入(ξ)对人才培养质量(η)的路径系数为0.9820288;在SAM-SEM模型中,教育投入(ξ)对人才培养质量(η)的路径系数为0.9818154;在PLS-SEM模型中,教育投入(ξ)对人才培养质量(η)的路径系数为0.9919605。三个模型都表明教育投入与人才质量培养是正相关的。从数值上看,SAM-SEM和CB-SEM模型估计出的路径系数十分接近。

针对上述实证数据,无法求得各模型的MSE,故通过分别计算CB-SEM模型和SAM-SEM模型在教育投入对人才质量培养的影响研究中得到的近似误差均方根(RMSEA),对比两个模型在拟合程度上的差异(PLS-SEM模型无法求得RMSEA),结果见表5

Table 5. Root mean square error of approximation (RMSEA)

5. 近似误差均方根(RMSEA)

β ^

RMSEA

β ^ cb

0.4064629

β ^ sam

0.07548352

近似误差均方根(RMSEA)的评定标准是小于0.08,表示模型拟合良好;大于0.1,表明模型拟合较差。从表5中可以看出,SAM-SEM的模型拟合指标结果是0.07548352,明显小于0.08;CB-SEM的模型拟合指标结果是0.4064629,明显大于0.1;这表明SAM-SEM的模型拟合效果更优。

通过探讨研究教育投入对人才质量培养的影响,所提出的SAM-SEM方法得到的拟合结果都明显优于CB-SEM,并且发现教育投入与人才质量培养之间有很强的正相关性,这意味着教育投入的增加会显著促进人才质量的培养。

4. 结论

本文通过模拟实验以及实证分析验证了基于结构后测量的结构方程模型(SAM-SEM)在小样本数据中的估计精度,并将其与传统结构方程模型(CB-SEM)进行了比较,分析了在小样本情况下SAM-SEM的统计特性。仿真实验结果符合理论分析结果,验证了结构后测量方法的有效性。

NOTES

*通讯作者。

参考文献

[1] 薛景丽, 郑新奇, 刘润润. 结构方程模型在城市研究中的应用述评[J]. 资源开发与市场, 2012, 28(3): 222-226.
[2] 刘洪彬, 王武林, 王秋兵, 等. 耕地土壤质量保护中农户认知行为影响因素研究——基于结构方程模型的估计[J]. 土壤通报, 2018, 49(4): 801-806.
[3] 高羽, 李静, 刘洋, 等. 结构方程模型在兴安落叶松林生长中的应用[J]. 南京林业大学学报(自然科学版), 2023, 47(1): 38-46.
[4] 马雨鸿, 马华姝, 乔宗旭, 等. 妊娠期糖尿病危险因素的结构方程模型分析[J]. 中国卫生统计, 2022, 39(3): 446-449.
[5] 贾丽霞, 肖远淑, 孟莉莉, 等. 新疆高校纺织专业协同育人影响因素的评价——基于结构方程模型的分析[J]. 纺织服装教育, 2023, 38(5): 41-46.
[6] Joshanloo, M. (2024) Factor Structure and Measurement Invariance of Conceptions of Happiness in Korea and Canada: An Application of Penalized Structural Equation Modeling in Mplus. Quality & Quantity, 59, 1-22.
https://doi.org/10.1007/s11135-024-01997-5
[7] Rosseel, Y. and Loh, W.W. (2024) A Structural after Measurement Approach to Structural Equation Modeling. Psychological Methods, 29, 561-588.
https://doi.org/10.1037/met0000503
[8] 何鹏, 张会儒. 常用景观指数的因子分析和筛选方法研究[J]. 林业科学研究, 2009, 22(4): 470-474.
[9] Yuan, K., Wen, Y. and Tang, J. (2019) Regression Analysis with Latent Variables by Partial Least Squares and Four Other Composite Scores: Consistency, Bias and Correction. Structural Equation Modeling: A Multidisciplinary Journal, 27, 333-350.
https://doi.org/10.1080/10705511.2019.1647107
[10] Din, R., Norman, H., Kamarulzaman, M.F., Shah, P.M., Karim, A., Mat Salleh, N.S., et al. (2012) Creation of a Knowledge Society via the Use of Mobile Blog: A Model of Integrated Meaningful Hybrid E-Training. Asian Social Science, 8, 46-56.
https://doi.org/10.5539/ass.v8n16p45
[11] 陈星, 张学敏. 新中国的教育投入: 评价的标准、方法和指标及其嬗变[J]. 清华大学教育研究, 2019, 40(2): 89-98.