1. 引言
高校教学质量是人才培养的核心保障,其科学评价对于推动教学改进、提升教育质量具有重要意义[1]。现有研究已从多视角构建了教学质量评价的方法体系,如因子分析[2]、结构方程模型[2]、多面Rasch模型[3]、云–灰关联分析[4]、层次分析法[5]、BP神经网络[6]、熵权法[8]以及混合偏态分布模型[9]等。近年来,亦有学者引入四层次分析框架[10]或结合偏最小二乘结构方程与人工神经网络[11],尝试提升评价的精确性与综合性。
然而,尽管方法日趋多元,多数研究在数据处理上仍存在一个局限性:未能充分考虑教学评价中普遍存在的嵌套数据结构。在实际教学环境中,学生个体嵌套于班级或课程中,课程又嵌套于教师或学院之下,形成典型的层次结构。这种数据结构导致观测值之间不具备独立性,若沿用传统回归或一般线性模型,不仅会低估标准误、增大Ⅰ类错误风险,也无法有效分离不同层级(如学生层面与教师层面)的变异来源,从而导致估计偏误与推论失真。事实上,教育数据的嵌套特性及其对建模方法的内在要求,早在1990年代就已得到方法论学者的系统阐述。例如,Morris (1995) [12]明确指出教育数据天然适合分层建模,并深入探讨了早期模型在估计与推断中面临的挑战,强调了模型诊断与方差成分准确量化的重要性。
随着理论发展与计算工具的进步,分层模型在教育研究中的应用已逐步深入并证实其价值。例如,纪江明与葛羽屏(2015) [13]利用分层线性模型分析基础教育满意度,清晰地揭示出市民个体特征是解释城市间差异的主因,而城市层面财政指标的解释力相对有限,这凸显了分层模型在辨析变量影响层级上的独特优势。王芳(2018) [14]基于分层线性模型研究了大学生教学满意度影响因素。郭建鹏等(2022) [15]基于全国大规模高校教师数据,采用两水平HLM模型,进一步揭示了教师教学投入同时受到个体因素(如性别、职称、自我效能感)和学校环境因素(如学校类型、教学环境)的跨层影响,并识别出学校环境通过自我效能感影响教学投入的中介路径。这些研究,连同Sulis等(2019) [16]运用广义线性混合效应模型对学生评教数据的分析,共同构成了将分层模型应用于教育评价问题的坚实实证基础,证明了其在处理异质性和进行跨层比较方面的优越性。
尽管如此,将分层广义线性模型(HGLM)系统应用于高校教学质量影响因素分析的研究仍相对匮乏。现有研究多集中于连续型结局变量(如满意度、投入度)的HLM分析,而教学评价实践中大量存在的分类、顺序等非连续型数据(如等级制评教结果)、非负等则需要更具普适性的HGLM框架。多数评价文献在构建模型时,未能从“数据结构驱动方法选择”的视角,系统回应嵌套数据与变量非正态性带来的双重挑战。值得注意的是,分层广义线性模型(HGLM)因其在处理层次结构、非独立数据方面的灵活性与鲁棒性,已在诸多社会科学领域成为成熟的分析工具。例如,在经济预测[17]、社会参与研究[18]、保险费率厘定[19]以及公共服务与移民定居意愿[20]等研究中,HGLM被成功用于分析复杂的多层作用机制,充分验证了其方法论的普适性与有效性。
因此,本研究旨在弥补上述研究空白,通过引入分层广义线性模型,系统分析高校教学中存在的多层数据结构,并精准识别影响教学质量的关键学生层面与教师层面因素。本研究不仅从方法上回应了嵌套数据与非正态因变量带来的统计挑战,拓展了HGLM在教育质量评价中的应用边界,也在实证层面为后续基于多源、多层数据的教学改进策略提供了更可靠的分析基础。
2. 分层广义线性模型
令
为第
个个体(组)的第
个观测值。分层广义线性模型由以下三部分构成:
(1) 分布形式:
其中
其中
称为典型参数,
称为散布参数。上述指数分布族包含一些常见的分布,如指数分布、正态分布、二项分布、伽玛分布等。
(2) 系统部分:
其中
和
分别对应固定效应系数
和随机效应项
的解释变量所构成的向量。
(3) 连接函数:
注意当上述模型中的区组效应
时,上述三部分构成的模型称为广义线性模型。
对于上述分层广义线性模型,其对数似然函数可以写为
最大化上述对数边际似然函数,即可求得模型中未知参数(包括
以及
分布中的参数)的极大似然估计值。然而,由于上述对数边际似然中包含高维积分,因而增加了求解极大似然估计的难度。为此,近年来相关学者提出了多种解决方案,如Gaussian-Hermite近似或自适应Gaussian-Hermite近似、蒙特卡罗(MC)近似结合Newton-Raphson算法,MCEM算法,Laplace近似、MQL、PQL方法、GEE方法等。相关工作回顾可以参看文献[21] [22]。除极大似然估计方法外,在给定模型参数先验条件下,亦可采用贝叶斯方法获取模型参数的贝叶斯估计。
3. 应用案例
本节我们通过两个实际例子介绍上述分层广义线性模型在教学评价中的应用。
3.1. 影响统计学通过率的影响因素分析
我们收集了某财经类高校非统计学专业统计学学习相关的数据。数据包含549名学生的期末考试成绩、任课老师、概率论课程成绩、学生性别、所在教学班级等信息,其中涉及到6位任课老师,6个不同专业,9个不同教学班级。我们关注的问题是哪些因素会影响学生该课程的通过率。图1给出了不同任课老师,不同专业,不同教学班级、不同性别学生、不同概率成绩分数段通过情况的条形图。卡方检验结果表明在0.01显著性水平下变量性别、概率论成绩对不及格率有显著影响,而变量“所在教学班级”在0.1显著性水平下通过检验,其余变量,如任课老师,专业却不显著。
为了考虑不同因素对学生通过率或不及格率的影响,将学生是否通过统计学考试作为因变量,而学生的性别(gender)、任课老师(teacher)、概率论成绩(score_prob)、所在教学班级(Class),专业(major)作为解释变量建立广义线性回归模型。同时考虑到同一教学班级的学生成绩可能存在一定的相关性,因此将学生所在教学班级作为区组因素,最终建立分层广义线性回归模型:
Figure 1. Bar chart of failure rates under different factors
图1. 不同因素下不及格率条形图
应用R语言的lme4包中的glmer函数,所得回归结果见表1。
表1中模型1结果表明专业和任课老师均不显著,而学生的性别与概率论成绩在0.05显著性水平下是显著的。此时随机效应的标准差接近于0。去掉模型1中的不显著变量,得到模型2的回归结果。同时,为了比较不同模型的差异,我们去掉模型1和2中的随机效应项,建立一般的广义线性回归模型,回归分析结果见模型3结果。模型2和模型3的回归系数的估计和标准差相差不大。另外由AIC和BIC的值可知模型3最优。上述结果表明,学生的性别及概率论课程的学习对统计学通过率的影响比较显著,而与任课老师、专业、所在教学班级等变量关系不大。分层广义线性模型与不考虑区组的一般广义线性模型分析结果差异不大。另外我们也采用贝叶斯方法(R包blme中bglmer函数,其中先验采用默认值)对上述模型进行了估计,结果与表1中结果相差不大。
Table 1. Results of the regression analysis on the pass rate of the statistics course
表1. 统计学课程通过率回归分析结果
|
模型1 |
模型2 |
模型3 |
|
估计量 |
标准差 |
P值 |
估计量 |
标准差 |
P值 |
估计量 |
标准差 |
P值 |
(Intercept) |
−1.55 |
1.26 |
0.22 |
−1.09 |
1.02 |
0.29 |
−1.10 |
0.98 |
0.26 |
Score_prob |
0.04 |
0.01 |
0.00** |
0.04 |
0.01 |
0.00*** |
0.04 |
0.01 |
0.00*** |
gender |
−0.94 |
0.29 |
0.00** |
−0.98 |
0.28 |
0.00*** |
−0.98 |
0.27 |
0.00*** |
teacher2 |
0.48 |
1.57 |
0.76 |
- |
- |
- |
- |
- |
- |
teacher3 |
0.92 |
0.66 |
0.17 |
- |
- |
- |
- |
- |
- |
teacher4 |
−0.92 |
0.95 |
0.33 |
- |
- |
- |
- |
- |
- |
teacher5 |
0.64 |
0.51 |
0.21 |
- |
- |
- |
- |
- |
- |
teacher6 |
−0.02 |
0.91 |
0.98 |
- |
- |
- |
- |
- |
- |
major49 |
1.55 |
0.81 |
0.05 |
- |
- |
- |
- |
- |
- |
major53 |
1.40 |
0.91 |
0.13 |
- |
- |
- |
- |
- |
- |
major62 |
0.29 |
0.65 |
0.65 |
- |
- |
- |
- |
- |
- |
major67 |
1.23 |
0.92 |
0.18 |
- |
- |
- |
- |
- |
- |
major68 |
0.33 |
1.59 |
0.83 |
- |
- |
- |
- |
- |
- |
Random effects |
|
0.000 |
|
|
0.069 |
|
- |
- |
- |
AIC |
382.80 |
376.00 |
374.05 |
BIC |
433.10 |
393.30 |
386.97 |
注:记号“***”、“**”、“*”、“.”分别表示显著性水平0.001、0.01、0.05、0.1下显著。
针对上述发现,今后我们在提升统计学课程学习效果时,应增强学生在统计学前修课程概率论中的学习,为统计学的学习奠定良好基础。同时在课程教学管理过程中,注重性别差异对课程教学的影响,针对不同性别特点选择不同的教学资料、教学策略和方法、考核方式以满足不同性别学生的学习需求,提高课程教学效果。
3.2. 教学评价的影响因素分析
Hamermesh和Parker [23]基于一组大学教师的评教数据研究了教师颜值对教学评教的影响。具体数据见R语言ARE包“TeachingRatings”。数据共463条记录,包含受评教师的年龄(age),是否为少数裔(minority),性别(gender),学分(credits),颜值(beauty),教学评教分数(eval),英语是否为母语(native),是否为终身教职(tenure),是否为高年级课程(division),是否为单学分选修课(credits)等信息。
本案例中我们主要关注影响教师评教分数的影响因素。图2给出了不同因素不同水平下评教分数的箱线图及变量与评教分数的散点图。图2结果结合t检验或相关性检验(显著性水平为0.05)表明,性别(gender),英语是否为母语(native),是否为终身教职(tenure),是否为单学分选修课(credits),这四个分类变量对评价结果影响显著。另外颜值(beauty)与评价分数(eval)分数之间有较强的相关性。
Figure 2. Box plotor scatter plot of teaching evaluation scores under different influencing factors
图2. 不同影响因素下教学评教分数箱线图或散点图
注意到评教分数为非负值,因此我们首先采用伽玛回归模型对数据进行建模分析。伽玛回归模型如下:
采用R语言基础包中的glm函数进行回归分析,相关回归结果见表2中的模型1。去除模型1中的不显著变量,得到约简模型2。结果表明颜值、性别、课程学分都对评教有显著影响,而年龄、是否为终生教职、是否为高年级课程对评教影响不显著。
另外由于数据中一个老师参与评教的课程可能不止一门,同一个老师的评教分数可能存在相关性,因此考虑将评价教师作为区组因素,建立分层伽玛回归模型:
利用R语言lme4包中的glmer函数进行回归分析。结果见表2中的模型3,结果表明变量是否为少数裔、英语是否为母语在模型中都不显著,去掉不显著变量后得到约简分层回归模型4。根据AIC和BIC准则,模型4为最优模型。模型4表明:颜值对评教有正的影响,男教师比女教师评分倾向于高,学分少的课程比学分多的课程评分倾向于高。类似于案例1,我们也采用贝叶斯估计方法对上述模型3和模型4进行了估计,结果与表2中的结果相差不大。
高校课堂教学质量评价的科学化,强烈依赖于能够精准衡量并排除多种干扰因素的定量模型。传统的评价指标体系虽涵盖了教学态度、内容、方法等维度[24],但越来越多的证据表明,学生评教数据深受嵌套结构与系统性偏见的双重困扰。例如,最新研究发现,学生基于“公平性感知”的评价具有高度不稳定性,且这种偏见无法通过简单的统计控制来消除 (Buchanan et al., 2025 [25])。这揭示出,在评价指标之外,数据本身的结构与效度问题已成为影响结果科学性的关键。若忽略评教数据中嵌套关系,以及性别、评分公平性等潜在偏见,任何基于传统线性模型的分析都可能得出误导性的结论。因此,我们必须借助如分层广义线性模型这类能够同时定义随机效应以处理嵌套数据、并纳入协变量以控制偏见的现代定量手段,才能有效剥离无关因素的干扰,获得对教学质量更真实、更科学的评价结果。
Table 2. Regression results on teaching evaluation scores
表2. 评教分数的回归分析结果
|
模型1 |
模型2 |
模型3 |
模型4 |
系数 |
估计量 |
标准差 |
P值 |
估计量 |
标准差 |
P值 |
估计量 |
标准差 |
P值 |
估计量 |
标准差 |
P值 |
Intercept |
1.42 |
0.02 |
0.00*** |
1.40 |
0.01 |
0.00*** |
1.37 |
0.02 |
0.00*** |
1.37 |
0.02 |
0.00*** |
beauty |
0.04 |
0.01 |
0.00*** |
0.04 |
0.01 |
0.00*** |
0.04 |
0.02 |
0.05. |
0.04 |
0.02 |
0.05* |
scale (age) |
−0.01 |
0.01 |
0.35 |
- |
- |
- |
- |
- |
- |
- |
- |
- |
genderfemale |
−0.05 |
0.01 |
0.00*** |
−0.04 |
0.01 |
0.00*** |
−0.06 |
0.03 |
0.07. |
−0.06 |
0.03 |
0.05. |
minorityyes |
−0.04 |
0.02 |
0.03* |
−0.05 |
0.02 |
0.02* |
−0.02 |
0.05 |
0.65 |
- |
- |
- |
nativeno |
−0.06 |
0.03 |
0.03* |
−0.06 |
0.03 |
0.02* |
−0.08 |
0.06 |
0.20 |
- |
- |
- |
tenureyes |
−0.02 |
0.02 |
0.34 |
- |
- |
- |
- |
- |
- |
- |
- |
- |
divisionlower |
0.00 |
0.01 |
0.94 |
- |
- |
- |
- |
- |
- |
- |
- |
- |
creditssingle |
0.15 |
0.03 |
0.00*** |
0.16 |
0.03 |
0.00*** |
0.11 |
0.03 |
0.00*** |
0.11 |
0.03 |
0.00** |
Random effects |
- |
- |
|
0.07 |
|
|
0.08 |
|
AIC |
742.00 |
737.47 |
596.11 |
594.82 |
BIC |
783.38 |
766.44 |
629.21 |
619.65 |
注:记号“***”、“**”、“*”、“.”分别表示显著性水平0.001、0.01、0.05、0.1下显著。
4. 结论
本研究针对教学质量评价数据中存在的分层结构与异方差性特点,提出了分层广义线性模型的分析方法。通过对两项实际数据的分析,验证了该方法在此类复杂数据情境下的有效性与可行性。结果表明,该模型能够更精准地识别影响教学质量的关键因素,为教育管理者与教师采取针对性改进措施提供了实证支持。需要指出的是,教学质量评价是一个复杂的系统工程,未来研究应结合质性分析、课堂观察等多种方法,构建更为综合的评价体系,从而更全面地推动课堂教学质量的持续提升[25]。
基金项目
上海高校市级重点课程建设项目“贝叶斯统计”(2024)。
NOTES
*通讯作者。