1. 引言
因子分析是最早是用来解决智力测验得分的,对于解决智力测验起到重要作用。因子分析是利用降维思想来简化数据的一种多元统计方法。它的本质可以这样理解:它从原始变量的相关矩阵出发,通过实际数据,进行分析后,利用几个“抽象”变量来表示其基本的数据结构。这几个“抽象”变量称为“因子”,因子可以代替原始众多变量,用公因子反映原始众多变量的大部分信息 [1]。本文根据河北省某高中一年级学生的各科成绩的实际数据,进过大量的统计后,进行因子分析得到学生的成绩综合评价模型,在此基础上将其与常用的总成绩排名法进行比较分析与评价,结果一致认为该方法明显有其独特的优势,它的优势可弥补平均成绩法的不足。通过对比,我们可以发现学生的个体特征和群体特征,可以看出它具有较强的科学性,是一种衡量学生成绩行之有效的方法。
2. 因子分析的基本理论
因子分析是用少数几个特殊因子去研究多个原始指标间相关系的一种多元统计方法。统计方法比一般方法占优,我们从根本出发看下它的定义,因子分析可分为R型因子分析和Q型因子分析,两者计算过程是一样的,但出发点不同,前者是从变量间的相关系数矩阵出发来研究变量之间的相关关系,后者是从样品间的相似系数矩阵出发来研究样品间的相关关系。后者更能说明因子分析的基本理论 [2] [3]。R型因子分析通常将各个变量表示成公因子的线性函数与特殊因子之和(公式1),也可以用矩阵形式表示为:
,F称为公共因子,
称为X的特殊因子。
称为第i个变量在第j个因子上的负荷,也表示m维空间中一点
在坐标轴
上的投影,A称为因子载荷矩阵。
,
;
; (1)
,
. (2)
,
,
(3)
在正交因子模型的假定下,随机向量X的协方差阵
要分解成两部分,但这种分解并不是唯一的。设T为一个
正交矩阵,则
。于是,
(4)
若令
,
,则模型可表示为:
,且满足因子模型的条件:
(1)
,
;
(2)
,
;
(3)
。
公因子F不是唯一的,因子载荷矩阵A也不是唯一的。它们是可以随机的变化的,只要对公因子作正交变换,就可以得到新的公因子。在几何上,正交变换对应坐标轴的旋转。旋转是在空间上旋转的,坐标系旋转后,因子载荷也发生相应变化,因此因子载荷矩阵不唯一,具有多样性。
(5)
当公因子之间完全不相关时,即
,而
,此时,
。当公因子之间完全不相关时,
就是第i个变量和第j个公因子之间的相关系数,即
在第j个公因子上的相对重要性。
的绝对值越大,表示公因子
与变量
的关系越密切,可以据此去寻找公因子
的实际含义。
(6)
各变量的共同度是衡量因子分析效果的一个重要指标。变量共同度反映的是m个公因子对原始变量
的总方差解释的比例。设因子载荷矩阵为A,变量
的共同度是第i行元素的平方和
(7)
(8)
上式说明变量
的方差由两部分组成:第一部分为共同度
,它描述了全部公共因子对变量
的总方差所作的贡献,反映了公共因子对变量
的影响程度。第二部分为特殊因子
对变量
的方差的贡献,通常称为个性方差,如果对
作了标准化处理,有
(9)
公因子
的方差贡献,等于和该因子有关的因子载荷的平方和,即
(10)
公因子方差贡献所做的贡献,反映了该因子对所有原始变量总方差的解释能力,是衡量公因子相对重要性的指标参数,指标参数越高,越能说明该值越高说明公因子的重要程度越高。在因子分析模型
中,如果不考虑特殊因子的影响,当
且A可逆时,我们可以非常方便的从每个样品的指标取值X计算出其在因子F上的相应取值:
,即该样品在因子F上的“得分”情况,也可以简称为该样品的因子得分。
但是因子分析模型在实际应用中要求
,因此,不能精确计算出因子的得分情况,只能对因子得分进行估计,计算它的一个估计值,汤姆森回归法假设公共因子可在对p个原始变量作回归,
,
(11)
如果
都标准化了,回归的常数项为零,即
。由因子载荷的统计意义知道,对于任意的
都有:
(12)
记
,矩阵形式可表示为
或
(13)
可以得到因子得分的估算公式为:
,其中R是X的相关系数矩阵。
3. 因子分析的一般步骤
1) 要想用因子分析法解决一个问题,首先要利用KMO检验和Bartlett球形检验对数据进行检验。如果KMO值越接近于1,越适合做因子分析。如果KMO值小于0.5,则不适合做因子分析。当Bartlett检验统计量p值小于0.05时,则变量适合做因子分析。
2) 一般利用主成分分析的方法是提取公因子。
3) 对样本进行因子分析,通过分析因子的方差贡献率信息和旋转后的因子载荷分布,来确定变量和因子间相关关系。
4) 计算因子综合得分,我们可以直观量化结果来确定样本的综合排序。
4. 实证研究
高中学生综合成绩对评价教学质量有很大作用,检验课程设置和人才培养合理性等具有非常重要的参考价值。目前高中生成绩评定一般是直接按照各科成绩总分进行排名。这种方法简单易行,直观而易于理解,动手操作简单,但太过片面笼统,有明显的缺点,不能反映学生的特长与个性差异,不能看出学生的实践能力,不能全面评价学生的综合素质揭示群体特征,因此这种评价方法有一定弊端 [4] [5]。本文为评价学生成绩提供了另一种方法——因子分析法。这种方法弥补了以上缺点,从数据的内部结构出发,理论联系实际,挖掘影响学生成绩的潜在因子,其能更加客观、科学地解释影响学生成绩的因素,从而更好地指导于日常教学与学生培养。本文建立了学生一个更为科学的综合成绩评价模型,从而挖掘影响学生成绩的内在规律。
本文以河北省某高中100名高一年级学生的各科成绩为原始数据,选取了13门课程,分别是:语文(X1)、数学(X2)、英语(X3)、物理(X4)、化学(X5)、生物(X6)、政治(X7)、历史(X8)、地理(X9)、音乐(X10)、美术(X11)、体育(X12)、信息技术(X13)。借助SPSS对原始数据进行因子分析,找出隐含的潜在因子来解释学生的成绩进而科学合理地指导日常教学并提高学生的综合素质。
(一) 适宜性检验。本文利用SPSS对处理后的数据进行KMO检验和巴特利特球形(如表1),检验结果为KMO = 0. 578 > 0.5,勉强适合做因子分析。P = 0.000 < 0.05这表明样本取样度合理,变量间的相关性较强,适合做因子分析。

Table 1. KMO and Bartlett’s test
表1. KMO和Bartlett的检验
(二) 公因子选取与解释。本文用主成分分析法,选取特征值大于1的5个公因子。表2是各个公因子对于总方差的解释程度,其累计方差贡献率为61.592%,能够反映原始数据的大部分信息。即利用因子分析的方法将原问题中13门科目指标变量通过5个公共因子代替,对样本数据做到了较大程度的降维。

Table 2. Total variance explained
表2. 特征根与方差贡献率表
因子载荷则表示公因子与原始变量之间的相关性。初始因子载荷解释不够明确,通过正交旋转法计算出旋转后因子载荷矩阵(如表3)。旋转后可以看到,第一个因子在变量
上有较大载荷,可将第一个因子命名为综合能力因子。第二个因子在变量
上有较大载荷,可将第二个因子命名为艺术水平因子。第三个因子在
上有较大载荷,可将第三个因子命名为理科能力因子。第四个因子在
上有较大载荷,可将第四个因子命名为文科及体育因子。第五个因子在
上有较大载荷,可将第五个因子命名为哲学及计算机能力因子。
表4为旋转后的因子载荷矩阵,该表通过因子得分表达式计算样本在单一因子上的表现效果。以因子得分结果作为替代指标近似值,以因子方差贡献率和累计方差贡献率的比值作为替代指标的权重,可以计算得到每个样本的综合得分作为评价学生综合成绩的依据。

Table 4. Factor score coefficient matrix
表4. 因子得分系数矩阵
(三) 综合评价。通过因子得分系数矩阵,计算出因子得分函数,并得到学生在各公因子中的得分,在此基础上以各公因子的方差贡献率为权重并利用线性组合建立学生成绩综合模型,其模型如下:
从表5的综合评价中可以看出,通过因子分析法和直接计算学生总成绩这两种方法比较后前者具有明显优势,如:26号学生因子得分综合排名为第1名,但是总成绩排名则为第27名。详细观察发现该生在第四主成分上存在明显的优势,可见该生文科能力很强。第一主成分和第三主成分上也优势明显,因此综合能力和理科能力也突出。21号学生其因子得分排名为第10名,但是总成绩排名则为第25名。通过分析发现该生在第三主成分上有明显的优势,在第四主成分上存在明显的不足,即文科能力水平明显偏低,但是理科能力表现优异,所以综合得分排名第10名,而平均成绩排名却相当靠后。可见因子分析有其独特的优势,可发现学生的个性特征和综合能力,从而更好地因材施教、提高教学质量。这是总成绩排名所不能比拟的,评价结果更为客观,对高中生文理选科也起到了一定的指导作用,同时在新高考改革中,也为学生在选择高考科目时提供了一定的参考作用 [6]。
5. 结论与展望
本文在实际的撰写中,利用现有的学生成绩数据同时结合教学的实际情况、学生的不同背景将因子分析的方法应用于实际数据分析中,从多种课程间提取出有价值的信息,如课程之间的相关性、课程之间的归类合并、提取影响学生成绩的潜在因子,发现学生课程学习的差异等,这对学校课程设置、安排以及实际的教学与管理、学生发展等具有非常重要的意义,同时也为教育教学改革提供现实理论基础。
本文基于因子分析的高中学生成绩数据,从统计学的角度,为综合评价学生成绩提供了一种简便的方法。基于河北省高一学生成绩的分析结果可以看到,变量由13降维到5,很好地实现了数据降维的效果,并且得到高中学生综合成绩排名,与常用的总成绩排名方法进行了对比,发现了因子分析综合评价优于常见的学生成绩方法。然而因子分析仍存在一些问题,例如,对于旋转后因子的命名未能给出统一的解释。在进行成绩综合评价时,因子及与其显著相关的原始变量有内在的相关关系,综合因子是原始变量的线性组合,用这些关系对综合因子、逐个因子的变量组进行深入的数据分析,尽可能深入到决策的相关性程度。