大学生学习情况调查统计分析——以平顶山学院为例
Statistical Analysis of the Survey of College Students’ Study Situation—Taking Pingdingshan University as an Example
DOI: 10.12677/SA.2023.124098, PDF, HTML, XML, 下载: 129  浏览: 760 
作者: 刘萍汝, 谢 强*, 王晗笑:平顶山学院数学与统计学院,河南 平顶山
关键词: 多元线性回归主成分分析主成分回归Multiple Linear Regression Principal Component Analysis Principal Component Regression
摘要: 本文通过设计调查问卷,统计学校同学对所研究因素的评分,整理问卷数据,建立以研究因素为自变量,学生平均绩点为因变量的多元线性回归模型,在建立该回归模型的过程中,发现原始变量间存在共线性,因此采用主成分分析法对研究因素降维,提取主成分,将学生成绩与提取的四个主成分做主成分回归分析。再将四个主成分与研究因素做线性回归,代入整理得到学生成绩与研究因素的最终回归方程。通过比较回归方程系数绝对值大小,可以知道在学习成绩和原始24个因素的回归表达式中,课内认真程度,课外学习时间,知识基础,阅读浏览量,社会实践经历,考前准备在所有因素中系数绝对值较大,即学习行为因子对我校学生学习程度的影响较大。
Abstract: This paper designed a questionnaire, collected scores of students on the factors studied, sorted out the questionnaire data, and established a multiple linear regression model with the research factors as independent variables and students’ average score-point as dependent variables. In the process of establishing the regression model, it was found that there was collinearity among the original variables. Therefore, principal component analysis method was adopted to reduce the dimension of the research factors, extract the principal components, and perform principal component regression analysis between student achievement and the four principal components extracted. Then, the four principal components and research factors are used for linear regression, and the final regression equation of student achievement and research factors is obtained. By comparing the absolute value of the coefficient of the regression equation, it can be seen that in the regression expression of the academic performance and the original 24 factors, the absolute value of the coefficient of all factors is larger, namely, the learning behavior factor has a greater influence on the learning level of students in our school.
文章引用:刘萍汝, 谢强, 王晗笑. 大学生学习情况调查统计分析——以平顶山学院为例[J]. 统计学与应用, 2023, 12(4): 946-960. https://doi.org/10.12677/SA.2023.124098

1. 引言

世界上具有代表性的大学生调查研究项目有很多,例如英国的“全国大学生调查”,澳大利亚的“课程体验调查”与“大学就学经验调查”,及美国的“全国大学生学习性投入调查 [1] ”。

近年以来,社会越来越期待能够培养出更多高等教育人才,因此国内学术界也开始关注大学生的学习和发展,并且已取得瞩目成果:清华大学——“中国大学生学习与发展追踪研究”,北京师范大学——“中国大学生就读经验调查”,北京大学——“首都高校质量检测项目”,除此外湖南大学、西安交通大学等参加了美国伯克利大学主持的“国际研究型大学学生就读经验调查”。诸多高校也曾使用调查问卷对本校生进行调查,例如中山大学 [2] 。

总的来说,国内大学生学习情况调查项目既有改进学校教育质量的作用,又有充实和推进高等教育学科研究领域的功能,非常符合中国教育界发展和研究需要,应当坚持并且不断完善 [3] 。

2. 学生学习状况调查

2.1. 设计调查问卷

本次数据来源于自己制作的调查问卷,并用调查问卷收集得到的抽样数据估计学院学生的总体状况,即对平顶山学院学生做抽样调查,并且为简单随机抽样调查。

问卷共回收了431份,将原始问卷中A,B,C,D,E选项替换成−5,−3,0,3,5等数字来表示所研究因素的状态和水平,导出后删除不合理数据并对剩余问卷数据进行统计。最后得到实际有效数据414份。将这414份问卷录入SPSS软件中,以便对数据进行处理。

本次问卷共设了25道题,包括可能会影响学生学习成绩的24个因素:对任课老师的印象(X1),课内认真程度(X2),好胜心(X3),校园学习环境(X4),对科目没有兴趣(X5),经济水平(X6),自信心(X7),没有学习方法(X8),人际关系(X9),愉快的情绪(X10),课外学习时间(X11),自制力(X12),求知欲(X13),知识基础(X14),没有好的学习习惯(X15),家庭氛围(X16),阅读浏览量(X17),社会实践经历(X18),幸福感(X19),知识衔接差(X20),兴趣爱好(X21),家庭学习环境(X22),学习目标不明确(X23),考前准备(X24),和他们上学期的平均绩点,因为若要研究学生的学习情况,学习成绩即平均绩点是最直观简洁的参考方式。

2.2. 数据的信度检验

Cronbach-α信度系数是最普遍被使用的关于问卷信度的估计方法,通常根据Cronbach-α系数判定调查问卷的信息是否可靠,通常其判定标准在0~1之间,系数越大,问卷信息越可靠。

将Cronbach-α信度系数范围列表为表1

Table 1. Cronbach-α Coefficients table

表1. Cronbach-α系数表

对数据进行信度检验结果:

Table 2. Case processing summary

表2. 案例处理汇总

Table 3. Reliability statistics

表3. 可靠性统计量

由案例处理汇总表(表2)可知,收集到的414个回答均有效,并且由可靠性统计量表(表3)可以看出Cronbach-α系数的值为0.902,则证明所收集到的数据信度很好,真实、可靠、有效,可以用于本篇文章的统计分析基础数据。

2.3. 多重共线性检验

VIF值是检验回归方程多重共线性的常规方法,通常认为VIF值以10为界限(严格定义为5),在此基础上VIF值小于10,且其越趋近1,多重共线性的程度接近无;若VIF的值大于10,则认为其不适合做回归分析。

Table 4. Coefficient

表4. 系数

由系数表(表4)可知,X1,X2,X3,X10,X11,X19的VIF系数均远远大于10,表明这些变量有非常明显的共线性,为使得模型预测更为精确,使用主成分分析法,消除原始变量中的多重共线性,在诸多变量中提取主成分。进而采用主成分回归法协助建立学生成绩和24个研究变量的回归方程 [4] 。

3. 数据的主成分分析

3.1. KMO检验和巴特利球体检验

做主成分分析前要先做KMO检验,KMO检验可以检验变量间的相关性和偏相关性。KMO的检验系数取值范围应在0到1,KMO值越接近1,说明变量间的相关性越强,反之越弱。

Table 5. KMO and Bartlett coefficients

表5. KMO和Bartlett系数

KMO和Bartlett系数表(表5)给出了KMO系数代表的意义,调查问卷数据KMO和Bartlett系数检验输出结果如下:

Table 6. KMO test and Bartley sphere test

表6. KMO检验和巴特利球体检验

由KMO检验和巴特利球体检验表(表6)可知,问卷数据的KMO统计量为0.843,超过0.8,即原始变量KMO检验通过,原始数据的Bartlett的球形度检验Sig.值为0 < 0.05,说明调查问卷数据适合做主成分分析。

3.2. 寻找公因子的个数

公因子方差表(表7)表示在被提取的公因子中,原数据被表达的比例,由图可知几乎所有原始变量原始数据提取比例都在80%左右,所以提取出的4个主成分对于原始变量的阐释能力是较好的。

Table 7. Common factor variance

表7. 公因子方差

由解释的总方差表(表8)可以看出主成分F1特征值为7.651,即F1表达了7.651个原始因素的信息,主成分F2和主成分F3主成分F4特征值分别为4.628,3.787和3.147,而80.053%的贡献率是由前四个主成分的累计贡献达到的,因此使用前四个组成分足以描述原始变量的大部分信息。

Table 8. The total variance of the interpretation

表8. 解释的总方差

由方差解释表(表8)和碎石图(图1)可以看出,本例保留了大于1的特征根,即提取的4个主成分,这样由分析原来的24个变量转化为仅需分析4个综合变量,极大地起到了降维的作用。

Figure 1. Gravel diagram

图1. 碎石图

3.3. 主成分表达式及分析

Table 9. Composition matrix

表9. 成份矩阵

成分矩阵表(表9)达出了标准化后24个因素与4个主成分之间的线性关系系数,为了得到含义更加明确,实际意义也更为明显的主成分,将原来的主成分进行旋转,即将因子分析中的因子旋转后得到一组新的因子载荷矩阵。

Table 10. Rotate the component matrix

表10. 旋转成份矩阵

由旋转成分矩阵表(表10)可以得到方差最大化正交旋转后原始变量与提取的4个主成分之间的因子载荷,即原始变量与提取的4个主成分之间的线性方程系数,由此可得原始变量与提取的主成分之间的回归表达式:

X 1 = 0.901 F 1 + 0.058 F 2 + 0.104 F 3 + 0.077 F 4 X 2 = 0.116 F 1 + 0.914 F 2 + 0.061 F 3 + 0.063 F 4 X 3 = 0.939 F 1 + 0.066 F 2 + 0.082 F 3 + 0.054 F 4 X 24 = 0.077 F 1 + 0.879 F 2 + 0.010 F 3 + 0.098 F 4

由成分矩阵表进一步计算,得出平均绩点和24个变量的得分系数矩阵表。

Table 11. Component score coefficient matrix

表11. 成份得分系数矩阵

由得分系数矩阵表(表11)输出结果可以得到4个主成分与24个因素之间的回归方程系数,即回归方程可以表达为:

F 1 = 0.148 X 1 0.008 X 2 + 0.156 X 3 0.016 X 4 0.016 X 5 0.011 X 6 + 0.106 X 7 0.013 X 8 0.003 X 9 + 0.156 X 10 0.010 X 11 + 0.146 X 12 + 0.149 X 13 0.019 X 14 0.030 X 15 0.005 X 16 0.013 X 17 0.017 X 18 + 0.146 X 19 0.025 X 20 + 0.147 X 21 0.009 X 22 0.022 X 23 0.012 X 24

F 2 = 0.016 X 1 + 0.193 X 2 0.014 X 3 0.022 X 4 0.010 X 5 0.033 X 6 + 0.001 X 7 0.016 X 8 0.017 X 9 0.013 X 10 + 0.194 X 11 0.018 X 12 0.008 X 13 + 0.190 X 14 0.002 X 15 0.009 X 16 + 0.181 X 17 + 0.190 X 18 0.016 X 19 0.005 X 20 0.007 X 21 0.015 X 22 0.003 X 23 + 0.185 X 24

F 3 = 0.015 X 1 0.003 X 2 0.022 X 3 + 0.005 X 4 + 0.216 X 5 0.004 X 6 0.009 X 7 + 0.227 X 8 0.025 X 9 0.023 X 10 0.004 X 11 0.001 X 12 0.033 X 13 + 0.000 X 14 + 0.229 X 15 0.040 X 16 0.008 X 17 0.009 X 18 0.015 X 19 + 0.237 X 20 0.017 X 21 0.021 X 22 + 0.231 X 23 0.016 X 24

F 4 = 0.003 X 1 0.025 X 2 0.004 X 3 + 0.223 X 4 0.001 X 5 + 0.236 X 6 0.021 X 7 0.017 X 8 + 0.232 X 9 0.004 X 10 0.023 X 11 0.013 X 12 0.002 X 13 0.017 X 14 0.020 X 15 + 0.227 X 16 0.006 X 17 0.023 X 18 + 0.005 X 19 0.019 X 20 0.012 X 21 + 0.238 X 22 0.027 X 23 0.011 X 24

由四个主成分的表达式可看出:

第一个主成分F1主要由 X 1 X 3 X 7 X 10 X 12 X 13 X 19 X 21 即对任课老师印象,好胜心,自信心,愉快的情绪,自制力,求知欲,幸福感,兴趣爱好决定,由于大多数情况都与学生心理方面相关,因此我们把它统称成为心理因子。

第二个主成分F2主要由 X 4 X 6 X 9 X 16 X 22 即由校园学习环境,经济水平,人际关系,家庭氛围,家庭学习环境决定,我们把它统称为环境因子。

第三个主成分F3主要由 X 5 X 8 X 15 X 20 X 23 即对科目的没有兴趣,没有好的学习习惯,知识衔接差,学习目标不明确决定,我们把它命名为缺陷因子。

第四个主成分F4主要由 X 2 X 11 X 14 X 17 X 18 X 24 即对课内认真程度,课外学习时间,知识基础,阅读浏览量,社会实践经历,考前准备决定,我们把它统称为学习行为因子。

Figure 2. Rotate the spatial matrix diagram

图2. 旋转空间矩阵图

旋转空间矩阵图(图2)代表提取四个主成分后,原始数据在四维空间上的分布。

4. 主成分回归分析

4.1. 学习成绩关于主成分的回归

由系数表(表12)可知,四个主成分的VIF检验值都为1,小于10,四个主成分之间不存在共线性,则通过主成分分析提取主成分之后,由4个主成分作为学生平均成绩的自变量是合适的。

由模型汇总表(表13)可以看出:R2 = 0.830,调整后的R2 = 0.828,可以知道,回归后自变量对因变量的解释率为82.8% [5] 。

且根据方差分析表(表14)可知:回归模型中4个主成分关于因变量即学生成绩的检验P值 = 0.00 < 0.05,拒绝方程不显著的假设,即P检验说明回归方程显著;每个自变量对因变量都有显著的影响 [6] 。

根据系数表可以写出y关于4个主成分的回归方程,即:

y = 3.316 + 0.285 F 1 + 0.301 F 2 + 0.251 F 3 + 0.230 F 4 (3.1)

Table 12. Coefficient

表12. 系数

Table 13. Model rollup

表13. 模型汇总

Table 14. Analysis of variance

表14. 方差分析

4.2. 主成分关于原始因素的回归

在四个主成分和平均绩点做回归分析之后,再做24个原始变量和四个主成分的回归分析,可得24个原始因素与主成分之间的回归表达式:

F 1 = 0.221 + 0.051 X 1 0.003 X 2 + 0.055 X 3 0.005 X 4 0.005 X 5 0.003 X 6 + 0.000 X 7 0.004 X 8 0.001 X 9 + 0.055 X 10 0.003 X 11 + 0.050 X 12 + 0.053 X 13 0.007 X 14 0.010 X 15 0.001 X 16 0.004 X 17 0.006 X 18 + 0.051 X 19 0.009 X 20 + 0.051 X 21 0.003 X 22 0.008 X 23 0.004 X 24 (3.2)

F 2 = 0.250 0.005 X 1 + 0.064 X 2 0.004 X 3 0.007 X 4 0.003 X 5 0.011 X 6 + 0.00 0X 7 0.005 X 8 0.006 X 9 0.004 X 10 + 0.065 X 11 0.005 X 12 0.002 X 13 + 0.062 X 14 0.001 X 15 0.003 X 16 + 0.060 X 17 + 0.063 X 18 0.005 X 19 0.002 X 20 0.002 X 21 0.005 X 22 0.001 X 23 + 0.060 X 24 (3.3)

F 3 = 0.217 0.005 X 1 + 0.064 X 2 0.004 X 3 0.007 X 4 0.003 X 5 0.011 X 6 + 0.000 X 7 0.005 X 8 0.006 X 9 0.004 X 10 + 0.065 X 11 0.005 X 12 0.002 X 13 + 0.062 X 14 0.001 X 15 0.003 X 16 + 0.060 X 17 + 0.063 X 18 0.005 X 19 0.002 X 20 0.002 X 21 0.005 X 22 0.001 X 23 + 0.060 X 24 (3.4)

F 4 = 0.240 + 0.000 X 1 0.008 X 2 0.002 X 3 + 0.071 X 4 0.001 X 5 + 0.076 X 6 + 0.000 X 7 0.006 X 8 + 0.075 X 9 0.002 X 10 0.008 X 11 0.005 X 12 0.002 X 13 0.006 X 14 0.007 X 15 + 0.074 X 16 0.002 X 17 0.008 X 18 + 0.001 X 19 0.006 X 20 0.005 X 21 + 0.076 X 22 0.009 X 23 0.004 X 24 (3.5)

将公式(3.2)、(3.3)、(3.4)、(3.5),代入公式(3.1)得到自变量y (平均绩点)关于因变量X (24个因素)的回归表达式(3.6):

y = 3.068 + 0.012 X 1 + 0.033 X 2 + 0.013 X 3 + 0.011 X 4 0.004 X 5 + 0.011 X 6 + 0.000 X 7 0.005 X 8 + 0.014 X 9 + 0.013 X 10 + 0.033 X 11 + 0.010 X 12 + 0.013 X 13 + 0.031 X 14 0.005 X 15 + 0.015 X 16 + 0.032 X 17 + 0.031 X 18 + 0.012 X 19 0.005 X 20 + 0.012 X 21 + 0.014 X 22 0.005 X 23 + 0.031 X 24 (3.6)

由公式(3.6)可知,每一个变量前都有它的回归系数,可以通过比较变量前系数的绝对值大小,分析每个变量对因变量的影响程度 [7] ,根据变量前的系数由大到小排序为:

y = 0.033 X 2 + 0.033 X 11 + 0.032 X 17 + 0.031 X 14 + 0.031 X 18 + 0.031 X 24 + 0.015 X 16 + 0.014 X 9 + 0.014 X 22 + 0.013 X 13 + 0.013 X 10 + 0.013 X 3 + 0.012 X 19 + 0.012 X 1 + 0.012 X 21 + 0.011 X 4 + 0.011 X 6 + 0.010 X 12 0.005 X 20 0.005 X 23 0.005 X 8 0.005 X 15 + 0.004 X 5 + 0.000 X 7 + 3.068

在回归方程中系数绝对值较大的为X2,X11,X17,X14,X18,X24。即课内认真程度,课外学习时间,知识基础,阅读浏览量,社会实践经历,考前准备是需要重点研究的对象,就此对平顶山学院学生学习影响较大的因素找到,为学校提高教学水平改革提供一定基础。

5. 结论

通过制作的调查问卷收集整理数据,问卷包括影响学生学习的24个因素和他们上学期的平均绩点,然后对数据进行了初步整理,做了关于数据可靠性的信度分析,通过信度分析结果发现调查问卷的可靠性极高,则说明收集的数据对于要做的回归分析问题有基础的依据 [8] 。然后对调查问卷数据进行了VIF检验,结果显示多个研究因素的VIF值远远高于临界值,则说明数据间存在多重共线性,而存在共线性会使模型精度大大降低,为使多重共线性消除。对原始变量进行主成分分析,提取四个主成分,并且各个主成分代表的含义各不相同,用主成分和平均绩点做主成分回归时VIF值均小于标准值 [9] ,则通过共线性检验,将学生成绩与提取的四个主成分做主成分回归分析。再将四个主成分与研究因素做线性回归,代入整理得到学生成绩与研究因素的最终回归方程 [10] 。在仅限于调查问卷所涉及到的24个因素里,将所研究因素做主成分回归后,24个研究因素分为了4个因子,分别为心理因子,环境因子,缺陷因子,学习行为因子。通过回归方程系数可知学习成绩关于原始24个因素的回归表达式中,课内认真程度,课外学习时间,知识基础,阅读浏览量,社会实践经历,考前准备在所有因素中系数绝对值较大,即学习行为因子对我校学生学习程度的影响较大。

参考文献

NOTES

*通讯作者。

参考文献

[1] 中国高等教育学会高等财经教育分会, 西南财经大学高等财经教育研究中心, 编. “双一流”背景下的高等财经教育[M]. 成都: 西南财经大学出版社, 2018.
[2] 史静寰. 走向质量治理: 中国大学生学情调查的现状与发展[J]. 中国高教究, 2016(2): 37-41.
[3] 樊华强, 朱荣. 大学生学习情况调查研究的现状与瞻望[J]. 煤炭高等教育, 2015, 33(6): 98-101.
[4] 梁兴堃. 图情档研究中的回归分析: 基本原理[J]. 图书情报知识, 2021, 38(3): 154-164.
[5] 任升录. 关于线性回归模型的显著性检验[J]. 数学教学, 2012(3): 7-8.
[6] 常海涛, 蔡静, 温悦, 等. 一种基于主成分分析的TDLAS高频噪声滤波[J]. 计量学报, 2022, 43(10): 1285-1290.
[7] Coto, B. et al. (2022) Fast and Simplified Determination of PCA and Aromatic Carbon Content of Treated Distilled Aromatic Extract (TDAE) by NMR. Analytical and Bioanalytical Chemistry, 414, 3109-3119.
https://doi.org/10.1007/s00216-022-03941-8
[8] Xiang, C.Y., Wu, L.G. et al. (2022) Characteristics of Extreme Rainfall and Rainbands Evolution of Super Typhoon Lekima (2019) during Its Landfall. Frontiers of Earth Science, 16, 64-74.
https://doi.org/10.1007/s11707-021-0871-3
[9] 李刚, 梁家卷, 潘建新, 等. 多元统计分析及其应用[J]. 中国科学: 数学, 2020, 50(5): 571-584.
[10] 苏毓淞, 刘江锐. 统计分析方法与美国政治学研究[J]. 美国研究, 2020, 34(3): 107-125+7-8.