1. 引言
自第三次科技革命以来,电子计算机的诞生改变了人们的生活方式。互联网技术使文字符号转换成了数字符号,并以更加开阔的受众水平,高效的检索效率等技术特色为人们所接受和推广。2015年,中国教育大数据研究院建立,智库的建成将实现信息大数据与教育发展的深度对接融合,对于全面深化教育改革、促进教育公平、实现教育现代化、推动教育强省和教育强国建设将发挥重要作用。2019年,《中国教育现代化2035》提出建设只能化校园,统筹建设一体化智能化教学,管理与服务平台。至此,教育改革在一场大数据时代背景下的已经正式开始。
2. 研究现状
虽说大数据在高等教育中的应用已开始兴起,但如何调适自身来适应大数据时代与高等教育的现实需求,开辟适合高等教育长远发展的崭新路径,实现良好的现代转型,是目前高等教育改革与发展所面临的重要难题。目前展开此类研究有左国杰(2018)结合大数据应用的课堂教学改革实验研究 [1] ;杨正云(2019)基于大数据技术下若干问题调查及分析 [2] ;陆根书(2022)大数据在高等教育领域中的应用及面临的挑战 [3] ;李程(2019)大数据在高等教育中的应用现状及前景 [4] ;李赟(2012)大数据在高校的应用研究 [5] 。
3. 现状分析
(一) 高等教育发展趋势
当今时代数据科学发展日新月异,大数据凭借着其大容量,高生产速度在广泛领域有着大量的应用。高等教育也随着时代的变迁而不断发展,以大数据技术作为其快速发展的前沿科技正逐渐成为一种趋势。知网一直是学术界研究领域的权威,本文通过搜索关键词为“大数据”加“高等教育”,选择2010~2021年的相关研究文献进行统计,并在英文数据库ScienceDirect以“big data”和“higher education”为主题对同期英文文献进行检索统计,可以了解国内外大数据应用高等教育的发展趋势 [3] 。汇总结果如图1所示。
由图1可知:中英文相关的研究文献在近十年内均有高速增长,相比较英文文献,中文文献的数量较少,增长速度比较平缓且2011年以后才开始出现相关文献,后面几年逐渐增长,直到2019年已达到450篇,之后趋于下降。英文文献在2010年已经超过3000篇,直到2021年超过了14,000篇的索引量。
(二) 大数据主要应用于高等教育领域
由图2可知,大数据应用的主要领域是教学评价、分析教育行为、质量工程、在线教育平台以及科学化管理五个领域,其中分析学生学习行为和在线教育平台的使用率相较其他三个更高。

Figure 1. Big data application trend of the development of higher education (2010~2021)
图1. 大数据应用高等教育的发展趋势(2010~2021年)

Figure 2. Big data main application fields
图2. 大数据主要应用领域
4. 基于多元逻辑回归模型的满意度分析
(一) 各观测变量及其对应的测量问卷
依据调查问题的设计,我们认为这些问题能较好地反映学生的学习成效和满意度情况,比较适合研究,问卷中大致可以使用5个一级指标来进行满意度衡量。再将每个一级指标进行细分,得到14个二级指标,使用123份有效问卷作为样本,统计每一个样本的指标数据,如表1所示。

Table 1. Big data applications of higher education satisfaction evaluation system
表1. 大数据应用高等教育满意度评价体系
(二) 基于PCA的满意度评价指标筛选
1) 对原始数据进行标准化处理
假设样本观测数据矩阵为
那么可以按照如下方法对原始数据进行标准化处理:
其中,
;
2) 计算样本相关系数矩阵
为了方便,假定原始数据标准化后仍用X表示,则经标准化处理后数据的相关系数为:
其中,
。
3) 计算相关系数矩阵R的特征值
和相应的特征向量
4) 选择重要的主成分,并写出主成分表达式
由主成分分析可以得到p个主成分,但是由于各个主成分的方差是递减的,包含的信息量也是递减的,所以实际分析时,一般不是选取p个主成分,而是根据各个主成分累计贡献率的大小选取前k个主成分,这里的贡献率指的是某个主成分的方差占全部方差的比重,实际也就是某个特征值占全部特征值合计的比重,即:
贡献率越大,说明该主成分所包含的原始变量的信息越多,主成分个数k的选取,主要根据主成分的累积贡献率来决定,即一般要求累计贡献率达到85%以上,这样才能保证综合变量能包括原始变量的绝大多数信息。
利用问卷中随机抽取的123位大学生的相关数据,分别求出这14个指标的解释总方差及累计贡献率,见表2。

Table 2. Explain the total variance and the cumulative contribution rate
表2. 解释总方差及累积贡献率
从表2的结果中,前10个原始指标变量的累计贡献率为92.814%。因此,前10个公共因子对应的代表变量作为降维后的测度指标,如表3所示。

Table 3. Factor analysis indicators
表3. 因子分析选取指标
(三) 基于Logit回归的满意度分析模型
利用上述指标,选择训练样本,采用逐步迭代的方法,得到模型总体的检验参数,如表4所示。

Table 4. KMO and Bartlett’s test results
表4. KMO和Bartlett的检验结果
表4表明,在估计模型参数时,进行到第10步迭代终止。−2对数似然值(−2Loglikelihood)反映了模型中因变量不能解释的变动部分误差的显著值,Cox&SnellR方的值在第四步分别是0.573和0.803,说明模型的拟合度一般,并不是非常显著,结合表4综合分析,模型有一定的解释能力。
表5列出了变量模型的估计和测试值,除X8以外,每个变量都是在5%的显著性水平下,X8是数据管理,属于大数据信息处理方面,可能有很多原因出现这样显著的差异,也可能是由于样本容量波动较小导致,为了获得全面的索引信息,我们将X8添加到模型中。

Table 5. Variables of the model and test value
表5. 模型的变量及检验值
综上所述,可得Logit回归模型:
(1)
较为满意的概率为:
(2)
利用(2)式计算的满意度,即可衡量大学生对大数据应用高等教育的满意程度,通过与临界点(0.50)进行比较,为大数据在高等教育上的进一步应用提供依据。通过对样本进行测算得出学生总体成见很小,满意度较高,所以大数据应在高等教育方面进行深入研究,进一步完善管理,提高学生学习效率。
5. 对策与建议
1) 搭建大数据平台,优化资源配置
高校大数据应用平台通过集成高校目前的教学、科研、管理以及数字化图书馆等信息系统,对硬件设备进行统一的规划和升级,优化软硬件资源的配置,这样能为高校大数据的采集、整合和分析建立一定的硬软件基础,这也是高校大数据应用更进一步的基本前提。
2) 重视大数据人才培养,提升数据服务质量
加强对大数据人才队伍的建设,即对大数据应用人才、大数据管理人才和大数据研究人才整体队伍的建设。引进和培养大数据应用与管理人才,加强对大数据技术的应用能力,主要包括对大数据应用和管理人才的引进,对专业数据人才的培养以及对学校教师数据意识和素养提升的培训。可以利用大数据技术优化评价选项和评价细节,设置针对某一章节的教学进行评价,并且每天或者每周对评价结果进行统计分析,为教师及时调整教学方式提供参考,改善教学效果。
3) 建立大数据应用伦理规范,保证数据的有效性和稳定性
通过对大数据带来的新技术变革的“顺应”和“同化”,高等教育担负着在文化层次方面对大数据思考的责任,需从哲学、社会学、法学、伦理学等角度去规化大数据的研究和应用,以保证大数据引发社会变革的有序性和平稳性。
4) 加强政策引导,促进大数据在高等教育领域的良性发展
随着我国教育事业的发展与教育理念的进步,个性化学习将逐渐成为未来高等教育的主流方向,大数据一个用教育和主动学习将成为在高校接受高等教育时的显著特点。
基金项目
2021年安徽省省级大学生创新创业训练计划项目:No.S202110371013。