1. 研究背景和意义
现代信息技术在过去几十年飞速发展,线上教育平台作为一种灵活而又高效的学习方式,已经成为现代教育的重要组成部分,其不仅打破了传统教育的时空限制,并且其海量的优质学习资源为全球的学习者提供了个性化的学习体验[1]。慕课(MOOC)作为新型教学模式,广泛应用于各大高校的教育课程中[2]。然而,尽管慕课的普及程度不断提高,但学生的学习效果仍受到许多其他因素的影响[3],尤其是学生的过程性学习表现与最终学习效果以及成绩之间的关系尚未得到充分的实证研究。
在传统的课堂教学中,教师可以通过面对面的互动和观察学生听课状态来判断学生的学习态度与掌握程度,从而及时调整教学策略。但在慕课线上学习平台中,学生的学习行为主要通过在线平台所记录的过程性学习数据来体现,包括了学生的视频课程学习时长、作业提交情况、讨论区参与度、测验成绩等多个维度。这些数据虽然丰富,但如何从中提取有效的信息对学生学习行为进行分析,反映学生的学习效果,以及指导后续教学开展,是我们亟需解决的问题[4]。
目前有关线上教育平台中学生学习表现与成绩关系的研究主要集中在单一维度的分析上,如课程学习时长与成绩的相关性,作业完成率对成绩的影响等,这种单一维度的分析往往忽略了学生学习行为的复杂性和多样性。如果学生在课程学习时长上表现良好,但在讨论区的参与度较低,说明学生可能缺乏了对课程知识的深入理解与思考,并且不同学生的学习风格和学习路径也存在差异,单一维度的指标难以全面反映其学生的学习表现与成绩之间的关系[5] [6]。
为了更准确地评估慕课这一线上学习平台中学生的学习效果,我们便采用多种统计建模方法,综合分析多维度的学习表现指标与学习行为之间的关系。这不仅可以帮助教师更直观地发现学生学习上的不足,还可为慕课平台教学方案设计与优化提供科学依据,更加针对性地提高学生的学习兴趣与学习效果。
因此,本文旨在通过多统计方法分析,进行统计建模,深入挖掘慕课平台学生的学习数据与学习行为之间的关系。将整合多维度的学习表现指标,并运用相关性分析、聚类分析、随机森林等方法,从不同角度揭示过程性学习行为对成绩的影响机制,一方面丰富慕课学习效果的研究理论,另一方面也为实际慕课教学调整提供更具针对性的指导,有力推动慕课教育质量的发展。
2. 研究数据与方法
2.1. 研究数据
云南大学《雷达气象学》慕课在2020年5月上线学堂在线平台(https://next.xuetangx.com/course/ynu07051002875/4043882雷达气象学–云南大学–学堂在线(xuetangx.com)),同时上线军职在线。一方面面向公众开放,提供雷达气象学相关的在线教学服务;另一方面也在云南大学慕课平台面向校内选课班级开放(云南大学(yuketang.cn) https://ynu.yuketang.cn/pro/courselist),开展校内线上线下混合式教学。
本文所用线上数据基于云南大学校内慕课班级的数据,从2021年~2024年共4个班次,校内选课人数共计108人。慕课资源共5个模块,其中视频单元19个(占25%),图文单元22个(占29%),作业单元18个(占23%),讨论单元11个(占14%),考试单元7个(占9%),慕课数据记录每位同学完成每个学习任务的时间、次数、完成度(正确率)等。基于这些校内慕课数据,结合课堂出勤、表现等开展统计分析,对学生学习行为进行深入研究。
根据不同线上学习任务(如视频、作业、讨论和阅读)发布时间和学生的完成时间记录,可以得到学生完成情况的拖延天数,同时可以计算不同模块学习任务的平均拖延天数,定义了综合拖延指数为:
并结合课堂考勤、课堂小测、线上考试成绩及用时等多维度信息,开展统计分析。
2.2. 研究方法
本文采用相关分析和K-means聚类这些传统统计方法外,还采用了随机森林算法,随机森林模型可通过构建多个决策树并将它们的预测结果进行组合,从而提高分类或回归的准确性和稳定性。根据选择的最优特征,将数据集划分为若干子集,对于每个划分后的子集,重复上述选择最优特征与划分数据集的过程,递归地构建子树。如果某个子集中的样本全部属于同一类别,那么这个子集对应的节点就是一个叶节点,标记为该类别。如果某个子集中的样本仍然包含多个类别,就继续选择最优特征进行划分。最终我们通过可视化决策树结构,分析出影响学生成绩等级的关键因素。
3. 研究结果
3.1. 学习行为相关性分析
从图1关键特征相关热力图来看,考勤次数与课堂小测正确率呈现显著正相关(0.79),且与线上学习任务各拖延指标呈负相关(如考勤次数与视频平均拖延天数相关系数为−0.47),表明出勤频繁的学生往往学习投入度更高,更易及时参与线上学习活动和任务,从而减少拖延行为,课堂小测表现也更优。考试成绩与线上学习活动拖延情况呈弱的正相关(如与综合拖延指数相关性为0.26),这可能是因为考试内容较为综合,部分学生存在临时突击复习或其他影响成绩的因素,使得拖延行为与成绩相关不显著。
不同线上学习任务(视频、图文、讨论、作业)拖延情况呈现高度正相关,即学生拖延行为具有跨学习任务的一致性。例如讨论与作业拖延情况的相关性达到了0.75,即讨论这一学习任务存在拖延,则作业也会拖延,且不同模块拖延情况与综合拖延指数均为强的正相关(均大于0.8),再次说明学生学习中拖延行为的一贯性。
因此,高校教学中应该通过强化考勤管理、提升课堂互动性等方式,培养学生良好学习习惯,降低拖延行为,进而提升学习效果。
Figure 1. Correlation heatmap between attendance, classroom quiz accuracy, average exam score, average video delay days, average text delay days, average discussion delay days, average homework delay days, and comprehensive procrastination index
图1. 考勤次数、课堂小测正确率、考试平均成绩、视频平均拖延天数、图文平均拖延天数、讨论平均拖延天数、作业平均拖延天数、综合拖延指数之间的相关热力图
3.2 学习行为聚类分析
采用K-means聚类方法对不同学习模块拖延天数进行聚类分析(图2所示),K-means算法中K值的选取直接影响聚类质量和可解释性,K值需在组内相似度尽可能高和组间差异尽可能大之间取得平衡,根据聚类结果特征的显著性,分为以下四类学习行为特征,但也必须说明,没有绝对正确的K值,本研究中K值的选取仍带有一定的主观性。
红色箱线(图2中3类)的学生学习积极度较高,在各个板块都能短时间内完成,拖延天数均很少。紫色箱线(图2的2类)的学生倾向于在讨论和作业模块进行拖延,图文和视频模块能够及时完成,与前述讨论与作业拖延特征相关性分析(图1)结果一致,同时也体现出学生对不同学习模块的学习倾向性,对于耗时较少或较轻松的图文和视频任务较易完成,不容易发生学习拖延,而对于有一定难度的讨论和作业则存在畏难心理,从而出现拖延的行为。通过对学生的访谈了解到,学生认为作业需要对知识点有一定的了解和熟练,才能去完成,否则会影响成绩,因而有一定的心理压力,引起了学习拖延。也有同学反映,不喜欢讨论模块,涉及较多专业名词,描述或是讨论起来较麻烦,因而出现拖延。绿色箱线(图2中的0类)的学生在不同学习模块均有拖延,但总体都能在合理时间范围内完成,讨论模块的拖延较高,有一定的随机性。黄色箱线(图2的1类)的学生则是几乎所有板块都会选择在截止日期前才完成,综合拖延指数最大,拖延行为较为严重,需要给予关注,了解学习困难、问题,从而进行学习拖延症的疏导。
当然,从图2也可以看到不同类别数据离散程度(图2箱体和直线长度)不同,说明不同类别在不同学习模块拖延情况也存在不同的波动。
Figure 2. Boxplot of clustering results for videos, images, discussions, and days of homework delay
图2. 视频、图文、讨论和作业拖延天数的聚类结果箱线图
根据以上学习行为的聚类结果,可以把学生大致分为三类(表1),即积极活跃型、持续稳定型和突击应对型。针对不同类型的学生,给出基于数据分析的教学建议。针对积极活跃型学生,可以设置更高的学习目标和要求,体现高阶性、创新性和挑战度,维持其学习热情,吸引学生持续学习并推动其深度学习。对于持续稳定型学生,了解学习困难,给予学习支持和辅助,加强学习规划,提升学习积极性、主动性,推动其向积极活跃型学习转变。针对突击应对型学生,了解学习滞后和拖延的原因和困难,通过开展单独访谈,对其进行学习拖延症的疏导和心理调节,帮助其克服学习拖延症。
Table 1. Teaching suggestions for different types of learners
表1. 针对不同类型学习者的教学建议
 
  
    学习行为  | 
    教学策略  | 
  
  
    积极活跃型  | 
    了解学习需求,维持学习热情,吸引学生持续学习,推动学生深度学习,
体现高阶性、创新性和挑战度  | 
  
  
    持续稳定型  | 
    了解学习困难,提供更好的学习支持,推动其向积极活跃型学习转变  | 
  
  
    突击应对型  | 
    了解学习进度滞后原因,开展单独访谈,给予特别关注,开展拖延症心理疏导,
帮助克服学习拖延症  | 
  
 3.3. 学习行为随机森林模型
利用随机森林模型进行聚类分析时,采用了前述8个特征(考勤次数、课堂小测正确率、考试平均成绩、视频平均拖延天数、图文平均拖延天数、讨论平均拖延天数、作业平均拖延天数、综合拖延指数),目标变量为学生学习行为分类,训练集聚类标签用的是K-means聚类结果,用20%样本作为测试集。如图3所示,决策树数量增加至约25后,准确率趋于稳定,达到0.875,召回率为0.875,F1值为0.833,线上教学中部分学生行为的特征重叠(如不同板块拖延程度的交叉)可能导致小部分分类误差。
Figure 3. Random forest model accuracy changes with the number of decision trees
图3. 随机森林模型准确率随决策树数量的变化
随机森林聚类可视化中不同类别(颜色)的点在特征空间中分布有区分度(图4),体现了模型对四类学生核心差异的捕捉能力。通过低拖延指数、高考勤等特征识别第一类(红色);通过高拖延特征区分第四类(黄色);结合多特征(如作业、视频拖延的相关性)进一步区分第二类(紫色)与第三类(绿色),与K-means聚类的结果非常一致。
因此,随机森林模型在识别学生拖延行为类型上表现良好,也可以作为预测模型,为线上教学管理提供有效支持,助力教师因材施教,为高校线上教学提供针对性管理依据,提升线上教学效果。例如,对第四类(黄色)综合拖延严重的学生,教师可加强过程督促。对第二类(紫色)中讨论与作业拖延的问题,可优化线上课程这两个学习模块的教学设计,增加互动提醒,还可在作业和讨论单元引入AI助教或是伴学,实时解决学生的问题,克服学习拖延。
Figure 4. Random forest clustering model results
图4. 随机森林聚类模型结果
4. 结论与展望
本文通过综合运用相关分析、聚类分析和随机森林等多种统计方法,对学生慕课学习行为进行了深入分析,揭示了学生对于不同慕课学习模块的学习拖延行为,同时深度挖掘了考勤、成绩与线上学习拖延行为之间的相关关系。针对学生的学习行为进行了聚类分析,随机森林模型对学生行为有较好的预测效果,根据不同类型的学习者提供了基于数据分析的建议,同时也根据学生的学习习惯和偏好,对线上学习模块提出了改进的建议和意见,以期优化线上教学设计,提升学生的学习效果和成绩。
必须指出的是,本研究仅针对一门理工科课程《雷达气象学》,样本量相对较小,样本代表性可能不足,同时缺乏设置学生背景变量(如性别、年龄、生源地等),也没有记录学生在学习过程中的思考深度、学习资源的使用质量等信息,因此特征指标无法涵盖和反映所有学习行为,存在一定的局限性,从而影响研究结果的普适性。未来将扩大数据量的收集,收集多班级、多课程的慕课平台数据,使其能够涵盖不同学科领域。此外,还可纳入不同学校学生的数据,经过对比能够更切实地反映不同教育环境下学生的学习行为,从而增强研究结论在各层次高校与各种教育场景中的普适性。
诚然,学习过程是一个复杂的动态系统,包含因素众多,后续可深入探究学习时间分布,分析学生集中学习和分散学习特征,以及一天中不同时间段的学习效率差异。通过纳入这些新变量,构建出更加完善的学生学习行为画像,从而深入理解学习过程中各因素的相互作用机制,挖掘出影响学习效果的潜在因素。
应用深度学习模型等更复杂的机器学习算法,更深入地挖掘学习表现与成绩之间隐藏的复杂非线性关系,精准定位影响学生成绩的关键因素组合,为线上教育平台提供更具针对性、更精准的指导策略,助力教师制定个性化的教学方案,以达到促进学生的学习与发展的目的。
基金项目
本文受云南大学AI智慧课程雷达气象学建设项目支持;由国家自然科学基金项目(项目批准号42565001)资助。