1. 引言
随着信息技术的进步和学习理念的革新,“互联网+”教育的在线学习变得更加灵活多变,在线学习平台也迅速爆增,特别是疫情期间,在线学习平台如雨后春笋,其学习资源也多姿多彩,同时学习者在各类学习平台中的也存储着大量的行为数据,如学习者的投入度 [1] 。如果在线学习平台能及时判断出投入较低的学习者,通过自我调整或教育者干预行为,让该平台上的学习者提高学习投入 [2] 。虽然在线学习的发展使得学习者可以灵活支配自己的时间,但是在线学习也有弊端,如高灵活性使得部分学习者投入度较低,而导致较差的学习效果;同时由于缺乏监督性以及评估的滞后性,部分学习者可能在临近结课的时候,才开始“努力”学习,导致学习效果无法得到保证。本文从学习投入中的行为投入维度入手,探究在线学习环境下对学习者行为投入及时评测的方法,以机器学习算法为基础,利用学习分析技术,结合学习投入理论,收集在线学习平台上的各种数据,构建出一种学习投入评测模型,评测结果及时反馈给学习者与施教者,让学习者实现自我管理,也让施教者实现及时监管。
2. 相关工作
2.1. 国内外研究现状
国内学者对“学习投入”常常引用为“学习参与度”或“深入学习”等关键词,笔者在2022年9月1日上午11点在中国知网(https://www.cnki.net/)上对相关的关键词进行检索,总共收到2453条文献,其中“学习投入”有1297条,“学习参与度”有170条,“学习投入度”有149条。这说明国内学者在学习投入问题上已经探索出一定的研究成果,通过相关文献分析,笔者得到这些研究结果主要表现在:学习投入理论研究、影响学习投入因素研究、学习投入成效评估研究 [3] [4] [5] 。而在国外,最早对学习投入研究的是Tyler的“任务时间理论”,他认为学习投入的时间越多,学习成效越好;Pace学者认为学习成效与学习专注程序有关,提出了学习投入的“努力质量理论”;Kuh学者结合Tyler与Pace提出有效学习投入的时间和精力,而Schaufei学者则认为学习投入是一种专注、活力与奉献的精神状态;还有Fredricks学者把学习投入分解为三个维度指标:行为投入、情感投入、认知投入。目前绝大部分学者认同Fredricks的三维指标,当然也有学者提出四维指标:参与、规律、专注和交互 [6] [7] [8] [9] 。总之,在线学习的行为投入不仅仅考量学习者的学习状态,也在考量学习平台的技术支撑与服务状态。
通过对国内外研究文献分析,得到不管是传统学习还是在线学习,学习投入基本有三要素:行为、认知、情感,而在线学习行为投入数据类别多、数据大且更容易获取,但学习者监督与评测的主要工具是通过问卷、量表方式,而本文选择基于学习行为投入维度作为研究出发点,构建评测模型,帮助学习者监管,以便更好地保证学习成效。
2.2. 学习投入度影响因素
通过文献分析,总结出在线学习的影响因素有学生的满意度、参与度、保持力等学习支持服务因素,也有学习时长、关注度与交互等维度,更有学习动机、认知与协作、支持与互动等学习管理因素 [10] [11] [12] [13] 。本文根据现有文献中的影响因素指标筛选出24个相关子指标,且通过在线大学生的数据分析确定为在线学习行为投入的五大影响维度指标:参与投入、专注投入、坚持投入、交互投入、绩效努力,并把学习行为投入风格暂定为自主型、被动型、协作型、内驱型,从中收集学习者的各种数据,作为构建与训练学习投入评测模型的数据集与测试集 [14] 。
2.3. 机器学习算法
机器学习关注点是模型的预测能力,它通过大数据训练出算法模型以便创造出更大的价值。目前机器学习算法模型有逻辑回归模型、支持向量机模型、集成模型(随机森林、stacking),其中逻辑回归模型是把学习行为维度由机器自动分类,解决评测指标的计算问题,若在计算问题上是一种不可分的数据指标,则按支持向量机模型的评测方法完成非线性数据的线性分析,随机森林模型则是多个相同种类的指标集成的模型评估,而stacking模型是多个不同种类的学习集成模型评估,目的就是解决评测模型泛化能力弱的特点 [15] - [20] 。本文通过不同模型训练,最后得到最优算法,构建评测系统,提供在线学习的监督与支持服务。
3. 评测模型
笔者通过梳理已有的数据集,结合前期文献分析中的五大维度,确定在线学习行为投入影响指标,如下表1所示。

Table 1. Learning engagement dimension index
表1. 学习投入维度指标
根据表1中的投入维度和学习投入指标构建出在线学习投入评测模型,如图1所示。

Figure 1. Online learning engagement evaluation model
图1. 在线学习投入评测模型
从图1中的模型结构中得到在线学习评测系统的功能模块,主要功能就是学习行为投入五大维度的指标数据的相关收集与处理,由于在线学习系统采用学生用户(学习者)与教师用户(施教者)两个界面端口,所以评测系统的功能模块也应该包含学生用户信息模块,学生管理功能模块,具体的功能模块如图2所示。

Figure 2. Functional structure diagram of online learning input evaluation system
图2. 在线学习投入评测系统功能结构图
从图2中得知,本评测系统前端界面有学生端和教师端,在学生端可以查看学生个人基本信息、行为投入维度情况(包括视频观看比例、测验完成比例、高访问量保持率、视频反刍比、平均观看时长等)、行为投入评测情况(包括五大维度指标数据内容);在教师端可以进行学生管理(包括学生情况、学业成绩、五大维度指标评测结果等),若某个学生的视频学习时长不达标或观看视频数量不足、测验内容未完成、每周访问量不足等情况,教师端会发布相应的提醒信息给该学生,从而实现在线学习监督的自动管理。
本系统还需要将五大维度指标数据作为学习者每周行为的训练数据集,采用前面所说的四类机器学习算法构建学习者周次分类模型,并计算出每个模型的性能,从中选取最优模型。当然数据集还要按照机器算法的特征向量进行标准化处理,并通过模型参数调整,训练出最优模型,其中机器学习算法模型训练代码关键要点如下:
1:从sklearn (机器学习包)中引入svm (支持向量机模型)
2:从sklearn.linear (机器学习包)中引入LogisticRegression (逻辑回归模型)
3:从sklearn.rf (机器学习包)中引入RandomForestClassifier (随机森林模型)
4:从mlxtend.classifier中引入StackingCVClassifier (异质集成模型)
5:构造svm数据迭代器(即定义svm_model模型计算模型,输入特征变量features,输出结果标签labels,数据量每周)
6:计算(训练)数据参数:线性核=’rbf’,高斯核=’ovr’,误差值=0.5
7:构造逻辑回归lr数据迭代器(即定义lr_model模型计算模型,参数同svm模型)
8:计算(训练)数据参数:multi_ class='ovr',solver='liblinear',误差值=0.5
9:构造随机森林rf数据迭代器(即定义rf_model模型计算模型,参数同svm模型)
10:计算(训练)数据参数:弱分类器n_estimators=200,最大深度max_depth=8
11:构造异质集成stacking数据迭代器(即定义stacking_model模型计算模型,参数同上)
12:调用rf_model模型,计算(训练)数据参数:弱分类器n_estimators=200,最大深度max_depth=8
13:调用svm_model模型,计算参数kernel='rbf',C=0.5,decision_function_shape= 'ovr'
14:调用lr_model模型,计算参数C=0.5,multi_ class='ovr',solver='liblinear'
15:结果分析:计算参数classifiers=[rfclf,svclf],meta_classifier=lrclf
4. 评测结果
本文利用预测精准率(ACCURACY)来衡量在线学习评测系统的预测结果,由于数据指标分类特点和聚类后样本不均特征,第一次使用机器学习四类算法模型(lr:逻辑回归模型;svm:支持向量机模型;rf:随机森林模型;stacking:异质集成模型)主要是学习者中低投入者数据样本,其效果如图3所示。
从图3中得到训练数据集样本类别不平衡或数据量少,造成模型预测准确率不高(精准值低于0.9),从第8周开始一直到16周,四种训练模型计算出的精准率都差不多,并逐周同步提升,原因是训练数据集的样本数据量逐周增加,同时stacking模型在第11周和第13周的精准率最低,原因是数据庥样本的类别不平衡,因此笔者采用过采平衡数据集样本,将少数类的样本随机重复添加,这样该系统模型在小样本数据集的预测效果较好,如图4所示。
从图4得到基于机器学习的评测模型,当学习训练样本的数据量足够大,评测模型的精准度也会越来越高,四种算法训练模型也同时达到最高值,如同图中的第16周显示结果,四种算法模型预测效果一样(四点归一),这是实验中最理想的效果,也是我们最想要的结果。

Figure 3. Predicted results for low contributors
图3. 低投入者的预测结果

Figure 4. Prediction results for small samples
图4. 小样本的预测结果
5. 结语
在线学习越来越广泛应用,它所产生的各式各样数据也越来越多,教育管理者如何利用这些大数据,更加地实施调整教育监管。本研究开发的评测系统只是一种个性化在线学习的监督管理,模型训练数据不足,是小样本研究,学习行为投入的维度也不多,预测泛化能力不强,机器学习算法也有待优化与改进,希望以后收集更多的数据集,以更加优化的模型来预测学习者的学习成效。
项目基金
2022年海南省大学生创新创业训练计划项目:《基于机器学习的在线学习行为投入评测模型》(编号:S202213892044);海南省自然科学基金资助(622RC735);三亚学院重大专项课题(USY22XK-04)。