1. 引言
随着信息技术的快速发展,中国在线教育用户数量猛增,从在线教育用户数、市场规模以及融资额度的快速发展三方面表明在线教育处于突飞猛进的发展阶段。在线教育虽然发展迅速,但是与此对应的中小学在线教育的评价体系并不完善,目前用户、企业、教育主管部门只能从主观出发提供建议意见,缺少系统全面的评价标准对其进行客观评价。国内对于中小学在线教育的满意度评价的内涵与评价指标尚无统一定论,同时已经开展的中小学在线教育评价方案研究大多采用自编问卷进行实证调查,对调查问卷答案进行简单的统计和相关性分析,自编问卷本身的信度和效度是否可靠导致了在线教育评价结果客观性存在疑问。
本研究结合现有的评价体系,对SERVQUAL模型进行修订的基础上,构建中国中小学的在线教育满意度评价体系,并以2020年1月1号为界,对前后两个阶段的主流中小学在线教育评价文本进行情感分析,给出量化客观的满意度评价。通过这种基于情感计算的满意度评价体系可以让教师、在线教育企业了解影响在线教育的关键因素,以及用户对于在线教育的关注点,从而改善自身的教学,提高教学质量,最终提高整体的在线教育质量和水平,以期为在线教育在实践中更好的应用提供客观评价标准。
2. 在线教育满意度评价理论构想
国外在线教育发展较早,其中美国的在线教育已经有110多年的历史。随着信息技术的快速发展,在线提供学习的课程不断增加,随后各种在线教育平台不断出现,比如在线慕课平台ed X,可汗学院等。我国的在线教育形式也发展迅速,从早期的电视大学、网络学院到如今的繁多的在线学习APP等。发展伴随着教育信息化的飞速发展,在线教育的满意度评价工作也需要与时俱进。
对众多的在线教育平台的教学满意度研究中,我们发现目前尚没有统一的体系定义。不同的研究人员从不同的研究角度和视角来评估。早在2004年Macpherson发表了关于网络学习的思考并提出自己的建议 [1]。2005年KF Hew等人从宏观、中观、微观三个层面对在线教育评价体系进行探讨 [2]。我国在线教育满意度研究起步较晚,张珍连对信息可获得性、服务影响、网络环境三个要素的进行详细分析,构建了网络信息服务质量的评价体系 [3];钱晓群等通过网络技术、品牌、资源、学习过程四个维度对影响网络教育服务质量因素进行了深入的研究 [4];孙大雷从开发技术、界面友好、教学环节三大关键要素提出对在线课程评价要求 [5]。郭晓平等人构建由易用性、安全性、可靠性、学习资源的有效性、响应性、关怀行、品牌合计7个指标所构成的网络教育服务质量评价指标体系 [6]。卢长红主要利用多元回归分析,得出来影响我国在线教育服务质量的影响因素 [7]。陈晓稀利用服务蓝图技术对中学阶段的在线教育进行了深入分析,并制作出了《中学阶段综合类在线教育服务质量评价指标研究》 [8]。上述文献从不同角度和需求对在线教育评价体系进行了研究,但是服务质量是期望和服务比较的结果,基于服务质量的差距分析模型,研究人员提出了SERVQUAL模型 [9],它包含5个维度和33个测试项目,可以有效衡量用户感知服务预期与实际体验之间的差距。本研究在编制量表初稿时,一方面考虑现代在线教育的影响因素,通过文献调研的方式,了解并获得在线教育满意度的数据资料,另一方面参照SEVQUAL模型框架,对所获得的数据资料进行整理分析,并编制中小学在线教育满意度评价量表。具体构建思路如图1所示。

Figure 1. Construction of online education satisfaction evaluation system
图1. 在线教育满意度评价体系构建思路
3. 基于SERVQUAL模型的在线教育满意度指标修订
在线教育满意度指标是一个复杂的概念,它取决于学生、课程内容、家长、教师、信息技术以及机构等一系列因素,本质上就是教育服务质量的问题。教育质量不同于企业所定义的质量,它与“合适的目的”密切相关。在现在激烈的在线教育市场中,在线教育机构的成功取决于所提供的教育服务的满意度,因此现在的在线教育机构正面临由快速变化的技术带来的学生、教师、课程内容等竞争的国际化和无界限性。
虽然SERVQUAL模型在质量评价体系中获得了广泛的应用,但是我们必须考虑以下两个问题:1) SERVQUAL模型不是针对在线教育提出的,需要对其进行修订,使其能够适用于在线教育满意度评价;2) 在线教育的迅猛发展,满意度评价体系的时效性如何体现?因此需要根据在线教育质量影响因素对SERVQUAL模型进行修订。
结合在线教育评价体系构建思路,首先需要寻找影响在线教育满意度评价的影响因素,并对上述影响因素进行分析归纳,然后把通用的SERVQUAL模型中的五大指标(有形性、可靠性、响应性、保证性、移情性)修订为更加符合在线教育评价的六类指标(直观性、基本性、响应性、保证性、个性化、经济性)。
本研究将利用爬虫技术爬取网络上中小学在线教育评论的文本,并筛选出评论相关的高频词汇,使其更加适合现行的中小学在线教育。最后在把完善后的中小学在线教育评价体系给相关学者专家进行访谈,来完善SERVQUAL模型,使在线教育的满意度评价体系更具有科学性和准确性。
笔者采用关键词“在线教育”/“在线课程”/“在线教学”/“质量评价”等关键词对中国知网CNKI数据库进行检索,检索时间从1990年~2020年12月份。另外对相关文献后参考文献也进行了追溯检索,最终从评价指标角度来对涉及到教育质量影响因素进行统计,部分统计结果如表1所示。

Table 1. Part content of online education rating system in primary and secondary schools
表1. 中小学在线教育评级体系部分内容
经过对表内评级体系内容进行分析,本文对SERVQUAL模型进行修订,使其更加适合中国的在线教育。具体修改原因和各个层面的含义如下:
3.1. 有形性改为直观性
SERVQUAL模型中有形性指的是实际设施,设备以及服务人员等,涉及到服务提供商的物理设施,设备以及服务相关的材料,其本意是让用户看到公司有形的、外在状态是否和它提供的服务状态相匹配。在线教育机构依托互联网,用户可以足不出户就可以查到关于该公司的商业资质和信誉,因此有形性的本意并不适合在线教育机构,所以本文把有形性改为直观性,其含义是用户可以通过实地观察体验和网络在线观察直观的考察自己选择的企业是否满足自己的需求和期望,直观性作为一级指标,下设有形和无形两个二级指标,其中有形就是指机构的硬件、设施和工作人员外在形象。
尽管在线教育机构的主要业务是线上教育,然而通过直播画面和上课体验,用户可以看到其直播环境和设备的,所以有形性指标依然保留,但是列为直观性的二级指标。
3.2. 可靠性改为基本性
可靠性是质量体系里最重要的维度,它描述了公司可靠的服务承诺能力。由于考虑到所构建的满意度评价体系有保证性指标,为了更好的区分可靠性和保障性,本文经过仔细推敲把可靠性转化为基本性,其含义是公司展示出的能力是否能值得用户基本的信赖、能否满足客户的最基本需求,能否符合国家标准,是描述公司是否能满足用户对公司最基本的要求,基本性的一级指标下设APP、课程、教师、广告、安全五个二级指标。
APP指标主要描述的是在线教育的产品或系统的外观设计产品或系统的使用体验。比如界面设计、视觉风格、语音音效、操作简捷、信息呈现、导航跳转、使用帮助、检索功能、链接反馈、进程管理、版本更新、离线服务、资讯推送等。
课程指标主要描述的在线教育课程的准确性、难易程度、教学过程的完整性、更新及时程度,是否符合国家标准等用户对课程最基本的要求。包括:购买服务与注册、内容与支持服务、学生支持服务、学业成就评估。
教师指标是指教学一线工作人员是否满足国家和客户对教师的基本要求,如是否专业、是否有规划等等。例如授课教师的素质和水平、思路清晰的教学规划、教师语速、教师专业水平、教师口碑。
广告指标主要是指广告的诚实度、准确度、时效性等要求。包括广告宣传信息规范真实,准确,清晰且有时效性,且向公众开放,例如招生宣传、课程推荐。
安全指标是指客户信息的安全性,金钱交付的安全性等。包括在线交付交易安全、学校个人信息隐私安全等。
3.3. 反应性
反应性原意是帮助顾客并迅速提高服务,这个维度描述公司和员工对待顾客的反应。本文对部分文献分析如表2所示,反应性更新表述为问题处理是否及时、有效,并使用户满意。其中包括学生对课程内容有所疑问老师回答是否及时、对服务有所疑问时,客服的回复是否及时,解决方案是否有效等。

Table 2. Contents of responsiveness index
表2. 反应性指标涉及内容
3.4. 保证性
保证性是指员工所具有的知识、礼节以及表达出自信与可信的能力,增强顾客的信任。在前面小结解释基础性指标的时候,就对保证性和基础性这两个指标进行区分。基础性表述的是最基本的要求,是守住在线教育的底线,是教育公司必须要具备的基本能力和要求。相比基础性,保证性更加关注的是公司展示出来的能力是否可为用户提供额外的服务,能否满足用户高等级的要求。比如课程是否有趣、互动感是否强烈等等。保证性使课程变得更加有效率,让学生喜欢上课程,也是让公司与客户增加粘性的重要指标。在保证性的一级指标下有交互、课程、教师三个二级指标,部分文献的保证性指标示例如表3所示。
3.5. 移情性改为个性化
移情性是指关心并为顾客提供个性化的服务。为了更适合在线教育的表述方式,本文把移情性改为个性化。现有的在线教育的发展、教育内容的探索,为客户提供个性化服务均是在线教育吸引客户的招牌,比较典型的有双师模式,即“主讲老师 + 辅导老师或者班主任”。个性化服务涉及的部分内容如表4。

Table 3. Contents of assurance indicators
表3. 保证性指标涉及内容

Table 4. Contents of personalized index
表4. 个性化指标涉及内容
3.6. 经济性
通过对在线教育评论的分析,有必要在满意度评价体系中增加“经济性”这一指标,其涵义是该在线课程的性价比,比如用户所交的学费是否符合他所感受到的服务,而不是单纯认为等价为价格。此外还有如何公平定价收费、在招生前向客户明确告知取消/退款/的政策和程序。
综上所述,本文基于SERVQUAL模型所构建的中小学在线教育满意度评价模型如图2所示。
该模型共分为6个一级指标,下涵盖10个二级指标,基本体现了近十年关于在线教育研究的影响因素。根据这些指标,从文献调研和专家评议可知,图2所示的中小学在线教育满意度评价模型充分彰显了这几年的在线教育的发展特点,具有较全面的评价准确性。
4. 研究结果与分析
在线教育评价研究大多是基于调查的描述性研究和基于数据统计的定量研究。和描述性研究相比,定量研究更能体现繁多数据中隐藏的本质。现行的主流定量研究方法需要大量的样本数据来分析数据来回答研究问题,所以定量研究的一个重要缺点是数据收集和数据分析会耗时太多。

Figure 2. Satisfaction evaluation model of online education
图2. 中小学在线教育满意度评价模型
在线教育满意度实质是差距感知的结果,可以看作用户在接受在线教育服务过程中的时间经验与预期满意度之间的差异,以及满意度差异所隐含的情感表达,鉴于此可以借用自然语言领域的文本情绪分析方法,对评论系统文本进行自动分析其中隐含的情绪值,并量化客户对该在线教育的满意度。
文本情绪识别的研究方法有基于情绪词典和规则的方法、基于情绪认知结构模型/情感与适应性模型的方法、基于机器学习的方法等。考虑到本研究的文本特点,如语序信息、大数量级等特点,使用深度学习算法则学习更深层的文本特征,提高情绪分类的准确性。
本研究采用深度学习算法中的长短时记忆(LSTM)算法,以特定的时间点为界限,分别收集样本数据,数据经过处理后,按照第三部分构建的中小学在线教育满意度评价模型的一级指标/二级指标分组,分别计算其情绪值,定量分析2020年疫情前后用户对在线教育的满意度。具体工作如图3所示。

Figure 3. System architecture of satisfaction automatic evaluation system based on emotion computing
图3. 基于情感计算的满意度自动评价系统
4.1. 在线教育评论数据材料
从时下流行的十多个中小学在线教育直播平台的评论爬取关于在线教育的评论,总共获得数据28960条,这些数据经过筛选、清洗、分词,最后获得出现频率前200的词。使用手动对应的方式将获得的高频评论词汇与中小学在线教育评价体系指标一一对应。经过教育学领域专家的修订,每个指标的含义更加清晰,最终对应结果如表5。

Table 5. Correspondence table between high-frequency vocabulary and online education evaluation indicators
表5. 高频词汇与中小学在线教育评价指标对应表
4.2. 中小学在线教育满意度评价量表整体定量分析
本文首先爬取中小学在线教育评论,对所获取的评论进行分词、去噪等过程获得清洗后的文本,然后利用word2vec进行文本向量化,然后用长短记忆神经网络(LSTM)算法来对上述指标所涉及的高频词进行情感计算,其中把数据按照8:2分成训练集和测试集来训练LSTM模型,并以2020年为界来分析疫情前后的中小学在线教育的评价的情感变化倾向。
首先按照中小学在线教育满意度模型,对评论进行分类,然后对每个指标所包含的评论进行情感计算,情感值如表6所示。
从表6可知,在线教育满意度指标的子指标的情感值差距比较大。接下来将对对各个指标的详细分析。
客户对于保证性较满意,情感值高达0.919。在对保证性评论进行抽样分析之后发现课程方面课程有趣,吸引学生是客户满意度的关键,这表明在线教育机构在设计在线课程时,认真选择学生真正感兴趣的内容作为课程例子可以吸引学生的兴趣。同时课程设置内容还要关注学生的心理发展,让课件设计的更加符合学生的兴趣。在线教师的外在形象和性格也是影响满意度的重要因素,在线教育是一个虚拟的教室环境,学生只能通过二维图像来感知老师的人格形象,因此在线教育过程中,教师应该比传统课堂更加注意个人形象,营造和谐的教学场景。

Table 6. Emotional value online education evaluation indicators
表6. 中小学在线教育评价系统子指标对应情绪值
经济性、响应性这两个指标的情感值分别只有:0.473、0.449。结合文本评论发现,经济性问题有以下两个最突出的问题:1) 浪费时间。觉得自己所受到的教育服务太简单或者软件出现问题从而感到课程不值得自己所交的学费,从而用户体验感低;2) 意外收费。客户本以为软件部分内容或者课程不收费,但真正使用过程中发现出现意外收费的项目或者功能,从而感觉自己受到了欺骗,客户体验感低。响应性的情感值低说明客户在遇到问题的时候企业无法即使的解决。现有的评论表明其原因在于客服和软件解决问题方面得不到用户的满意,比如客服态度差,甚至客服只能进行心理安慰的作用;在软件使用方面,客服系统/投诉系统设置不合理,导致客户使用感差,更糟糕的情况就是找不到进入客服系统的路径。
直观性的情感值是0.854。这个指标说明在线教育机构都很重视直观性,原因在于这是客户直接可以看到的部分,所以大部分在线教育机构都很注意自己的信誉,形象,无论是正面评论还是负面评论,基本都做到了及时的答复,并根据负面评论,提出合适的解决方案,从而获得客户的满意,使得客户满意度保持在高点。
个性化指标的情感值达到0.898。其原因在于现在流行的“任课教师 + 助教”制度使得每一位学员都能感觉到自己是被关心的。但是在评论中也存在少量的课程内容不符合学员知识程度从而产生退课的现象。
基本性表明在线教育课程达到的满意度只有0.603,跟其他指标的情感值相比略低。为了分析基本性的满意度的本质原因,继续对该指标下的二级指标(APP、课程、教师、广告和安全)的评论的情感值计算,依次对应为:0.521、0.695、0.846、0.445、0.311。可知该指标下的二级指标的满意度分化也是比较严重的,最高和最低数值差53.5%。其中教师、课程的满意度较高,APP、广告、安全的满意度较低。对于在线课程和教师角度而言,学生关注点在老师是否专业、课程的难易度是否合适、能否实现提分预期等,所以在线教育机构必须重视教师的教学基本功和课程的有效性,重点关注知识点本身的准确性和适合性,不可以一味的追求有趣而抛去传业授道的本质。在APP方面,软件功能的缺陷,比如卡顿,黑屏,闪退,以及作业的识别问题、上传问题,版本不兼容等,更新过后打不开等等,都会严重影响客户的满意度。用户关注的是广告的真实度,过分夸大在线教育的效果会导致对广告真实性的怀疑,从而导致其满意度略低。安全方面的情感值最低可知,客户的信息泄漏非常严重,最直接的就是在评论中多次提及的骚扰电话问题。
4.3. 同指标不同年份的满意度评价分析
始于2020年的新冠疫情使得线上线下混合教学成为教育变革的重要趋势,疫情常态化导致线上教学大规模投入日常教学工作中。在实施中小学在线教育过程中,一方面在线教育的发展处于大爆发阶段,促进了整个行业的大发展;另一方面在线教育也暴露出很多问题,教学效果参差不齐。为了验证疫情前后的在线教育变化和存在的问题,本研究以2020年1月1号作为分界,对两组评论的6个满意度指标进行情感值计算,并讨论其存在的问题,提出相应的完善建议。
从评论所属指标的分类可知,整体上客户对基本性一直保持较高的关注度,个性化的关注点一直都处于低位。以在线教育发展的来看,从评论占比可知直观性、响应性、保证性、个性化的关注度有所降低,其中保证性下降最多。接下来将分类后的评论输入LSTM模型,对其情感值进行计算,结果如表7所示。

Table 7. The emotional tendency of different indicators with the timeline
表7. 不同指标的情绪倾向变化
通过表的整体来看,各个指标的情感值差距较大,保证性的情感值达到0.961,响应性则低至0.449。最低可到达0.45以下。基本性依然是用户关注度最高的指标,以时间线为参照,关注度的占比处于上升趋势,但是其情感值为从0.725下降到0.603。所以企业和教学一线人员要格外关注基本性,狠抓app、课程、教师、广告、安全几个角度的质量,从而快速抓住客户的关注点,增加客户的满意度。
个性化指标的占比从3.0%下降到0.8%,仍然维持了低位占比,从时间角度看其占比有下降的趋势,但其情感值依然保持了相对较高的满意度,这说明在线教育企业和其员工的个性化服务比较成熟,客户的满意度相对稳定在高水平。
随着时间的增长,经济性指标的占比有增长的趋势,但其情感值依旧最低,说明在线教育企业对于经济性的管理还要在加强,做出更多性价比高的产品。
从表7可知,满意度指标的情感值随着时间均有不同程度的下降。与文献 [10] 的问卷调查满意度结论基本一致。用户对于在线教育的满意度基本可以接受,但是各个指标的情感值表明现行的在线教育还有很大的提升空间,且与线下教学相比,线上教育模式的各种局限性都需要寻找合适的解决方案,以提高用户对于在线教育的满意度。
5. 讨论与结论
5.1. 在线教育满意度评价量表的合理性
本文通过爬取网络上的中小学在线教育评论为实验数据,经过分词、去噪等操作,再进行编程挑选评论高频词汇,以SERVQUAL模型为基础,融合在线教育文献构造出包含直观性、基本性、响应性、保证性、个性化、经济性为一级指标,有形、无形、app、课程、教师、广告、安全、交互为二级指标的中国中小学在线教育评价体系。利用所构建的在线教育评价体系,对爬取的教育评论进行文本情绪分析,从而获得客户对在线教育的满意度。
本研究结合文本挖掘和情感计算技术,能够自动识别在线教育评论的情感倾向,从而获得比较客观的满意度评价。此外,我们以2020年新冠疫情爆发为时间分界点,对2020年前后的在线教育满意度进行量化分析,结果表明由于新冠疫情原因,在“停课不停学”方针的指导下,尽管市场上各类网课平台爆发式发展,但是由于在线教育企业投入不足,在线教学课程资源良莠不齐,教学形式接受度不高以及过度宣传等因素,导致了中小学在线教育满意度下降。
基于情感计算的中小学在线教育满意度评价量表可以帮助教育从业者加强教学实践,改善他们的决策过程。平台管理者可以发现学习者可能遇到的教学问题和技术问题,并采取有效措施加以解决,从而提高学习者的教学效果和满意度。
5.2. 研究不足及展望
但是笔者自身的局限,本文所构建的中小学在线教育评论体系还可以从以下两方面进行完善:1) 如何体现中小学在线教育评论体系的权重问题,使其更加完美的呈现出用户所重点关注的指标。2) 对于文本的情绪识别算法在准确率方面还有继续提高的地方,随着计算机深度学习算法的发展,中小学在线教育评价体系可以更为真实的反应出客户需求和意见。