1. 引言
学习者在学习的过程中,学习者除了可以通过阅读文字的形式进行学习,还可以通过阅读文字和观看图片的形式来学习。二者最大的区别在于是否有添加图片,图片作为我们进行信息交往的重要方式,能够以视觉的形式来描述事物的时空特性。若添加表征性图片、组织性图片、信息性图片等与文字内容匹配的图片,则被认为是有利于学习者知识构建的图片,而装饰性图片等与文字内容的图片则被认为对学习者知识构建起到较小的作用[1]。这种通过文字与图片结合的方式来促进学生学习的方式在学习心理中被称为多媒体学习。过去几十年的研究中,已有大量多媒体学习的研究,通过实证研究证明通过文本和图片学习的学生在随后的测试中比仅通过文本学习的学生获得了更好的记忆和迁移效果[2]。文字和图片结合以后,可以通过不同的媒介(如:教师授课、教科书、计算机)传递给学习者[3]。
在真实的学习环境中,最常见的就是通过幻灯片或视频的形式传递知识。随着近几年短视频、长视频、自媒体等多种新兴媒体的发展,人们通过视频学习的时间和比例大幅上升,而动画作为视频学习的主要形式之一,也越来越受到教师和教学设计者的重视。
相比于静态图片与文字的结合方式来进行学习,大多数学习者会更倾向于采用动态图片和文字的结合方式,因为从学习的主观体验角度出发,动画的连贯性、流畅性、组织性会好于静态图片,学习者在动画中也更容易激发情境兴趣、学习动机。虽然动画在学习中的占比上升了,但学习者的学习效果是否也得到了相应的提升呢?如果要教授的内容其特征是动态变化的,动画会好于静态图片。这个过程也会受到一些调节因素的影响,四个主要的调节因素有:学习者控制动画的呈现节奏、信号线索、视觉呈现的抽象性和呈现材料的通道[4]。但是动画并非总是由于静态图片,如有些学习者在处理动画快速呈现的信息时存在困难[5]。因此,以动画的方式来呈现学习内容是否真的有利于学习仍处于争论当中。
为了探究动画是否真正有利于学习者学习,需要采用先进的手段去考察背后的认知机制。眼动技术作为一种可以即时记录和反应个体视觉注意转换与认知加工的仪器,可以很好地应用于多媒体学习过程中,来揭示学习者学习过程中即时的认知加工[6]。关于多媒体学习环境中的认知过程有许多系统综述研究[7] [8],然而这些系统综述研究并没有特别针对动画学习环境中的眼动追踪的研究。因此,本研究的目标是要探究动画学习中,认知加工过程和视觉注意之间的关系和影响注视行为的潜在因素。
1.1. 动画的定义
本文采用以下定义:一种计算机模拟的动态图片,显示所画物体的运动[9]。这一定义包含了三个主要的特征,分别是:1) 图片–动画是一种图片的表征;2) 运动–动画描绘了明显的运动;3) 模拟–动画通过绘画或其它模拟方法人为地创造目标对象。
1.2. 多媒体学习的认知理论
该理论是在认知负荷理论之上构建的,并以三个假设为基础的,分别是:双通道假说、认知资源有限假说、积极加工假说。我们在认知加工的过程中,眼睛和耳朵首先会从多媒体呈现的材料(既有图片,又有文字)中选择词语或图像进入工作记忆,该过程需要减少外在的认知加工;其次,我们的大脑会将声音和图像信息进行组织,将信息分别组织到言语模型和图像模型中,该过程需要管理必要的认知加工;最后是整合的过程,从长时记忆中提前先验知识到工作记忆中同当前的材料一起整合,该过程需要促进生成认知加工[2]。该理论在动画学习中的应用尤为突出[3]。动画作为动态多媒体学习的一种形式,能够同时呈现视觉和听觉信息,有效支持三个假设所描述的认知加工过程。首先,在选择阶段,动画可以通过视觉线索(如运动路径、颜色标记)和声音线索(如旁白、音效)引导学习者关注关键内容,从而减少外在认知负荷。研究表明,通过控制动画的播放速度和暂停功能,学习者能够更好地掌控信息节奏,提升材料选择的精准性。其次,在组织阶段,动画的动态特性使复杂过程得以分步骤展示,帮助学习者建立言语模型和图像模型之间的对应关系。例如,在科学教育中,使用动画模拟化学反应过程可以通过分解每个步骤的可视化演示,增强信息组织的连贯性。此外,通过结合分段式旁白与屏幕标注,可以进一步优化学习者对视觉和听觉信息的管理能力。最后,在整合阶段,动画不仅能帮助激活学习者的先验知识,还能通过交互式设计促进生成性认知加工。例如,允许学习者在动画中主动选择观察角度或调整参数,有助于他们将当前材料与已有知识进行深度整合。此外,动画中的即时反馈功能可纠正错误理解,从而加强长时记忆的建构。
1.3. 眼动追踪的优势
眼动研究的理论基础是心–眼假说:即注意力集中在注视点,这样眼睛的运动就反映了视觉信息的时空编码,从而提供了注意力分布和认知加工的有效间接测量。眼动追踪学习者认知过程的主要优势有以下三点:首先,与传统的过程追踪方法(如:出声思维)相比,眼球追踪可以记录学生在解决任务时的注意力分布情况,而不会对参与者的工作记忆造成任何额外的负担;其次,眼球运动记录是客观的,提供了眼球运动行为的时间和空间信息的高频数据;第三,有可能揭示甚至无意识的认知事件,这些事件无法通过自我报告或外部观察获得,如注视偏好效应[10]。
1.4. 多媒体材料中动画学习中的眼动跟踪
在基于多媒体学习理论中采用眼动追踪技术的研究,尤其是学习过程中的感知过程是很有价值的,因为这些研究提供了关于个体如何从动画中思考和学习的有力证据。眼动技术为我们提供了许多不同类型的眼动指标,使我们能够在认知过程和学习之间建立联系。
为了更好地理解探究学习中眼球追踪指标的特点,有研究者用二维框架将其进行分类:1) 眼球运动的类型(注视、迅速扫视和混合)和2) 测量尺度(时间、空间、计数)。就眼球运动的类型而言,注视提供了学习者注意信息的线索,以及学习者受到的心理挑战。指眼睛运动之间的快速变化,这表明视觉注意力的焦点发生了变化。就测量尺度而言,首先,时间指的是基于时间的眼球运动测量(例如,总注视持续时间、第一次注视持续时间和第一次注视的时间)。第二,空间是指基于空间的眼球运动测量(例如,注视位置和注视顺序)。第三,计数标度指的是基于频率或计数的眼球运动。例如,通常在这一类别中使用的注视计数是指在感兴趣的区域(AOI)或任务中的注视次数[11]。
在动画多媒体学习研究中,眼球追踪指标被认为与三个认知过程相关:选择、组织和整合[2]。眼动追踪指标有望帮助研究人员在动画多媒体学习环境中建立由测试测量的学习结果(例如,理解、记忆、迁移)和认知过程之间的相关性。如:总注视持续时间和总注视计数二者彼此正相关,并且它们与相同的学习结果呈正相关。
2. 方法
检索中文数据库时中国知网期刊数据库,将关键词“眼动”或“动画”搭配,检索摘要中带有此类关键词的文献。检索外文数据库时(Web of Science, PsycARTICLES数据库),这二者涵盖了大部分教育心理学的期刊,将关键词“eye-tracing”或“eye-tracker”或“eye movement”分别与“animation”搭配,检索摘要中包含此类关键词的文献。检索日期为2012年1月1日至2022年12月20日。
3. 结果
3.1. 认知加工过程和视觉注意之间的关系
如上所述,多媒体学习的认知理论认为有意义学习需要三个主要的认知过程:一是选择相关的单词和图像传输到工作记忆,二是组织选定的信息以建立工作记忆中的认知结构,三是将从材料中获取的认知结构与来自长时记忆的先验知识整合。基于该理论基础,可以找到与之对应的眼动指标。选择过程对应的眼动指标有:第一次注视时间、前五次注视、注视期间比例、注视计数比例;组织过程对应的眼动指标有:总注视时间、总注视计数、平均注视时间、注视持续时间;整个过程对应的眼动指标有:转换次数(访问或重新读取次数)、扫视路径[7]。
对于选择的认知过程,常用的测量指标是“第一次注视的持续时间”。学习结果(如:理解测试)和第一次注视时间之间存在负相关,意味着视觉搜索时间越快,学习者后测的成绩越好[12]。
对于组织的认知过程,常用的测量指标是“注视持续时间”和“注视次数”。有研究者发现注视持续时间和次数之间的负相关,意味着更长的注视持续时间和更低的注视次数可以被认为是更深层次加工的指标[13]。
对于整合的认知过程,常用的测量指标是“转换次数”,指的是从一个感兴趣区域(AOI)转移到另一个感兴趣区域的眼球运动的次数,该指标提供了关于学习者在多媒体环境中表现出主动整合过程的信息[14]。例如,在动画的多媒体学习环境中,多个演示之间频繁的注视转换显示出与理解和转移分数的正相关[15],而相比之下,在两个多媒体元素之间频繁的注视转换(即动画的图片和文字)可能表明学习者在整合输入信息方面有困难,可能会对理解和转移分数产生负面影响[7]。大部分研究采用“转换次数”来探讨整合过程及其关系,而使用“注视转换”的研究数量较少。
3.2. 影响注视行为的潜在因素
影响多媒体学习中眼球追踪测量的潜在因素分为多媒体学习原则、动画呈现的类型、个体差异、元认知和情绪。本文搜集的文献中,搜集到的文献更多的是研究多媒体学习的认知原则,更少的是研究元认知和情绪的。
3.2.1. 多媒体学习的原则
关于多媒体学习有诸多理论,主要的理论有:多媒体选择的认知理论、认知负荷理论、多媒体学习的认知情感理论、文字和图片理解的整合理论等。本文采用多媒体学习的认知理论为基础,探讨眼动的认知过程,该理论强调我们在认知的过程中,主要有选择、组织、整合的三个认知阶段,均对应着不同的原则。如:在选择的认知过程中,有一致性原则、信号原则、时间连续性原则、空间连续性原则等;在组织的认知过程中,有通道原则、分段原则、预培训原则;在整合的认知过程中,有具身认知原则、拟人化原则、生成活动原则等[2]。根据筛选出的文献,本文讨论主要涉及的四个原则。
多重表征原则是指将动画、视频、图片和文字整合在计算机辅助学中。这么做面临的一个问题是:是如何在视觉和语言元素之间建立一种有意义的关系,而不会因为多重表现而分散学习者的注意力?不同的研究者得出了不同的实验结果。
信号原则。信号原则是指学习者可以在添加了强调基本材料组织的线索时学得更好。但有研究者指出在动画多媒体环境中不适合使用信号原则,为探究信号原则是否适合添加到动画中,可以采用眼动追踪技术,它是检验复杂动画中使用的信号原则有效性的良好指标。信号对比形式包括:基于事件的线索与基于实体的线索的对比[16],整合听觉信号和视觉信号与纯视觉信号或纯听觉信号的对比[12]。从中发现与非信号条件相比,信号技术产生更好的学习结果,因为信号技术使得学习者对相关部分有更高注视计数和更长的注视持续时间。
通道原则。通道原则是指人们在从图片和口头文字中学到的东西比从图片和印刷文字中学到的更好。在动画电子书中,旁白会将儿童的视觉注意力吸引到故事的重要点上,从而产生更好的学习效果[17]。
交互性原则。交互性原则涉及学习者控制动画的速度。研究显示,让学习者控制动画节奏对学习者的注视行为有影响。例如,转换或注视转移的次数表明,参与者在系统控制节奏的动画中需要花费更多的精力将视觉和文字信息连接起来,而这些精力在自我控制节奏的条件下则可以相对减少[18]。
3.2.2. 动画呈现的类型
呈现动画和静态图片存在区别。如:在引导儿童的视觉注意力到电子书故事中的具体细节方面,动画可能比静态显示更有用[17]。一项综述报告说,动画组的学生比静态组的学生分配了更多的视觉注意力[19],另一项综述发现,呈现动态的诱惑比呈现静态的诱惑更能分散注意力[14]。
动画教学代理中应用信号原则会影响学习者的视觉注意,动画教学代理是指在计算机屏幕上或多媒体学习动画材料中呈现的人物形象,主要是指在多媒体教学动画中设置拟人的虚拟人物,常以卡通人物为主。随着技术的发展,教学代理从以前的静态人物向动态、3D过渡。此外,情感设计会使得学习者将更多的视觉注意放在动画教育代理身上,如:动画教育代理的积极情绪状态影响学习者的视觉注意[20]。
3.2.3. 个体差异
一是先验知识的差异[15]。该研究表明,具有高先验知识的个体相比于低先验知识的个体,在动画学习的过程中能够表现出更好的后测成绩。二是空间能力的差异。空间能力可能是学习者在动画多媒体学习环境中的先决条件,因为空间能力低的学习者对3D动画的注视时间更长[19]。三是年龄差异。个体随着学习者年龄的增长,空间能力会减弱,因此年长的被试,如:老年人很难从动画中构建知识[5]。除此之外,有研究者提出可以探讨性别差异、受教育水平的差异、工作记忆的差异、反应时的差异等。
3.2.4. 元认知
影响多媒体学习中眼球运动的其中一个因素是元认知,包括元认知监控和调节以及元认知策略的设计。在交互式多媒体环境中,元认知支持有助于学生思考、处理信息和监控他们的学习。换句话说,“元认知因素通过调节认知加工和情感来调节学习”[3]。然而,很少有研究调查多媒体学习中的元认知过程。少数研究表明了元认知对视觉注意力的影响。关于元认知策略的设计,有研究者使用了多媒体学习环境,这些环境在自我监控问题和认知学习辅助工具的呈现方面有所不同。
3.2.5. 情绪
根据多媒体学习的认知–情感理论,情绪是“通过增加或减少认知参与来调节学习”的。在已有的文献中,情绪在多媒体材料中诱发的方式有很多,如:听音乐、回忆快乐或悲伤的事件、阅读自我参照、带有情绪表达的教学代理等。关于积极情绪的具体作用,有两个相互矛盾的假设:“情绪作为无关的认知负荷”和“情绪作为学习的促进者”[21]。在回顾的研究中,只有三项研究调查了情绪诱导或情绪设计对眼球运动测量的影响,这些研究中,多媒体学习中情绪对认知过程的促进或抑制作用的结果是复杂的。
4. 总结和未来展望
本文简单地回顾了多媒体学习中的眼动跟踪研究,揭示了眼动跟踪技术在该领域的应用。研究表明,在多媒体学习研究中,越来越多的研究者使用眼动跟踪技术,眼球追踪测量被用来推断选择、组织和整合的认知过程,它不仅用于记录一些客观指标,也用于揭示其背后的原理和机制。研究设计的共同特征有:使用大学生作为被试、选用科学材料作为学习材料、选用眼球运动作为客观的测量指标(如:第一次注视时间、前五次注视、注视期间比例、注视计数比例、总注视时间、总注视计数、平均注视时间、注视持续时间、转换次数)。多媒体学习原则、动画呈现的类型、个体差异、元认知和情绪是影响眼动测量的潜在因素。在这些因素中,元认知和情绪受到的关注较少。本文揭示了研究者如何受益于眼动跟踪技术来研究动画学习认知过程。
因此,在未来研究中可以继续探索的方向[7]:首先,进一步优化信号原则在动画学习中的作用。研究表明,信号可以显著提高学习者在动画内容中的视觉搜索效率,促进相关信息的识别和整合。未来可以利用眼动追踪技术深入研究动态信号(如移动标记、闪烁提示)和静态信号(如颜色编码、箭头指示)对动画学习的差异化影响,特别是在复杂动态情境下如何引导学习者的视觉焦点。此外,动画中的信号设计可以与跨模态信息(如旁白与动态图像)结合,通过实时跟踪学习者的眼动路径,优化信号的呈现方式,提升学习效果。其次,优化动画学习中的空间连续性和动态交互设计。已有研究表明,动画中元素的空间分离和不相关性会对注意力集中和信息整合产生负面影响。未来可以通过眼动追踪技术分析学习者在观看动画时的视觉行为模式,优化动画中关键信息的呈现位置和时间。比如,根据实时眼动数据调整动画中子步骤的显示顺序和速度,以增强学习的空间连续性。此外,还可探索动态交互设计,如让学习者通过交互选择动画中的观察点或控制播放节奏,以提升注意力分配的精准度。第三,探索动画学习中的认知负荷优化策略[22]。研究发现,在由动态动画和文本组成的多媒体教学中,学习者常面临高认知负荷的问题。利用眼动追踪技术可以实时监测学习者的视觉注意分布与过载情况。未来研究可以设计动态标记或提示动画,引导学习者在关键帧上保持较高的视觉注意力,从而减轻无关信息的干扰。同时,结合动态文本呈现与视觉动画的同步优化,帮助学习者有效分配认知资源并提升学习效果。第四,提升动画元素整合策略的有效性。动画学习需要学习者在视觉模型与语言模型之间进行高效整合,这一过程可以通过眼动追踪实现精准监测。未来研究可以开发基于眼动数据的自适应动画工具[23],例如在学习者注意力偏离关键元素时发出提醒,或通过动态调整动画播放速度支持信息的充分整合。此外,在不同学科领域(如物理、医学)的动画学习中,可探索多模态反馈(如语音、触觉)对信息整合效果的促进作用[24]。最后,基于眼动数据的自适应动画学习系统开发具有重要研究潜力。眼动追踪技术能够捕捉学习者在动画学习过程中的实时注意模式和认知负荷状态。未来研究可以结合人工智能算法,通过分析学习者的眼动特征(如注视点停留时间、跳跃频率),推断其认知状态和学习需求。基于此,可开发自适应动画系统,动态调整动画的复杂性、信息呈现顺序或标记方式,为不同先验知识水平的学习者提供个性化支持,从而最大化学习效果。