1. 引言
1.1. 研究背景
近年来,数字技术的飞速发展推动了社交媒体的深度普及。抖音作为用户规模超10亿的短视频平台,已从单纯的娱乐工具演变为重要的信息传播与知识获取渠道。其“算法推荐 + 社交传播”的模式重塑了大众的学习习惯与认知方式:用户不仅通过平台获取新闻、娱乐内容,更将其视为碎片化学习的重要场景,英语教学便是其中增长迅猛的领域之一。在这一背景下,抖音作为短视频平台的代表,凭借“短时长、高互动、强社交”的特征,逐渐成为英语教学的新兴场域。这类平台打破了传统课堂的时空限制,英语教学博主通过整合语言、图像、字幕、手势等多模态资源传递知识,形成了独特的教学生态[1]。
提问在教学互动中始终占据核心地位,其功能不仅在于检验学习效果,更在于通过互动建构意义。传统课堂中,提问多依赖言语模态,如句式、语调等。而在短视频场景中,提问呈现出明显的多模态化趋势:博主常结合字幕高亮(视觉模态)、指向性手势(动觉模态)、语调变化(听觉模态)等资源强化提问效果,使单一语言符号的信息传递更立体[2]。目前,在抖音平台上,英语教学博主正面临着“高竞争、低留存”的严峻挑战,而有效的提问策略无疑是提升用户粘性的关键所在。本研究通过归纳多模态提问的有效作用和协同模式,能够为博主优化内容设计提供具体且实用的参考,助力他们在有限的时长内显著提升教学效果与用户参与度[3]。
1.2. 文献综述
多模态话语分析融合了系统功能语言学、社会符号学等理论。Hallida的系统功能语言学强调语言的功能,为多模态话语分析奠定基础,如语言具有概念、人际和语篇功能[4]。Kress和van Leeuwen (1996)提出的视觉语法,将语言分析方法拓展到图像等视觉模态,认为图像也有类似语言的语法结构,可传达意义[5]。张德禄(2009)构建了多模态话语分析综合框架,涵盖文化、语境、意义、形式和媒体等层面,进一步完善了该理论体系[6]。李梦洁等(2024)指出当前的多模态话语分析逐步融合了传播学等其他学科理论,并关注数字化教育、社交媒体和中国话语研究等新兴主题[1]。
在教育领域,多模态话语分析为解析教学过程提供了新视角,围绕教师如何整合语言、图像、声音等模态实现教学目标。例如,英语教学中可借助视觉模态辅助词汇教学,帮助学生建立直观认知[7]。提问策略是英语教学的核心议题。传统课堂中,Nunan (1991)指出提问可引导思考、促进语言输出,高质量问题能提升参与度[8]。Long (1983)将教师提问分为展示性问题(答案已知,用于语言练习)与参考性问题(答案未知,促进真实交流) [9]。Jiang等(2025)通过分析2018个课堂教学视频,发现在人文课堂上,教师的积极回应可以鼓励学生的自我表达和课堂参与[10]。
随着教育技术发展,在线英语教学的提问策略研究受到了广泛关注。抖音英语教学的相关研究显示,其短视频具有独特的内容与传播特征,如王佳(2022)发现部分博主通过幽默语言与生动画面提升学习积极性[11],陈淑淇(2022)指出抖音英语教学短视频可通过多模态话语建构教师身份,增强学生认同感[12]。也有研究分析了一位抖音英语学习博主的视频案例,提出“分享即非正式教学”的观点,指出博主可通过“学习者–教师”的双重身份构建吸引受众[13]。但现有研究中,针对抖音英语教学博主提问策略的系统性探究较少,尤其缺乏从多模态话语分析视角的深入研究。基于此,本研究将多模态理论应用于抖音这一独特的教学场景,深入探索在提问过程中语言、视觉、动觉等多种模态的互动规律,以期丰富相关理论应用并提供实践参考。
2. 研究设计
2.1. 研究对象与语料选取
本研究从视频和博主双维度筛选研究语料,采用分层抽样确保样本代表性与多样性。首先按教学内容和风格将视频划分为词汇教学、语法解析、口语交际、应试技巧、文化浸润、娱乐互动6大类型,以平均互动率(点赞率、评论率、分享率)居同类型前30%为标准,选取高互动性作品。提问互动性筛选标准包括:以提问为核心教学手段、互动指标优于50%同类视频、多模态特征显著。
博主筛选兼顾专业性与代表性。仅选粉丝超10万的活跃博主,因其具备稳定观众群体与输出能力。优先选择专注英语教学超1年、更新稳定的博主,排除偶然创作者,且每位博主仅选1个视频。最终在每类视频中选取2个代表性作品,形成12个视频的基础样本池。
筛选后选取的12位博主及其视频信息见表1。样本博主粉丝量15.5万至1828.1万不等,视频点赞量1.3万至73.1万,覆盖上述6种教学类型,全面展现英语教学短视频的不同风格与侧重点,为后续研究提供丰富且具代表性的对象。
2.2. 研究方法
研究采用多模态话语分析方法,借助荷兰马克斯普朗克心理语言学研究所开发的视频、音频标注软件专业分析软件ELAN (EUDICO Linguistic Annotator),对选取的12个抖音英语教学视频语料进行系统标注与分析,软件版本为6.9。首先,对12份教学视频进行整理、编号和内部信息记录。然后,运用ELAN软件进行多角度、多层级的标注,得到多模态话语分析的原始数据。最后,建立“英语教学短视频多模态话语数据库”,通过定量统计与质性分析,从数据得出可用的规律性结论,为数字化语言教学提供实证依据。
2.3. 分析框架
基于多模态话语分析理论,本文构建了适用于短视频英语教学研究的编码体系(表2)。该体系从言语
Table 1. Basic information of sample videos and bloggers
表1. 样本视频及博主基本信息
编号 |
抖音ID |
抖音粉丝量/人 |
选取视频的点赞量 |
选取视频所属类型 |
C1 |
莉雅老师教英语 |
281.3w |
73.1w |
词汇教学型 |
C2 |
同传尼莫Nemo |
15.5w |
4.9w |
D1 |
英语可莉老师 |
156.1w |
58.5w |
语法解析型 |
D2 |
英语雪梨老师 |
1648.8w |
14.5w |
E1 |
外教Gia在纽约 |
24.3w |
3w |
口语交际型 |
E2 |
海蒂和她的口语 |
28.8w |
3.2w |
F1 |
北师大三三英语 |
103.4w |
12.8w |
应试技巧型 |
F2 |
英语老师晓艳 |
192.5w |
19.5w |
G1 |
曲艺老师教英语 |
49.2w |
1.3w |
文化浸润型 |
G2 |
Jason徐朱成 |
78.8w |
9.4w |
H1 |
Norah脱口秀 |
354.2w |
29.4w |
娱乐互动型 |
H2 |
MrYang杨家成 |
1828.1w |
3.1w |
注:“w”表示“万”,粉丝量和点赞量的统计截至2025年6月20日。
Table 2. Multimodal coding framework for TikTok English teaching videos
表2. 抖音英语教学视频多模态编码框架
模态类型 |
编码 |
模态符号 |
编码 |
层级 |
编码 |
言语模态 |
L |
音韵特征 |
Lr |
语速变化 |
Lrs |
语调升降 |
Lra |
语音模仿 |
Lrl |
特殊用语 |
Ls |
教学术语 |
Lsi |
网络热词 |
Lsc |
句类特征 |
Lc |
一般疑问句 |
Lci |
特殊疑问句 |
Lce |
选择疑问句 |
Lcq |
反义疑问句 |
Lct |
话语策略 |
Lu |
重复性提问 |
Lur |
引导性提问 |
Lug |
互动式提问 |
Lui |
反馈性提问 |
Luf |
动觉模态 |
K |
表情动作 |
Ke |
微笑鼓励 |
Ken |
疑惑表情 |
Kec |
点头肯定 |
Ken |
摇头否定 |
Ked |
|
|
手势语言 |
Kg |
指示手势 |
Kgi |
强调手势 |
Kgm |
描摹手势 |
Kgd |
节奏手势 |
KgK |
数字手势 |
Kgn |
视觉模态 |
V |
黑板 |
Vb |
/ |
/ |
特效 |
Ve |
/ |
/ |
实物 |
Vo |
/ |
/ |
听觉模态 |
A |
背景音乐 |
Ab |
/ |
/ |
其他声音 |
Ao |
/ |
/ |
模态(L)、动觉模态(K)、视觉模态(V)和听觉模态(A)四个维度,对教学视频中的提问策略进行系统分析。其中,言语模态细分为音韵特征(Lr)、特殊用语(Ls)、句类特征(Lc)和话语策略(Lu)四个子类,涵盖语速变化、教学术语、疑问句类型等12个具体指标;动觉模态包含表情动作(Ke)和手势语言(Kg)两类,共9种典型教学行为;视觉和听觉模态则分别包括黑板、特效等辅助元素及背景音乐等声音特征。
3. 研究结果与分析
3.1. 研究样本多模态概况
Figure 1. Frequency of occurrence and annotation duration of each modality
图1. 各模态出现频率及标注时长
从标注数据来看(图1),言语模态在英语教学短视频中占据主导地位,命中次数达241次,总标注时长为412.109秒,远超其他模态,这表明言语是教学内容传递的核心方式。动觉模态命中150次,总时长242.212秒,也较为突出,说明手势和表情动作等在教学中运用频繁。视觉模态和听觉模态相对较少,命中次数分别为35次和14次,时长为60.49秒和18.52秒。研究样本大体呈现出以言语和动觉模态为主,视觉和听觉模态为辅的模态分布特点。
3.2. 抖音英语教学博主提问的多模态话语分析
3.2.1. 言语模态
Table 3. Statistics of language modality
表3. 言语模态统计
层 |
标注 |
命中次数 |
平均时长/s |
总标注时长/s |
示例 |
音韵特征 |
语调升降 |
31 |
2.017 |
62.513 |
怎么读出这种音与音之间“黏在一起”的感觉? |
语速变化 |
12 |
3.821 |
24.45 |
讲解单词各个音节的发音方式时不同音节的语速有快有慢 |
语音模仿 |
1 |
0.54 |
0.54 |
提问观众并模仿观众的回答“not very good” |
特殊用语 |
教学术语 |
32 |
1.716 |
54.91 |
“那大家猜一猜”,“是我们特别熟悉的xxx”等有助于让听众产生共鸣的教学术语 |
网络热词 |
3 |
1.343 |
4.03 |
询问两位观众的关系并说是“food buddy” |
句类特征 |
反义疑问句 |
5 |
1.773 |
8.863 |
像汉语的方式把单词拼起来,学英语的效率不就会更高了吗? |
特殊疑问句 |
42 |
1.615 |
67.84 |
提问“attention”系列单词怎么念? |
选择疑问句 |
5 |
2.226 |
11.13 |
Are you also a classmate of his or? |
一般疑问句 |
26 |
1.669 |
43.403 |
这样听起来是不是非常自然了? |
话语策略 |
反馈性提问 |
11 |
1.641 |
18.047 |
所以现在我们能弄清楚周一到周日的来源了吧? |
互动式提问 |
31 |
1.612 |
49.98 |
“going”这个单词,你会不会读成“gouyin”? |
引导性提问 |
32 |
1.719 |
55.003 |
在课堂开头,首先问大家在西方的文化当中一周的第一天是周几,从而引入课堂 |
重复性提问 |
8 |
1.166 |
9.33 |
对观众的回答不够明白并重新提问一次 |
言语模态是交际中通过语言符号传递信息、构建互动的重要形式,涵盖音韵、词汇、句式及话语策略等。在抖音英语教学中,博主提问的言语模态应用可通过多维度数据分析呈现(见表3)。
音韵特征通过语音的调节辅助提问效果的实现。其中,语调升降出现31次,总时长62.513秒,平均每次2.017秒,例如在讲解连读现象时,以语调的起伏强调“音与音之间‘黏在一起’的感觉”,突出了发音要点。语速变化有12次,有助于帮助观众理解发音规则。语音模仿仅1次。可见,语调的起伏变化是最常用的音韵提问特征。
特殊用语是拉近与观众距离的重要手段。教学术语使用32次,平均1.716秒,如“那大家猜一猜”等表述,能快速引发观众共鸣,提升参与感。网络热词出现3次,如“food buddy”提高了提问的趣味性。两类用语的结合,既保证教学专业性,又兼顾内容通俗性。
句类特征通过句式选择构建提问框架:特殊疑问句42次(67.84秒)为主要句式,多用来明确学习目标。一般疑问句共26次(43.403秒),引导观众自我检验。反义疑问句和选择疑问句各5次,激发思考并丰富提问层次。
话语策略通过提问方式推动教学互动。32次的引导性提问(55.003秒)和31次的互动式提问(49.98秒)最多,自然导入内容,调动观众参与。而用于确认学习效果的反馈性提问出现11次(18.047秒)。三者形成“导入–互动–反馈”教学链条。
抖音英语教学提问通过言语模态的多元应用构建了高效的互动模式。其以特殊疑问句和引导性提问搭建知识框架,借语调变化与互动式提问增强参与感,用教学术语与反馈性提问平衡专业性与互动性,为内容有效传播提供话语支撑。
3.2.2. 动觉模态
Table 4. Statistics of kinesthetic modality
表4. 动觉模态统计
层 |
标注 |
命中次数 |
平均时长/s |
总标注时长/s |
示例 |
表情动作 |
点头肯定 |
9 |
1.367 |
12.3 |
Like, what’s good about you? |
微笑鼓励 |
42 |
1.781 |
74.783 |
询问观众“What is something that you’re proud of yourself?“并面带微笑 |
摇头否定 |
1 |
0.36 |
0.36 |
等它开始说请回答下面的问题,那么怎么办?对,你就不再听了 |
疑惑表情 |
18 |
1.701 |
30.62 |
怎样用英语表达好吃?Delicious?(做出疑惑的表情) |
手势语言 |
节奏手势 |
18 |
1.714 |
30.843 |
讲解短语的高级替换时,每说一个单词,手臂就有力地挥舞一下 |
描摹手势 |
7 |
0.987 |
6.906 |
告诉观众写四六级要注意圈关键词,同时用手做出圈画的动作 |
强调手势 |
29 |
1.443 |
41.84 |
每讲解一个听力技巧就伸出1根食指并往前指一下,增强强调效果。 |
数字手势 |
3 |
3.063 |
9.19 |
用手指表示五行的元素 |
指示手势 |
23 |
1.538 |
35.37 |
一边提问,一边指着黑板上的单词 |
动觉模态是交际者通过身体动作传递意义的符号系统。抖音英语教学博主的提问策略中,动觉模态包含表情动作和手势语言,二者共同参与教学互动的意义构建,具体可见表4的标注数据。
数据显示,动觉模态通过身体符号的动态呈现与言语提问相呼应,强化互动有效性。表情动作中,微笑鼓励以42次高频成为核心策略,如提问“What is something that you’re proud of yourself?”时的微笑传递亲和感,消解观众表达紧张。疑惑表情(18次)在提问“怎样用英语表达好吃?”时模拟认知困惑,引导同步思考。点头肯定与摇头否定虽频率低,却以明确态度强化提问导向性。
手势语言通过肢体具象化表达弥补言语抽象性。强调手势(29次)如讲解听力技巧时的“食指向前指”,通过视觉动作提示重点信息。节奏手势(18次)以动作节奏呼应语言节奏,强化记忆。描摹手势(7次)将抽象要求具象化。数字手势与指示手势则明确数量信息与关注对象。
动觉模态通过表情与手势强化了提问互动效果。微笑鼓励配合互动式提问消解表达压力,疑惑表情引导共情思考。指示手势呼应单词指向性提问,强调手势增强听力技巧重点感知,节奏手势强化语言韵律。上述“表情–手势–言语”的联动,在碎片化语境中既辅助信息传递,又构建情感连接,提升了提问感染力。
3.2.3. 视觉和听觉模态
视觉和听觉模态是通过视觉与听觉符号传递意义的多模态系统。在抖音英语教学博主的提问策略中,视觉模态包含黑板、实物、特效等元素,听觉模态涉及背景音乐与其他声音,二者与言语、动觉模态协同,共同构建教学互动的意义网络。详情可见表5。
Table 5. Statistics of visual and auditory modality
表5. 视觉和听觉模态统计
层 |
标注 |
命中次数 |
平均时长/s |
总标注时长/s |
示例 |
视觉模态 |
黑板 |
4 |
1.438 |
5.75 |
讲解一周中各天的来源时,边讲故事边在黑板上标记单词 |
实物 |
8 |
2.494 |
19.95 |
以吃鸡翅为例,造句并分析句子结构 |
特效 |
23 |
1.513 |
34.79 |
在字幕中对于想要强调的内容放大、加粗、涂上醒目的颜色等 |
听觉模态 |
背景音乐 |
9 |
2.805 |
15.23 |
举了多个同类型单词的读音后,提问是否发现共同点,字幕特效出现的同时播放一段背景音乐 |
其他声音 |
5 |
0.658 |
3.29 |
“你把你的那个破的I think换成更高级的表达”这里在“那个破的I think”添加了特殊音效 |
视觉模态以具象化符号为提问提供直观支撑。黑板使用了4次,将抽象知识转化为可留存的视觉文本。实物展示8次,以“鸡翅造句”为例,搭建语言与现实的桥梁,让“如何分析句子结构”的提问回归生活具象。23次特效大多通过视觉突出强化提问核心,如用醒目颜色标注重点词汇,将隐性提示转化为视觉冲击。
听觉模态借助声音符号调节情感与节奏,增强提问感染力。9次背景音乐在单词读音提问时配合旋律,营造轻松氛围缓解思考压力,同时标记提问转折节点。特殊音效出现5次,通过夸张化处理,强化言语情感态度,让“替换表达”的建议更具冲击力,激发观众重视。
视觉和听觉模态为提问提供了多维度辅助。黑板标记配合引导性提问,实物展示辅助句子结构分析提问,特殊音效突出替换表达焦点等提问教学策略,均通过视听模态与言语、动觉模态的互补,将抽象提问转化为具象感知,在短视频场景中提升了信息接收效率,以及多感官的教学支撑。
3.3. 抖音英语教学博主提问的多模态协同作用
在抖音英语教学博主的提问策略中,言语、动觉、视觉与听觉模态并非孤立存在,而是通过符号互补形成协同效应,共同构建高效的教学互动语境。这里选取样本中的一个典型教学片段进行时间轴精细化分析,可清晰呈现协同过程的复杂性:
案例:文化浸润型视频中“现在完成时”用法提问(G1号视频00:01~00:10)
00:00~00:02:呈现教学术语(特殊用语维度),同时以“大家猜一猜”开启一般疑问句、引导性提问(话语策略/句类特征),初步构建教学提问语境,为后续互动铺垫。
00:02~00:04:伴随微笑鼓励(表情动作)、节奏手势(手势语言),借由表情传递积极氛围,以手势辅助话语节奏,多模态协同强化引导性提问的亲和力与可接受度。
00:07~00:09:出现教学术语、特殊疑问句、互动式提问(延续话语策略),搭配微笑鼓励(表情)、指示手势(手势)、黑板(视觉模态),利用黑板视觉承载教学内容,指示手势精准指向关键信息,微笑维持互动温度,推动提问互动深入。
00:09~00:10:点头肯定(表情动作新类别),作为对前期互动的反馈,以简洁动觉模态给予积极回应,巩固互动效果,和之前的微笑鼓励等表情动作协同,强化课堂互动的正向循环。
上面的教学案例形成了“初始提问引导–深度互动推进–情感反馈强化–知识场景留存”的立体格局,显著降低了英语教学过程中师生互动及知识传递的理解难度。
综合其他的视频案例,可以得出,多模态协同对提问效果与知识传递影响深远。首先,言语与动觉模态协同最为紧密。例如博主用特殊疑问句提问时,同步以指示手势指向黑板单词,言语焦点与手势指向形成“语言–动作”的互文。再如讲解短语替换时,节奏手势与语速变化相呼应,让语言韵律与动作节奏形成双重引导。
其次,视觉、听觉模态作为辅助系统,与核心模态共同强化意义。黑板标记单词时,引导性提问追溯“一周各天来源”,并和点头肯定同步搭配,构建了视觉文本、言语引导与表情态度的三维理解框架。“鸡翅造句”则包含实物展示、“怎样分析句子结构”的提问、以及描摹手势的圈画动作,将抽象语法提问转化为立体演示。
此外,视听模态的特效与音效进一步放大了协同效果。比如字幕特效的醒目处理与强调手势、言语语调升降形成三重聚焦,强化提问的核心指向。又如提问“单词读音共同点”时,背景音乐、字幕特效与节奏手势配合,以听觉韵律呼应视觉突出与动作节奏,让理性提问融入感性体验。
总之,多模态协同通过“语言承载信息、动作强化指向、视听渲染氛围”的分工,在短视频有限时长内实现信息传递效率与情感互动效果最大化,既保证提问清晰度,又提升观众参与度,成为连接知识传递与用户体验的关键机制。
4. 结论与展望
本研究以抖音英语教学博主提问行为为对象,基于多模态话语分析理论,通过“言语–动觉–视觉–听觉”四维框架,对12个高互动性视频分析后,揭示短视频语境下英语教学提问的多模态符号运用规律与协同机制,结论如下:
第一,提问策略呈现以言语模态为核心、多模态协同的特征。言语模态通过音韵调节、句类选择、话语策略构建教学逻辑框架,承担核心功能。动觉模态借助情感共鸣与具象化表达强化感染力。视觉与听觉模态作为辅助,以特效、实物、背景音乐等弥补碎片化传播局限,形成“语言承载信息、动作强化指向、视听渲染氛围”的分工体系。
第二,各模态内部形成差异化功能配置。言语模态中,特殊疑问句(42次)与引导性提问(32次)构成知识传递主线,教学术语(32次)与互动式提问(31次)侧重拉近距离。动觉模态中,微笑鼓励(42次)与强调手势(29次)是情感连接与重点突出的核心手段。视觉模态以特效(23次)为主,听觉模态通过背景音乐(9次)营造氛围。这种配置适应短视频特点,同时满足专业性与趣味性需求。
第三,多模态协同构建高效教学互动机制。言语与动觉的“语言–动作”互文实现双重编码。视觉、听觉与核心模态叠加形成三维理解框架。特效、音效与节奏手势同步放大关键信息的感知强度。协同效应在有限时长内实现从认知引导、情感连接到记忆强化的递进,提升用户参与度与知识接收效率。
第四,研究为短视频教学实践提供启示,博主应优化其提问教学策略。例如:精准调配模态资源,依内容选择组合并控制频率。强化“触发–回应–反馈”闭环设计,高难度内容用“语言重复 + 动作强化”。适配平台特性以“高密度信息 + 强感官刺激”锁定注意力,适度融入网络热词与流行手势增强亲和力。
然而,这些依托多模态协同的提问策略在提升互动性与传播效率的同时,也潜藏一定教育风险。由于短视频平台的算法逻辑与流量导向,部分博主在运用多模态提问时,可能过度追求高密度信息与强感官刺激以提升短期互动数据,这种模式容易导致知识传递的碎片化,难以支撑系统性语言能力的构建;而过于娱乐化的模态设计(如夸张音效、频繁闪烁的特效),虽能快速吸引用户注意力,却可能弱化语言学习的严谨性,模糊学习与娱乐的边界,长期暴露于此类内容,学习者可能形成“英语 = 轻松娱乐”的认知偏差,降低对复杂语言任务的耐受力。这提示未来研究需进一步探索多模态策略在互动性与教育性之间的平衡路径,例如结合长期学习效果评估,优化模态协同的节奏与密度,并结合用户反馈探究多模态组合对教学效果的影响,完善数字教育语境下的多模态提问策略理论框架。