1. 引言
进入21世纪以来,建设旅游强国已成为我国重要的发展目标[1]。在2024年5月全国旅游发展大会提出,要着力完善现代旅游业体系,加快建设旅游强国。《“十四五”旅游业发展规划》明确指出,要通过优化文旅产业结构、提升入境旅游规模以及加强文化品牌的国际推广力度来推动入境旅游发展[2]。在此战略指引下,国家和地方文旅部门正积极构建海外社交网络国际传播矩阵,推动国家和地方文旅形象传播,提升海外触达与入境吸引力[3]。同时,在数智时代信息密度上升与注意力碎片化并存的传播生态中,视频已成为新闻与品牌传播的主导叙事形态[4]。社交媒体上的文旅短视频亦因其高频、易分享与沉浸特性,成为国际传播的重要载体。
对于多种模态共构的视频,多模态话语分析强调意义并非由单一符号完成,而是在语言、图像、声音、手势与空间布局等符号资源的协同中被生产与传播[5]。多模态配置侧重语言、图像、声音、手势与空间等符号资源的编排与协同,旨在通过信息锚定、意象塑造与情感节律的组织,优化信息结构、增强叙事连贯性、提升受众沉浸感[6]。多模态隐喻依托源域至目标域的跨模态映射机制,将抽象概念转化为具身体验,有效降低认知负荷并提升传播效能[7]。现有的应用多模态话语分析的研究多聚焦于电影、广告与纪录片等传统媒介,其中电影研究侧重字幕与画面、配乐之间的信息互补机制[8]。广告研究中,孟丽[9]通过分析韩国环保类平面公益广告,揭示了图像与语言在情感诉求与评价意义表达中的协同机制。张静[10]从生命叙事视角分析纪录片《马背之上》,强调声画并置、叙事主体与空间场景互动在沉浸式叙事构建中的作用。即便少量研究关注文旅或外宣语篇,其讨论也多围绕城市形象的对内传播框架[11]或国家层级外宣片中的价值叙事与国际形象建构[12]。总体来看,这些研究虽揭示了不同媒介中模态协同的普遍规律,但主要集中于较为成熟的叙事载体或官方叙事载体,对于社交媒体平台上以短视频形式呈现的地方文旅外宣内容存在显著研究空白。
广西壮族自治区为中国西南的文旅重地,以其独特的地理区位、丰富的文化资源和悠久的历史积淀,成为“一带一路”倡议下文旅国际化的重要窗口,其入境旅游发展成效对我国整体目标的实现具有战略意义。基于此,本文以海外社交平台上高影响力的广西文旅短视频为语料,以多模态话语分析为框架,聚焦模态配置和多模态隐喻双维度,探索地方文旅外宣短视频的意义建构机制与传播效能。
2. 多模态话语分析
随着语料类型与传播技术的演进,多模态话语分析逐渐成为语言学、传播学与认知科学等领域的重要交叉研究方向。其理论兴起可追溯至20世纪70年代的符号学与社会语言学探索[13]。进入20世纪90年代,Kress与van Leeuwen在社会符号学框架下提出了“视觉语法”理论[14],系统化了图像在社会交际中的意义功能;随后,van Leeuwen进一步建立了“听觉语法”框架[15],对声音在社会交际中的结构与意义进行系统阐释。不同模态根据其感知优势承担不同的意义功能。视频语篇中,国内外学者普遍将语言模态、视觉模态与听觉模态作为基础分析单元[16] [17],这种分类不仅有助于分析各模态的独立意义功能,还能揭示它们在多模态隐喻构建中的协同机制。
多模态隐喻作为隐喻研究的扩展路径,其理论基础可追溯至Lakoff与Johnson提出的概念隐喻理论,该理论认为隐喻不仅是修辞手段,而且是人类思维的基本方式,其通过源域到目标域的认知映射帮助人类理解抽象概念和复杂现象[18]。在此基础上,Forceville指出隐喻并不仅限于语言,图像、声音等非语言符号同样能够构建隐喻意义,将概念隐喻理论扩展至视觉模态,提出了多模态隐喻,即源域与目标域分别或主要由两种不同模态表征的隐喻,其中一种模态通常为语言[7]。这是对多模态隐喻的狭义界定。而在更为广义的定义中,多模态隐喻被认为是由两种及以上模态协同参与建构隐喻意义的现象,这一定义更贴近实际语篇中的表现形式,亦被多数研究者所采纳[19],本研究亦采用广义定义。
3. 研究设计
3.1. 语料选择
作为中国最具影响力的英文媒体之一,《中国日报》(China Daily)在提升中国的国际影响力方面发挥着关键作用。本研究选取的语料为《中国日报》于2024年4月10日在Facebook平台发布的旅游宣传视频《广西文化拼图》(Cultural Mosaic of Guangxi)。该视频时长5分45秒,截至目前播放量接近500万次,内容涵盖广西的民族风情、自然景观与文化遗产,具有较高的文化代表性与国际传播影响力。视频以多模态叙事为核心,通过景观展示、人物讲述、虚拟角色互动及配乐音效等方式,呈现广西多元文化的整体形象,适合作为多模态隐喻分析的典型案例。
3.2. 数据处理
在语料收集过程中,研究者首先将视频《广西文化拼图》下载至本地,并利用字幕提取工具获取其中英文字幕文本,经过人工校对以确保准确性。随后,通过逐帧截图保留关键视觉画面,并提取音频文件,形成包括字幕文本、画面截图与音频片段在内的多模态语料集,为后续分析奠定基础。视频内容按三类模态编码:语言模态(Linguistic mode)、视觉模态(Visual mode)、听觉模态(Auditory mode)。隐喻识别采用MIPVU程序,两位研究者在ELAN中独立标注源域与目标域的模态组合,对比讨论后达成一致,以确保分析的准确性。
4. 《广西文化拼图》多模态话语分析
4.1. 感官呈现:《广西文化拼图》的模态配置
本研究基于多模态话语分析理论框架,结合内容分析法,对《广西文化拼图》视频进行系统解析,并界定其主要模态构成。如表1所示,语言模态包括口语旁白、中英文字幕及屏幕文本等语言符号;视觉模态涵盖镜头类型、构图结构以及景观与人物的呈现等图像符号;听觉模态则由背景音乐和环境音效声音符号构成。这些模态既独立承载意义,又通过相互协同形成综合叙事效果。接下来将系统分析不同模态资源的呈现方式,揭示其在视频意义建构过程中的作用与功能。
Table 1. Modal Composition of Cultural Mosaic of Guangxi
表1. 《广西文化拼图》模态构成
标题 |
语言模态(L) |
视觉模态(V) |
听觉模态(A) |
广西文化拼图 Cultural Mosaic of Guangxi |
书面语言: 中英文字幕;屏幕文本 口语语言: 英文对话;中文独白 |
镜头运用: 特写镜头;运动镜头;空镜头 主体画面: 人文景观;物质文化;民俗艺术;文化主体 |
背景音乐 环境音效 |
4.1.1. 语言模态:书面和口语传递信息和情感
在《广西文化拼图》中,语言模态由书面与口语两类资源共同构成。其中,书面语言主要以中英文字幕和屏幕文本的形式呈现:前者是口头语言的同步转写与翻译,促进跨语言受众对内容的理解;后者则为对地方、人物与文化元素的补充性介绍,对文化认证与锚定,增强文化的可信度[20]。例如,在介绍花山岩画时,字幕明确指出其地理位置为“广西壮族自治区崇左市宁明县”,实现空间定位,增强真实感;在呈现六堡茶时,屏幕文本补充说明其于2022年被列入“联合国教科文组织人类非物质文化遗产代表作名录”,为其非遗价值及国际认同提供权威背书。
口语语言依托其即时性与互动性,能激发情感共鸣与增强参与感[21]。在视频中,英文AI导览角色元曦与拟人化的花山岩画形象小红人展开对话,构建出互动式叙述结构。虚拟角色不仅承担了讲述者的功能,还以陪伴者的姿态引导观众沉浸式游览广西的自然景观与文化遗产,提升了内容的可亲近性与文化亲和力。另一方面,在呈现六堡茶和恭城油茶非遗项目时,视频采用中文第一人称独白,由非物质文化遗产代表性传承人亲自讲述制作技艺与文化体验。这种当事人讲述不仅增强了信息的真实性与信任度,还赋予文化叙事更强的情境感与代入感。
4.1.2. 视觉模态:构图与镜头营造文化意象
在《广西文化拼图》中,视觉模态通过镜头语言与画面构图共同塑造文化意象。依据Kress与van Leeuwen提出的视觉语法理论,视觉意义可从再现意义、互动意义与构图意义三个维度进行系统分析[14]。
在再现意义层面,画面通过呈现文化参与者及其所处过程,构建出具体的文化事件表征。视觉参与者涵盖自然与人文景观(如漓江、灵渠、花山岩画)、物质文化(如六堡茶、油茶)、文化主体(如非遗传承人、虚拟导游元曦)以及民俗艺术(如“三月三”节庆演出)。多数画面呈现动态的操作性叙事过程,例如油茶捣制等传统技艺,属于典型的行动过程,使文化活动的行为链条得以动态化、可视化,增强了文化意象的活化效果。
在互动意义层面,不同主体与观众之间的关系各有差异:虚拟导游元曦与拟人化岩画小红人采用索取式接触,主动建立邀请观看的互动关系;而非遗传承人多为提供式接触,专注于自身的文化实践,引导观众以观察者身份介入。具体的镜头语言方面,远景镜头营造自然景观与节庆活动的宏大空间感,中景与近景突出人物形象与文化活动细节,特写镜头则锁定如茶叶翻滚、油茶搅拌等关键细节,兼具仪式感与亲密感。
在构图意义层面,画面信息组织多采用“中心–边缘”结构。例如在恭城油茶展示中,非遗传承人位于画面视觉中心,成为主要信息焦点;周围按功能递减的传统工具环绕排布,使视觉层次与文化逻辑保持一致,实现信息呈现与文化叙事的协同统一。
4.1.3. 听觉模态:音乐与音效增强沉浸体验
在《广西文化拼图》中,听觉模态通过背景音乐和环境音效与其他模态的协同配置,有效增强了文化传播的感知深度与情感沉浸感。背景音乐以富有民族特色的旋律为核心,主要乐器包括竹笛、唢呐、铜鼓和芦笙,营造出高度地域化的听觉意象,强化观众对广西民族文化的情境体验。同时,背景音乐的整体结构呈现分段式设计:前段旋律饱满流畅,与“三月三”节庆演出等画面相呼应,营造浓厚的仪式氛围与强烈的视听吸引力;中段在讲述灵渠、六堡茶等文化意象时,节奏趋缓,辅以静音或低强度音效,平稳情绪节奏,增强叙事的代入感与沉浸感;尾段旋律再次高昂回归,在总结广西多元文化的同时引出邀请话语,进一步激发观众的情感认同与行动意愿。
在环境音效方面,诸如泡茶声、油茶翻炒声、水流声与山间鸟鸣等声音元素被有机穿插于不同场景中。这些声音不仅再现了文化实践的真实质感,也与视觉内容形成互补,构建出层次丰富的声景。这种多层次的声音设计,有助于强化观众对文化场景的沉浸式感知,并提升视听模态的整体融合度。
4.2. 话语表达:《广西文化拼图》的多模态隐喻
隐喻作为人类认知与交流的基本机制[18],不仅塑造了人类理解世界的方式,也是视频叙事中构建意义与传递观念的核心手段。本研究基于MIPVU方法识别出《广西文化拼图》中的20个多模态隐喻,并在ELAN中标注其源域与目标域的模态组合,据此绘制出源域–目标域模态配对频次的热力图(见图1)。无论在源域还是目标域,AVL (视觉 + 语言 + 听觉)组合的出现频次均最高,这表明,旅游宣传视频在呈现隐喻时,倾向于借助多模态资源塑造目标域的形象,从而实现信息传递与意义构建的多重功能。此外,目标域的多模态组合整体多于源域,与传统的依赖源域解释目标域的模式有所不同。这一差异反映出旅游宣传视频的文化导向策略:在此类叙事中,源域更多扮演触发概念映射的功能性角色,通常以较为凝练的语言与视觉呈现核心意象;而目标域则承担着展示、塑造与强化文化形象的任务,需要依托画面细节、语言解说与音乐音效等多模态资源构建丰富的文化意象,以便在受众心中形成更立体、具象和持久的认知表征。
Figure 1. Heatmap of modal pairing frequencies between source domain and target domain
图1. 源域–目标域模态配对频次热力图
在多模态语境下,隐喻不仅仅是一种语言修辞,它还承担着跨模态的认知加工、情感激发与文化塑造等多重任务。因此,基于前述识别与模态分布结果,本文进一步从功能维度对所识别的多模态隐喻进行分析,以揭示其在旅游宣传语篇中的综合作用机制。
4.2.1. 拟人隐喻:跨模态人格化构建情感连接
情感连接指个体在主观上感受到与他人之间的亲密关系和积极体验。拟人隐喻是实体隐喻的一种类型,通过赋予非人事物以人的特征、情感或行为,能够显著增强受众与所描绘对象之间的情感连接[22]。如图2所示,在《广西文化拼图》中,花山岩画的一个红色小人,以第一人称进行自我介绍,并讲述花山岩画的历史,随后与虚拟人物元曦共同担任导览角色。这一设计赋予静态岩画以会说话的人类的身份,不仅突显了文化遗产的叙事性和生命感,还通过与元曦的互动增强了信息传播的趣味性与吸引力,使观众更易在情感上投入,从而产生亲近感。
Figure 2. Personification metaphor presentation of Huashan rock art
图2. 花山岩画的拟人隐喻呈现
同样,油茶被拟人化为“陪伴者”(见图3),由身着民族服饰的本地人讲述并演示其制作过程,并配以舒缓的背景音乐和现场环境音,不仅赋予油茶温情的文化形象,还唤起观众的生活联想与文化认同。总体而言,这类拟人隐喻通过视觉、听觉与语言等模态的协同作用,将抽象的文化符号塑造为具有人格化特征的互动主体,从而有效激发情感共鸣。
Figure 3. Personification metaphor presentation of oil tea
图3. 油茶的拟人隐喻呈现
4.2.2. 物体隐喻:具象化表达降低认知负荷
多模态隐喻作为一种高效的语言和思维工具,能够用凝练且充满深意的表达来传递复杂的信息[7]。物体隐喻是实体隐喻的重要类型,即将抽象概念视为可感知、可操作的具体物体,从而便于理解与推理[23]。如图4所示,“文化是河流”与“文化是植物”的隐喻被融合运用,利用受众熟悉的物理属性(如河流的连续性、植物的生长性)作为认知锚点,将抽象文化概念映射到具体现实经验中。在多模态协同中,视觉模态以水流动态画面呈现“持续流动”,嫩草与繁茂树木象征文化的生机与繁盛(见图5);声音模态中的流水声进一步强化这一连续性意象。语言模态“As rivers flow endlessly, cultural heritage flourishes in Guangxi!真是水系不断流文脉不断根”,则将河流的无尽流动与文化的繁荣发展联系起来,突出了文化的延续性与生命力。
Figure 4. Multimodal source domain and target domain representations of the metaphors “Culture is a River” and “Culture is a Plant”
图4. “文化是河流”与“文化是植物”隐喻的多模态源域与目标域表征
Figure 5. Visual mode of the metaphors “Culture is a River” and “Culture is a Plant”
图5. “文化是河流”与“文化是植物”隐喻的视觉模态
同样,在《广西文化拼图》中,还运用了多种物体隐喻以降低认知负荷并强化文化意象。例如,油茶是中国式咖啡的隐喻,将恭城油茶的日常性与提神功能映射到受众熟悉的咖啡概念上,使其功能属性与社交价值更易被理解和接受;“灵渠是咽喉”利用“咽喉”作为生命要道的物理特性,凸显其在交通与防御上的战略地位;“六堡茶是可以喝的古董”则通过“古董”所承载的稀有性与历史价值,将其悠久文化转化为可感知的珍贵实体。这样的实体隐喻使用,使受众能够借助对熟悉事物的感官经验,在心理上迅速构建起对陌生文化或抽象概念的认知框架,而无需投入过多的认知资源去解析其内涵。不仅显著提升了信息的传播效率与可理解性,还增强了受众的感知质量与沉浸体验,在有限叙事空间中实现高效、直观且富有感染力的文化传播。
4.2.3. 空间隐喻:多维空间映射构建立体文化形象
空间隐喻通过借助人类对空间结构、位置关系与运动路径的感知经验,将抽象的文化概念映射为直观的空间形象[18]。在《广西文化拼图》中,“文化是拼图”的隐喻利用了多方向拼合空间映射,将灵渠、六堡茶、花山岩画、油茶这些具有地域代表性的文化元素,以图像模态和文字模态如拼图般拼合成整体画面。各个拼块既保留了色彩与内容的独特性,又在整体构图中形成和谐统一的文化景观。塑造了多元共存、整体和谐的文化形象。这三类空间隐喻的映射类型与文化指向见表2。“文化是植物”的隐喻则采用了垂直生长空间映射,根部向下延伸象征文化深厚而稳固的历史基础,枝叶向上生长则寓意文化在当代的传播,塑造了根植本土、持续繁荣的文化形象,使文化既被看作稳定的存在,又是不断生长的生命体。“文化是流水”的隐喻利用了线性水平空间映射,以水流不断前行的自然特性比喻文化在时间与空间上的延续性与流动性,构建了源远流长、薪火相传的文化形象。综合来看,这三类空间隐喻通过多方向、垂直与水平的空间映射,共同构建出广西文化立体化形象。
Table 2. Mapping types and cultural orientations of spatial metaphors in Cultural Mosaic of Guangxi
表2. 《广西文化拼图》空间隐喻的映射类型与文化指向
空间映射类型 |
源域(空间属性) |
目标域(文化形象) |
多方向拼合映射 |
拼图(多元性、整体性) |
多元共存、整体和谐 |
垂直生长映射 |
植物(根植性、生长性) |
根植本土、持续繁荣 |
水平线性映射 |
河流(流动性、延展性) |
源远流长、薪火相传 |
4.3. 传播策略:数智时代海外文旅宣传视频的优化
4.3.1. 选择恰当隐喻,促进文化理解
在文旅宣传视频中,文化元素的有效传达不仅是吸引游客的重要策略,也是实现跨文化交流的核心手段。在跨文化传播中,多模态隐喻是降低认知门槛、促进情感共鸣的有效策略。文旅宣传视频应选择契合目标受众文化语境并易于引发共鸣的隐喻,将地方特色符号与全球通用的概念相连接,缩短文化心理距离。例如,将恭城油茶类比为“中国式咖啡”,借助海外受众熟悉的饮品体验解释这一地方饮食文化,不仅降低理解难度,还增添生活化的亲切感。同时,在视觉、听觉等多感官层面强化表达效果。“文化是河流”“文化是植物”等多模态隐喻,在多感官层面实现信息与情感的双重传递,减少跨文化理解障碍,增强文化认同感。文旅宣传须选准多模态隐喻,以多元符号与声画协同有效呈现文化内涵,缩短跨文化理解距离并提升传播效果。
4.3.2. 整合多种模态,增强感官体验
多模态整合通过视觉、听觉和语言等模态的协同作用,可以为受众创造全方位的感官体验。这种多层次的信息传递不仅能够吸引受众的注意力,还可以在情感层面建立深刻的连接,从而提升宣传片的整体吸引力。视觉模态可通过航拍镜头、特写细节与色彩构图塑造鲜明的文化意象;语言模态在传递信息的同时注重情感渲染;听觉模态利用地方特色音乐、环境音效和节奏变化引导情绪。通过多模态叙事方式,文旅宣传片能够更高效地传达复杂的文化信息,使受众在视听享受中获得知识和情感上的满足。这种策略对跨文化传播的复杂性和观众需求的多样性提供了有效的解决方案。
4.3.3. 融合数智技术,提升互动传播
在AI生成、沉浸式体验和大数据分析等技术不断发展的数智时代,文旅宣传视频可通过数字技术的融入实现传播效果的倍增。例如,利用AI角色与观众进行拟人化互动,增加内容的参与感与亲近感;借助AR/VR技术将文化景观与非遗技艺立体化呈现,实现跨时空的沉浸式体验;结合社交媒体数据分析,精准推送不同受众最感兴趣的文化板块,形成个性化推荐。通过创新技术的应用,文旅宣传可以进一步实现个性化和深度体验,既提升了文旅宣传的传播效果,也为未来的跨文化传播和旅游推广提供了新的方向。
5. 结语
本研究以多模态话语分析为总体框架,对《中国日报》外宣视频《广西文化拼图》的语言、视觉与听觉资源进行了系统考察,围绕模态配置、隐喻功能与传播策略展开论证。在此过程中,语言、视觉与听觉三模态在信息锚定、意象塑造与情感节律上形成稳定的分工协同。语言负责信息锚定与情感引导,视觉通过镜头与构图塑造意象,听觉以音乐与声景调控情感节律,三者在关键节点同频协作以增强沉浸体验。拟人、物体与空间隐喻由源域–目标域的跨模态映射实现的意义建构机制,共同强化跨文化可理解性与目的地形象呈现:拟人化以互动叙事激活情感参与;物体隐喻通过提供可感参照来减轻抽象概念的理解负荷;空间隐喻以多维空间映射构建立体文化形象。基于对语言–视觉–听觉三模态协同的系统考察,本文提出了一种面向文旅外宣语篇的多模态隐喻构建机制模型,揭示了不同模态在概念映射中的功能差异与协作路径,丰富了多模态隐喻研究关于“模态负载分布”与“跨模态意义合成”的理论讨论。面向文旅推广的实践要点在于,以受众经验为参照优化叙事与修辞选择,促进文化理解,强化多模态整合增强感官体验,并适度引入虚拟角色、互动设计与沉浸式技术,以提升参与度与记忆度。
总体而言,本文在真实传播语境下展示了多模态资源如何协同塑形地方文化形象,验证了“可理解–可感知–可互动”三维协同模型,为地方文化形象的全球抵达提供了操作性框架。本研究仍受限于单一样本,传播效果亦未与行为数据和实验指标相互印证。未来可在跨地区、跨平台的更大语料上进行对比研究,并结合受众数据与实验方法检验作用机制,进一步完善多模态文旅传播的理论解释与实践指引。