1. 引言
当前,博物馆与文化展览已成为青年群体精神消费的重要场域。据《中国国家博物馆数据报告(2024年度)》显示,全国博物馆接待观众总量已突破695.6万人次,35岁以下的观众占比超过60%,年轻人已成为国家博物馆观众的主力军[1]。然而,尽管参观人数激增,青年群体的观展体验却普遍面临“走马观花”的困境。调研表明,近七成观众表示在面对晦涩的专业展签时存在认知障碍,且缺乏有效的情感连接与记忆留存手段,导致文化传播的效率大打折扣。随着生成式人工智能(AIGC)技术的爆发,其强大的多模态转译与内容生成能力为解决上述矛盾提供了新的契机。本文旨在通过活动理论与数字叙事视角,构建AIGC赋能下的观展交互系统模型,并以此指导“趣迹”APP的设计实践。通过整合计算机视觉、大语言模型与语音合成技术,实现展品信息的通俗化转译与拟人化叙事,将单向的知识灌输转变为双向的情感互动,从而优化观展流程,提升文化传播的深度与效能。
2. 行业背景与问题阐述
2.1. AIGC技术语境下的交互范式转变
随着人工智能技术的代际跃迁,特别是生成式人工智能(Artificial Intelligence Generated Content, AIGC)的爆发,正在推动数字化观展体验从静态信息的电子化向内容的智能生成转变[2]。在传统的展览导览服务中,无论是人工讲解还是录音导览,本质上多为预设的、单向的信息输出,难以满足观众个性化、碎片化的认知需求。而语音合成(TTS)、自然语言处理(NLP)等技术的成熟,依托深度学习与模式识别手段,为人机沟通提供了新的交互接口[3]。
具体而言,计算机视觉技术(CV)赋予了移动终端“观看”的能力,使其能够即时识别物理空间的展品,打破了传统依赖二维码的被动交互模式。大语言模型(LLM)具备的语义理解与生成能力,能够充当“转译者”,将晦涩难懂的专业术语实时转化为大众易于理解的口语化文本。与此同时,基于深度学习神经网络的语音合成技术(TTS)已能高保真地模仿人声变化规律,使智能设备发出的声音不再是冰冷的机械读屏,而是具备情感色彩的拟人化表达。这种技术融合趋势,使得构建一种虚实融合、双向交互且具备情感温度的智能观展应用成为可能。
2.2. 青年群体观展的体验断层
尽管“文博热”“Art Walk”已成为当代青年群体的主流生活方式,但在实际体验中,普遍存在着高期待与低获得感之间的落差。当前展览的知识供给模式与青年观众的接收习惯之间,主要存在三重体验断层。
1) 认知层面断层。各类艺术展与文物展往往伴随着较高的专业门槛(尤其是历史文物展或当代艺术展)。传统的展签文字偏向学术化表达,缺乏语境化的通俗解读,导致观众在面对展品时产生理解障碍,陷入走马观花的视觉浏览,使得观展过程往往流于形式,难以建立深度的知识连接,造成了信息过载与有效获取匮乏的矛盾[4]。
2) 情感层面断层。现有的数字化导览工具多侧重于购票、导航等功能性服务,缺乏对观众情绪价值的回应。静态的陈列方式使得观展过程缺乏互动性与趣味性,观众难以产生代入感,导致审美体验往往止步于表层,无法形成持久的文化触动与情感共鸣。
3) 记忆层面断层。在“拍照打卡”成为标准动作的当下,年轻观众手机中留存了大量展品照片,但这些图像是离散的、无序的,由于缺乏系统的整理与知识关联,难以转化为有意义的个人记忆,随着时间推移迅速沉寂。同时,在社交分享环节,由于缺乏优质的内容支撑,观众往往难以输出有深度的观展感悟,导致物理空间的文化体验未能有效转化为可留存、可传播的数字资产。这种体验的瞬时性与记忆的长效性之间的脱节,是亟待解决的关键问题。
3. 基于活动理论的观展交互模型构建
3.1. 用户旅程分析与痛点挖掘
通过构建用户旅程地图的方式对青年群体观展的全流程进行分析,该方法是一种以用户为中心,完整呈现行为过程中用户与服务、系统之间交互关系的可视化工具。前期采取了田野调查与深度访谈相结合的定性研究方法。研究选取了15名具有不同观展频率的典型青年观众(覆盖18~35岁年龄段)作为样本,通过跟踪观察法记录其在真实展览场域中的动线轨迹与交互行为,重点捕捉用户在面对展品及展签、导览设备及社交分享时的即时反应。同时,配合半结构化访谈,深入挖掘用户在“逛展前、中、后”各阶段的心理预期与隐性痛点,将零散的行为数据与情绪反馈进行编码整理,最终绘制出反映青年群体普遍观展体验的用户旅程地图(如图1所示)。
在逛展前的决策与规划阶段,行为模式主要表现为基于社交媒体的兴趣激发与基于票务平台的行程确认。精美的线上宣传往往拉高了心理预期,但官方渠道缺乏深度的内容预告与个性化指引,导致观众难以判断展览内容是否契合自身的知识结构。这种信息供给的模糊性使得购票与寻路环节常伴随着决策焦虑,在物理入场前即形成了心理预期与实际体验的潜在落差。
随着观展行为的深入,进入核心体验区后,情绪曲线呈现出剧烈的震荡态势。研究发现,当用户面对充满学术术语的专业展签时,往往会产生强烈的“认知摩擦”,导致情绪曲线显著跌落,形成难以逾越的认知断层;尽管部分用户尝试通过搜索引擎辅助理解,但获取的信息往往依旧晦涩,进一步加剧了挫败感。同时,传统的静态陈列方式迫使观众处于被动接收状态,缺乏交互反馈的单向观看极易引发审美疲劳与注意力涣散。尽管“拍照打卡”能带来短暂的情绪峰值,但这种基于视觉表象的浅层交互无法支撑深度的文化体验,导致观展过程陷入“走马观花”的困境,因此该阶段的潜在需求高度集中在信息的通俗化转译与多感官的沉浸式互动上。
在逛展后的离场与回溯阶段,矛盾进一步转化为体验的瞬时性与记忆的长效性之间的脱节。手机相册中虽然堆积了大量碎片化的展品影像,但由于缺乏系统的知识关联与结构化整理,这些图像沦为占据存储空间的沉寂数据,导致观展价值随时间推移而快速流失。此外,在社交分享环节,由于缺乏优质的图文素材与背景知识支撑,用户往往陷入“想分享却无话可说”的社交压力中,难以通过朋友圈等渠道构建理想的文化人设。这一阶段的困境表明,现有的工具体系未能有效承担起记忆资产转化的分工职能,导致物理空间的文化体验难以在数字空间通过二次传播实现价值增值。这些贯穿全流程的症结,本质上是旧有的交互系统在工具效能、规则设定及分工机制上,已滞后于当代青年群体的体验需求。
Figure 1. User journey map of the exhibition experience
图1. 观展体验用户旅程图
3.2. 活动理论视域下的交互模型重构
1) 活动理论与数字叙事理论基础
针对用户旅程分析中识别出的主体能力不足、工具效能滞后及规则设定陈旧等系统性矛盾,本研究引入活动理论(Activity Theory)作为核心框架对观展系统进行重构。活动理论由维果茨基(Vygotsky)奠基并经列昂节夫(Leontiev)发展,强调人类的活动是主体利用工具作用于客体并转化为结果的动态过程,其中还包含规则、共同体和劳动分工等社会要素的调节[5] [6],它们的关系如图2所示。在外卖骑手、老年人产品等复杂交互系统的设计研究中,活动理论已被证实能有效理清“人–技术–环境”之间的矛盾与协作关系[7]。然而,针对展览这一特定文化场景,单纯的系统分析难以涵盖内容层面的体验维度。因此,本研究进一步融合数字叙事(Digital Storytelling)理论。数字叙事强调通过交互技术与沉浸式设计,将静态信息转化为用户可参与的故事体验。AIGC技术作为新一代“叙事中介”,不仅承担着工具属性,更具备构建虚拟角色与生成个性化内容的叙事能力,这为重构观展体验提供了理论支撑[8]。
Figure 2. Activity theory model
图2. 活动理论模型
2) AIGC观展交互系统模型构建
基于双重理论视域,将AIGC技术嵌入传统的观展活动结构重,构建了“AIGC赋能下的观展交互系统模型”(如图3所示)。在该模型中,观展行为不再是单向的信息摄取,而是演变为一个以主体为核心、智能工具为中介、虚实社群为背景的动态循环系统。
在该模型中,主体被界定为具备审美诉求但缺乏专业艺术背景的青年观展群体,其活动的客体旨在实现低门槛的深度文化理解与个性化的记忆资产留存。然而,传统观展模式下主体能力与客体难度之间的张力构成了系统的主要矛盾,这就需要引入工具要素作为中介。针对主体(青年观众)与客体(深度文化理解)之间的认知差,模型整合了以计算机视觉、大语言模型及语音合成为核心的AIGC多模态技术集群作为新工具。这些智能技术不再是被动的信息载体,而是充当了强有力的“认知中介”。如图4所示的“多模态观展交互机制”进一步揭示了这一中介作用的微观机理:物理场域中的静态展品首先经过视觉算法的解构被剥离为独立的视觉符号,进而通过大模型的语义重构将晦涩的专业知识转译为通俗语料,最后经由语音合成技术转化为拟人化的叙事体验。这一过程成功将物理世界的客观存在转化为认知层面的知识内化,有效消解了主体在面对高门槛展品时的认知负荷,确立了从“物理感知”到“意义理解”的高效路径。
在确立核心要素的基础上,该模型进一步通过规则、共同体与劳动分工的演变来重塑观展体验的社会属性。在规则维度,模型打破了传统博物馆“静默观看”的隐性规范,确立了基于拟人化叙事的双向对话规则,利用数字叙事理论赋予展品以特定人格,使单向的知识灌输转变为具备情感温度的角色扮演式互动,用户不再是旁观者,而是被邀请进入历史情境的对话者[9]。在共同体维度,观展活动的空间边界被打破,通过拼图收集与数字分享机制,个体体验被延伸至虚实共生的社交场域,推动主体从文化的旁观者转化为叙事的传播者。这种机制不仅增强了用户与展品之间的连接,更通过社交分享激发了群体间的互动,推动主体从文化的单向接收者转化为叙事的传播者与共建者。
针对记忆流失与资产化难题,模型确立了“AI智能生成–用户审美决策”的新型人机协作模式。在传统的观展活动中,观众需要独自承担信息检索、理解、记录与整理的全部劳动,极易导致体验疲劳。而在新模型中,繁琐的内容生产工作(如文案撰写、版式生成、信息清洗)交由AI承担,用户则专注于核心的审美判断与收藏决策。这种分工机制极大地优化了记忆留存的效率,实现了从瞬时物理体验到持久数字资产的高效转化。最终,这种系统性的重构形成了“生产–交换–输出–循环”的良性闭环,彻底扭转了传统观展体验中的被动局面,实现了文化体验价值的整体跃迁。
3) 系统核心矛盾的辨析与调和
进一步运用活动理论中的矛盾分析法审视该系统,可以发现本研究重点解决了展览活动内部的两组结构性冲突。首先是观众个性化需求与展览标准化陈列之间的主要矛盾。 受限于物理空间与策展成本,各类实体展览倾向于提供千人一面的标准说明牌(客体),这与青年观众日益增长的个性化、碎片化认知偏好(主体)构成了直接冲突。在该模型中,AIGC工具充当了关键的调和中介,它不改变物理客体的客观属性,而是通过数字生成的手段,为每一位观众即时转化为符合其认知风格(如幽默化、故事化)的专属内容,实现了以标准之物,应万变之需。其次是旧有静默规则与新型交互诉求之间的次要矛盾。传统的观看规则限制了观众的主动性,导致体验疲劳。新模型引入拟人化叙事,将规则重塑为跨时空对话,通过赋予展品主体性地位,化解了单向传播带来的情感隔阂,使观展活动从被动的接受转向主动的共情。
Figure 3. Model of the exhibition interaction system empowered by AIGC
图3. AIGC赋能下的观展交互系统模型
Figure 4. Multimodal exhibition interaction mechanism diagram
图4. 多模态观展交互机制图
3.3. 体验优化与设计策略推导
根据模型中识别的核心矛盾,从认知、情感与记忆三个维度推导出相应的设计策略,构建一套能够弥合体验断层的系统化解决方案。
针对主体与客体之间存在的认知鸿沟,首先形成信息的通俗化与轻量化转译策略。面对专业门槛极高的展品信息,单纯的文本展示已难以满足青年观众快速获取知识的需求。因此,设计致力于利用人工智能的语义理解能力,构建一种即时的“翻译”系统。系统需能够将晦涩的学术语言实时转化为符合大众认知习惯的通俗语料,通过提取核心特征与趣味标签,降低信息的接收门槛,使观众在视觉接触的瞬间即可建立对展品的基本认知,实现知识的高效内化。在解决认知障碍后,为突破传统导览情感匮乏的困境,构建拟人化的角色叙事体系成为深化体验的关键路径。传统的实体展签往往带有客观冷静的距离感,难以激发观众的情感共鸣。策略主张利用生成式AI技术重塑交互规则,赋予静态展品以鲜明的人格特征与记忆属性。通过模拟第一人称的对话口吻,将单向的信息灌输转变为具备情感温度的双向交流。这种基于角色扮演的交互形式能够有效触发叙事传输效应,引导观众进入特定的历史或文化情境中,从而建立起跨越时空的情感连接[10] [11]。针对观展记忆碎片化且难以留存的问题,策略进一步指向记忆的可视化与资产化。在现有的观展行为中,离散的影像记录难以形成系统性的文化记忆。因此,需要引入一种结构化的数字载体,将无形的观展体验转化为可被量化、可被收藏的数字形态。这种策略并非简单地整理照片,而是强调通过系统自动生成具备统一视觉规范与审美价值的数字凭证,将零散的观展轨迹串联为连续的记忆链条。这不仅满足了用户在社交场域中构建文化身份的心理诉求,也为展览文化的二次传播提供了标准化的媒介载体。
4. “趣迹”APP设计实践
4.1. 核心功能架构与交互流程
“趣迹”APP的设计旨在构建一个从“物理感知”到“情感连接”再到“记忆留存”的完整体验闭环,图5展示了APP交互流程的逻辑架构。设计不仅关注功能的实现,更致力于通过界面引导用户完成对展品从“陌生凝视”到“深度共情”的心理转变。
1) 视觉识别与模板适配。当用户使用“趣迹”APP拍摄展品时,系统并非简单记录画面,而是自动启动视觉主体提取机制,将展品从复杂的现实背景中剥离出来,并添加描边以强化主体感。为了解决不同展品尺寸、比例不一导致的视觉杂乱问题,设计采用了统一的拼图形态模板。无论拍摄的是细长的卷轴还是方正的青铜器,系统都会将其适配进这一固定的拼图轮廓中。同时,为了避免视觉单调,模板的背景色会根据展品的主色调进行提取与适配,这种标准化的视觉处理不仅净化了画面信息,更确立了视觉呈现的秩序感,为后续的记忆拼合奠定了形态基础。
2) 信息重组与拟人叙事。在获取视觉图像后,设计重点转向解决专业信息晦涩难懂的认知障碍。系统利用AI技术对海量的百科信息进行筛选与结构化重组,将原本冗长的说明文字精简为“趣味标签 + 核心属性”的卡片式布局,根据展品类型动态生成关键字段,实现了信息的直观呈现。例如,识别到画作时显示“作者、流派”,识别到器物时则显示“工艺、用途”。同时,为突破传统导览的情感隔阂,语音交互从第三人称旁白转变为第一人称的拟人化自述[12]。系统根据展品特征模拟特定的口吻进行自我介绍,例如青铜器的厚重感讲述风格或瓷器的灵动讲述风格,通过听觉引导用户进入故事情境,让展品以“我”的口吻介绍自己,这种设计直接拉近了用户与文物的心理距离,通过听觉引导用户进入故事情境[13]。
3) 双面卡片交互与记忆归档。为了承载用户的个人记忆,数字展签采用了“双面翻转”的交互形式。正面承载公共知识(科普),背面则留给用户进行个性化创作,不仅可以上传与展品的合影,还能记录碎片化的观展感悟。考虑到在社交分享时的创作压力,设计加入了文案润色功能:用户只需输入简单的关键词或心情,AI即可将其优化为通顺、优美的朋友圈文案,降低了内容生产的门槛。交互的最终落脚点在于“收藏”。所有被确认保存的卡片,都会以拼图碎片的形态归档至收藏中心。得益于前述统一的边缘形状设计,这些原本毫无关联、来自不同展览的碎片,能够在收藏页中无缝嵌合,随着时间的推移,自动拼贴成一面连续延伸的记忆墙。这种直观的视觉反馈,将抽象的观展经历转化为了可视、可积累的个人足迹。
Figure 5. APP interaction flow logical architecture
图5. APP交互流程逻辑架构
4.2. 界面视觉表现与收藏机制
界面视觉设计遵循“轻量化介入”与“沉浸式反馈”的原则,旨在通过直观的视觉语言降低用户的认知负荷(如图6所示)。在拍摄识别界面,设计采用了极简主义的取景框,去除了冗余的操作按钮干扰,仅保留核心的对焦反馈。当镜头锁定展品时,界面会实时生成动态的高亮描边包裹展品主体,这种即时的视觉确认不仅增强了“捕获”的操控感,也引导用户将注意力完全聚焦于文物本身。
进入信息呈现层,形式上使用“纪念门票”的视觉隐喻作为电子展签的载体。为了兼顾视觉的秩序感与丰富性,提前预设多套高审美的色彩模板,在用户连续浏览不同展品时交替呈现,避免了单一视觉样式的审美疲劳。门票采用了主券 + 副券的经典结构布局:主券区域承载展品的拼图影像与核心信息,确立视觉重心;而副券区域则是语音文本的动态展示区,配合与语调实时同步的动态声波纹理,将抽象的听觉叙事转化为可视化的文本流动与律动节奏。这种视听融合的版式设计,不仅增强了拟人化叙事的在场感,更让“阅读”与“聆听”在同一视觉平面上达成了和谐共振。
在数字资产的形态建构上,深入挖掘了“拼图”符号的视觉隐喻价值,将其作为承载记忆的标准化载体。每一张门票在归档时都会转化为一枚带有凹凸咬合边缘的拼图碎片,这种特定的形态暗示了碎片之间潜在的连接关系,从视觉心理学层面激发了用户的补全欲与收集欲[14]。在收藏中心界面,摒弃了传统线性的列表式排布,采用基于时间轴的无限画布布局。随着用户观展进程的推进,原本离散的、来自不同时空的拼图碎片依据获取顺序自动吸附并紧密嵌合,逐渐填充原本空白的画布。不仅解决了碎片化信息难以管理的难题,更将抽象的观展轨迹具象化为一面连续延伸的“记忆墙”。随着墙面的不断扩充,用户能够直观地看到自己的文化足迹从零星散点汇聚成宏大的图景,这种视觉上的完整性赋予了虚拟数据以厚重的收藏价值,从而在审美层面完成了对观展体验的二次升华。
综上所述,通过对核心功能架构的搭建与多模态界面的精细化设计,本研究构建了如图7所示的观展体验优化闭环。该模型以用户的行为路径“拍–观–听–藏”为轴线,直观展示了技术介入后的价值跃迁:在“拍”与“观”的感知阶段,利用计算机视觉与大语言模型实现了信息的无感接入与认知降维;在“听”的交互阶段,通过拟人化语音演绎建立了跨时空的情感共鸣;在“藏”的沉淀阶段,借由拼图归档机制实现了记忆的永存与资产化。这种闭环设计改变了传统观展中碎片化、单向度的体验模式,确保了用户在每一个交互节点都能获得清晰的价值反馈。
Figure 6. APP UI design
图6. APP界面设计
Figure 7. Closed-loop model for optimizing the exhibition experience
图7. 观展体验优化闭环模型
5. 技术挑战与设计伦理反思
研究构建的交互模型虽在理论层面打通了体验闭环,但若要真正部署于复杂多变的真实展览场域,仍需正视技术局限带来的体验断点,并对AIGC介入文化传播可能引发的深层伦理问题保持审慎的批判性反思。
5.1. 技术瓶颈与交互补偿
在真实的观展环境中,光线的明暗变化、展柜玻璃的反光以及密集人流的遮挡,都会成为干扰计算机视觉(CV)识别的物理噪音。若识别失败或响应延迟过高,极易打断用户的沉浸感,造成体验摩擦。针对这一技术瓶颈,单纯依赖算法优化是不够的,需从交互设计层面引入补偿机制,可采取多模态容错交互的方式,当视觉识别受阻时,系统应自动降级为“特征检索”或“位置感知”模式,引导用户通过拍摄局部细节或输入关键词辅助识别。同时,在等待AI生成的间隙,通过动态的加载动效(如拼图碎片的预重组动画)来缓解用户的等待焦虑,将枯燥的系统加载转化为具有叙事感的内容预告,从而在技术不完美的情况下依然维持体验的流畅性。
5.2. 认知依赖与注意力偏移
AIGC带来的即时知识转译虽然极大降低了理解门槛,但也伴随着认知路径依赖的潜在风险。当用户习惯了直接获取由AI高度提炼、结构化的知识胶囊,可能会在潜意识中减少主动搜索资料、辨析信息的意愿,从而陷入一种由生成式内容构建的新型“信息茧房”——即仅满足于AI投喂的答案,而放弃了更广阔的自主探索。此外,屏幕与展品对注意力的竞争也是此类移动端产品面临的固有挑战。设计初衷是引导用户关注文物,但丰富绚丽的动态界面与拟人化互动反而可能形成过强的视觉吸附力,导致观众将视线长时间锁定在数字界面上,出现只看手机不看展的本末倒置现象。这表明,如何在数字内容的丰富性与物理体验的在场感之间寻找注意力的平衡点,仍是当前设计尚未能完全解决的难题,也是后续研究需要持续优化的方向。
5.3. 数据伦理与数字权利
随着用户深度参与内容生产,数据安全与权责界定成为核心伦理维度。AI的拟人化演绎可能会带来叙事偏见,应避免将拟人化演绎作为唯一解读标准,可以引入多维视角进行解读,将AI趣味叙事、官方学术介绍及社群评论并置展示,帮助用户从不同维度辩证构建对展品的认知,防止陷入算法定义的单一价值观。在数字资产的权属与流通上需建立明确的数据使用协议,展品影像虽源于用户拍摄,但作为融合平台模版与AI算力的复合型产品,其传播需清晰界定三方权利边界。协议应提示用户遵守博物馆关于特定文物的图像采集与传播规范,在激发公众创造活力的同时,恪守文化遗产保护的责任底线。
6. 结论
在文博数字化转型的浪潮下,青年观众的观展诉求已从被动的信息接收转向深度的情感体验与自我表达,但现有的导览产品难以有效弥合认知门槛与记忆流失带来的体验断层[15]。文章从观展过程中“看不懂、没意思、留不住”的系统性矛盾入手,结合活动理论与数字叙事视角,构建了AIGC赋能下的观展交互系统模型。以此为指导,对“趣迹”APP进行了全流程的设计实践:通过计算机视觉与大语言模型的协作实现了展品信息的通俗化转译与认知降维;利用拟人化语音交互重塑了叙事规则,建立了跨时空的情感连接;借由“拼图”视觉隐喻将碎片化体验封装为结构化的数字资产。该设计不仅在功能上完成了从物理感知到数字沉淀的闭环,更在价值上验证了AIGC技术作为“认知中介”在文化传播中的有效性。
但本研究仍存在一定的局限性。设计实践主要基于理想化的技术环境,未充分验证复杂展览现场的光线干扰、网络延迟对视觉识别稳定性的影响,后续研究需在真实场域中开展压力测试,以提升交互的流畅度。其次,目前的研究样本主要集中于青年群体,对于老年人或儿童等特殊群体的适用性有待进一步验证。未来应立足多学科视角,整合策展学、认知心理学与人工智能领域的优势资源,着力打造集智能化、个性化与情感化于一体的观展服务模式。同时,如何在提升信息获取效率与保持深度文化体验之间寻找平衡,以及如何通过设计手段规避算法带来的认知依赖与注意力偏移,将是未来智慧观展设计持续关注的核心命题。
注 释
文中所有图片均为作者自绘。