1. 引言
在互联网技术与消费者多样化需求深度融合的背景下,商业直播已迅速发展为重要的营销工具,并在当前市场中占据重要位置[1]。其依托互联网平台突破时空限制,实现了商家与消费者之间的即时、高频互动,从而显著缩短营销链路。在直播过程中,主播通过直观展示商品细节、演示使用方式,并结合价格优惠与赠品等营销策略,有效促进消费转化。诸多行业也借此拓展了销售渠道,提升了品牌影响力与市场份额。以2023年中国“双十一”购物节为例,综合电商平台及直播电商平台累计销售额达11,386亿元,其中电商直播贡献了2151亿元[2];至2024年,全网累计销售额增至14,418亿元,同比增长26.6% [3]。随着技术的持续演进,虚拟主播开始在商业直播领域崭露头角,成为学术界与产业界共同关注的前沿议题。
与真人主播相比,虚拟主播具有降低人力成本、促进流量增长[4]、减少丑闻出现的风险等优势[5]。在此背景下,探究虚拟主播在电商直播中的效能表现及其对行业发展的影响,具有重要的理论与实践意义[6]。现有研究主要围绕虚拟主播的特征展开,涵盖角色设计和性格特征两大维度。在角色设计方面,外观、服装、表情等视觉元素对激发观众情感与建立信任具有关键作用。此外,虚拟主播的表情与肢体语言作为角色设计的重要组成部分,会通过社会临场感影响消费者的情感依恋[7]。在性格特征方面,诸如吸引力[8]、温暖[9]、幽默[10]与受欢迎程度[11]等特质对直播效果影响显著。其中,吸引力不仅源于外观,也体现在个性表达与互动方式中,直接影响消费者的心理感受。研究表明,不同类型的虚拟形象会引发不同程度的情感依恋与利益追求行为[7]。尽管已有研究对直播电商开展了广泛探讨,虚拟主播在其中的具体作用机制、角色定位以及对消费者决策的实际影响,仍待进一步系统研究。
随着电商直播成为主流营销模式,虚拟主播在产品推荐与消费决策中的作用日益凸显。在这一背景下,虚拟主播的表达方式显得尤为重要。研究表明,直播销售绩效主要取决于主播在商品信息传递与客户关系建立两方面的沟通效能[12]。虚拟主播通过面部表情、语调变化和肢体动作等具象化表达,能够增强互动体验,营造虚拟社交临场感,进而通过缩短用户心理距离促进购买行为[13]。然而,该领域研究仍存在明显不足:首先,现有文献多聚焦于真人主播,对虚拟主播行为影响的探讨相对匮乏;其次,相关研究常将沟通行为视为单一维度[14],侧重于语言风格或感官体验等孤立因素格[15],忽视了其内在的多维特性。尤其对于肢体动作等非语言线索如何影响消费者感知与决策,尚缺乏系统探讨。因此,解析不同沟通要素的差异化作用机制,对优化直播电商策略具有重要理论价值与实践意义。
梅拉比安沟通模型将沟通要素划分为语言与非语言两个维度,为分析沟通效能提供了理论依据。这一模型虽源于人际沟通研究,但其适用性可延伸至虚拟主播场景。根据CASA范式理论(Computers Are Social Actors),当虚拟媒介具备拟人化特征时,用户会无意识地启动对待真人的社会规则与之内在互动[16]。虚拟主播高度集成了视觉、听觉与语言等多重社会线索,使其被视为“社会行动者”而非单纯的技术产物,从而使得基于人际沟通的梅拉比安模型在此情境下具备解释力。基于该模型,电商直播中虚拟主播的沟通系统可操作化为肢体语言(55%视觉权重)、语调(38%听觉权重)与语言内容(7%语言权重)三个维度,其中算法驱动的非语言要素可降低消费者认知负荷,而基于自然语言处理的话术则提升决策效率。为探究其影响购买意愿的心理机制,本研究引入刻板印象内容模型作为中介框架。该模型表明消费者通过感知虚拟主播的温暖感与能力感形成认知判断,进而影响行为反应[17]。尽管虚拟主播的具象化表达在电商直播中应用广泛,但其对消费者感知评价与购买行为的作用路径尚存理论空白,亟待系统验证。
综上所述,本研究旨在基于刻板印象内容模型,系统揭示虚拟主播的具象化表达要素如何通过温暖感与能力感影响消费者购买意愿,并验证上述二维度在表达要素与行为意向间的中介路径。以CASA范式为理论前提,首次引入梅拉比安沟通模型,构建适用于电商直播场景的虚拟主播多模态传播分析框架,系统阐释其肢体语言、语调及语言内容对消费者认知评价的作用机制,为人机交互中的多模态沟通研究提供了理论支持。本研究的主要贡献体现在三个方面:首先,在理论层面,研究聚焦于虚拟主播的具象化表达维度,系统性地揭示了其对消费者决策心理的影响机制,为理解虚拟主体沟通效果提供了超越技术属性的新视角,是对现有“技术决定论”研究框架的重要补充。其次,在方法论层面,通过引入并拓展梅拉比安三维沟通模型,构建了一个适用于虚拟主播情境的多模态传播分析框架,有效整合了先前研究中相对分散的技术属性与行为观测变量,提升了该领域研究的系统性与可操作性。最后,在实践层面,研究结论为虚拟主播的表达设计与运营优化提供了具针对性的策略依据,相关发现亦可延伸应用于金融、教育等领域的虚拟数字人交互场景,具有一定的跨行业推广价值。
2. 文献综述
2.1. 虚拟主播
虚拟主播基于三维建模、自然语言处理、动作捕捉与人工智能等前沿技术构建,具备拟人化形象、流畅表达与智能交互能力。依据视觉特征,现有研究主要将其分为两类:仿真实人类虚拟主播(视觉上高度拟真),通过增强亲近感提升信任度[14];动画风格人类虚拟主播(保留人类特征但呈现为动画形象),以可爱外观提高参与度[4]。此外,虚拟网红中还存在一类非人类形象(如动物、无生命体或异世界生物) [7],例如TikTok上引起关注的拟人化香肠形象Nobody Sausage,拓展了虚拟形象的形态范畴。
当前电商平台中关于虚拟主播的研究多聚焦于其社交线索,主要涵盖视觉、语言、听觉及无形线索。视觉线索(如拟人化、生动性)通过影响社会临场感作用于购买意愿[18];语言线索则关注感官语言与语言风格对消费行为的影响;听觉线索研究尚少,仅有个别探讨其与顾客体验价值的关系[18];无形线索则包括信任度等,如虚拟代理性别与产品性别一致性对信任的影响[19]。然而,现有研究多采用单一维度分析,缺乏对多线索协同机制的系统考察。本研究创新整合梅拉比安沟通模型,将虚拟主播表达操作化为视觉、听觉与语言三类线索,并在统一理论框架下采用多实验范式分别量化其主效应,以弥补现有研究对线索间关联关注的不足,为虚拟主播分要素设计提供理论依据。
2.2. 虚拟主播的具象化表达
具象化是一种将抽象的概念、情感、思想等转化为具体的、可感知的形象、场景或事例的表达方式或思维过程。目前学术界对具象化表达尚未形成统一定义。美国心理学家阿尔伯特·梅拉比安(Albert Mehrabian)提出的“7%-38%-55%定律”,也即“Mehrabian沟通模型”,为理解具象化表达提供了理论依据。该模型揭露,有效的沟通包含三个要素:肢体语言、语调和语言内容,而它们的重要性在整个技能中的占比为55:38:7 [20],分别对应非语言视觉与听觉线索及文字信息本身。该模型强调,肢体语言和语调在传达情感与态度中起主导作用,而语言内容在情感传递中作用相对有限。
尽管梅拉比安模型源于人际沟通研究,但其应用于虚拟主播场景的理论合理性已获得CASA范式的充分支持。CASA范式相关研究表明,人类对媒介的社会反应是自动、迅速且无需深思熟虑的;只要媒介呈现出语言、视觉拟人化或互动性等社会线索,用户便会无意识地赋予其社会身份,并启用固化于认知中的人际交往脚本与之互动[16]。虚拟主播正是这类社会线索的高度集成体:其算法驱动的肢体动作与语调变化,提供了堪比真人的动态非语言线索,而基于自然语言处理生成的内容则构成了语言交互线索。在CASA所揭示的心理机制作用下,用户将虚拟主播视为具有社会属性的交互对象,其认知系统会以类似于处理人际沟通的方式,对虚拟主播不同渠道的沟通信号进行加工与响应。这从理论上确立了将梅拉比安模型从人际情境迁移至人机交互情境的合理性与预测效力。基于上述理论框架,本文将虚拟主播的具象化表达定义为其通过整合丰富的肢体语言、语调变化及语言内容等多维度沟通要素提升信息传达效果,从而影响受众认知与行为的过程。
从现有研究来看,尽管学者们已从不同角度探究了虚拟主播特征对消费者行为的影响,但关于虚拟主播肢体语言这一系统功能要素的研究仍存在明显空白。具体而言,Gao等聚焦于虚拟主播的静态视觉特征(如可爱度、生动性)对购买意愿的影响[4];Hedhli等考察了拟人化程度对消费者听从推荐意愿与购买意愿的作用[21];Li等则关注虚拟主播类型与感官线索显著性的交互效应[22];Guo等分析了主播特质(美貌、温暖、幽默)对观看和购买意愿的影响[23]。然而,这些研究均未系统考察虚拟主播肢体语言这一多维的表达系统对消费者心理与行为的独特影响机制。这一研究缺口限制了我们对虚拟主播作为社会影响者的完整理解,也制约了虚拟主播表达设计的系统优化。因此,为了深入探究虚拟主播肢体语言对消费者行为的影响,本文将身体姿势、手势、面部表情、及眼神作为衡量肢体语言的观测变量。
声音会影响听众对说话者的感知与行为。音高、能量、语速等声学变量在声音情感信号传递中起着关键作用[24]。Mehrabian等将文字内容中传达的三种态度分别与通过语调传达的三种态度程度结合,探究了一条信息的两个组成部分中态度传达不一致的情况[25]。De Waele等发现音调可能会影响听众的感知和投票行为[26]。Liu等探究了机器人接待员的音调和沟通方式之间的互动如何影响客户价值共创意愿[27]。虽然声音交流涉及多种声学维度,但音调变化是情感感知中显著的韵律特征,而强度和语速的贡献相对较小[24]。这与频率编码假说一致[28]。因此,本文选择音调变化作为衡量虚拟主播声音特性的声学线索。
语言内容主要是通过词汇、句子等语言形式来表达想法、观点、事实等,具体指的是语言文字。Yao等探索了虚拟主播的语言风格,即社交导向型与任务导向型,和产品类型如何交互影响消费者的购买意向[14]。Zhou等发现虚拟网红的背书内容侧重于近端感官体验时,消费者对虚拟网红(相较于真人网红)所背书的产品和服务的购买意愿更低[15]。基于以上研究,本文将虚拟主播的语言内容按语言风格分为社交导向类与任务导向类,将语言风格作为语言内容的观测变量,探究不同语言风格如何影响消费者的购买意愿。
2.3. 体验类产品
根据尼尔森的分类,产品可分为体验型与搜索型[29]。体验型产品(如彩妆、美食)的质量信息需在使用后才能获得,其评估依赖主观感受与情感互动;搜索型产品(如相机、电脑)则可在购买前通过客观信息评估其主要功能属性。研究指出,消费者在购买体验型产品时难以全面获取感知信息[30],因而更依赖情感线索;而在购买搜索型产品时则更关注产品详细信息[30]。
先前的研究已经证明产品类型会影响消费者的购买决策。不同类型的产品能够调节语言风格对产品销售的有效性,对于体验型产品,虚拟主播采用社交导向型语言比任务导向型语言更有效[14];对于搜索型产品,任务导向型语言则因提供完整功能信息而更具优势。此外,体验型个性化产品的潜在效益相对有限,常需商家额外协助消费者进行前期评估。那么,虚拟主播具象化表达是否会对不同类型产品的购买意愿产生不同的影响?本文以体验类产品为对象,探究虚拟主播的具象化表达如何影响体验类产品的购买意愿。
3. 研究假设与理论模型
3.1. 研究假设
3.1.1. 虚拟主播肢体语言的影响
肢体语言作为非语言交流中最复杂且可见的线索,能够有效促进情感和意义的传达。面部表情(如眼神交流、微笑)和身体动作(如手势、身体方向)等线索不仅补充了言语信息,还丰富了社交互动的体验感[31]。作为顾客满意度的有效传递载体,肢体语言通过情感连结显著增强服务互动中的关系亲和力,从而提升顾客对温暖的感知。此外,主播的肢体语言通过提升信息直观性和情感传递,强化用户对其专业能力的评估[32]。例如,虚拟主播的使用产品行为能够增强能力感知。同时,感知温暖与感知能力之间存在补偿效应,即二者呈正相关关系[14]。因此,本文认为虚拟主播丰富的肢体语言会促进消费者的感知温暖与感知能力的产生。
肢体语言对消费者决策与购买行为具有显著促进作用。首先,肢体语言能够建立信任感。非语言沟通比语言沟通更能传递真实情感,更容易获得消费者的信赖[33],进而增强其购买动机。例如,Orth发现销售人员的肢体接触能够增加客户信任,提升产品评估感知和购买意愿[34]。其次,非语言沟通能够使得观众在短时间内获取并理解更多信息,从而提高决策效率和购买决策的可能性[33]。在虚拟主播场景中,肢体语言同样重要。直接的眼神接触比间接眼神接触产生更高的感知可信度,而感知可信度是购买决策的重要驱动因素。直接凝视与面部表情以倒U形曲线影响观众的购买行为,表明适度的非语言互动最有利于产品推广,而不足和过度的肢体交流都会降低销售效果[35]。在视频营销中,过度使用肢体语言等非语言线索也可能抑制消费者的购买意愿,甚至产生反效果。因此,为了进一步厘清肢体语言与消费者感知与购买意愿的关系,本文提出以下假设:
H1a:肢体语言丰富(vs.肢体语言匮乏)会促进消费者产生更多的感知温暖。
H1b:肢体语言丰富(vs.肢体语言匮乏)会促进消费者产生更多的感知能力。
H1c:丰富的肢体语言(vs.肢体语言匮乏)对购买意愿的积极作用更显著。
3.1.2. 虚拟主播语调变化的影响
声调变化是传递情感信息、影响消费者感知与行为的重要线索。首先,丰富的声调变化能够传递热情、关怀等积极情绪,增强消费者的温暖感知。研究表明,高频变化的声调通常与亲和力相关[28],符合“关怀语式”特征的语调可激活社会认知网络中的温暖评价。其次,声调变化作为有效声学线索[35],有助于消费者识别情感意图,增强其对主播能力的感知并提升信息专注度。此外,声调变化对互动行为具有显著影响,能够拉近心理距离、增强信任,进而提高购买意愿。例如,语音助手的语调影响说服力感知[36]。此外,声调的变化、节奏等特征能够显著影响消费者感官体验与参与度,从而间接影响其购买意愿。据此,本研究认为,当虚拟主播使用丰富多变的声调,会促进消费者产生感知温暖与感知能力,更有可能增强消费者的购买意愿。
H2a:声调丰富多变(vs.声调平缓)会促进消费者产生更多的感知温暖。
H2b:声调丰富多变(vs.声调平缓)会促进消费者产生更多的感知能力。
H2c:声调丰富多变(vs.声调平缓)对购买意愿的积极作用更显著。
3.1.3. 虚拟主播说话内容的影响
语言在消费者决策中扮演关键角色,其风格变化显著影响消费者感知与行为[37]。已有研究从多个维度探讨语言风格的作用,如主观与客观语言、感官语言、情感与理性语言,以及高低唤醒度语言等。根据刻板印象内容模型,社交导向型语言注重情感交流与关系建立,有助于激发消费者的感知温暖,增强情感共鸣与亲近感[38];而任务导向型语言则侧重于传递产品功能信息,风格简洁明确,有助于提升消费者的感知能力与需求满足效率。在体验类产品情境中,社交导向型语言更能激发消费者的情感共鸣与互动意愿,从而有效促进购买决策;相比之下,任务导向型语言虽提供清晰信息,但对情感共鸣与购买意愿的激发作用较弱[14]。基于此,本研究提出以下假设:
H3a:社交导向型语言(vs.任务导向型语言)会导致更多的温暖感知。
H3b:任务导向型语言(vs.社交导向型语言)会导致更多的能力感知。
H3c:社交导向型语言(vs.任务导向型语言)对购买意愿的积极作用更显著。
3.1.4. 感知温暖与感知能力的中介作用
在消费行为研究中,虚拟主播的肢体语言(如微笑、手势)能够传递亲和力并强化信息表达,从而增强消费者的感知温暖与感知能力。其次,声调的丰富变化有助于建立情感连接,并提升消费者对信息重点的捕捉能力。此外,语言风格亦显著影响情绪反应[8]。社交导向型语言通过强调情感互动增强温暖感知,而任务导向型语言则通过聚焦产品知识与问题解决提升能力感知。
研究进一步表明,感知温暖与感知能力对消费者态度与行为意向具有积极影响。感知温暖体现为友善与关怀,有助于建立情感联结并提升购买意愿[39];感知能力则反映专业性,通过有效传递产品信息促进购买决策[12]。二者在拟人化程度与服务结果(如满意度、行为意向)之间均发挥中介作用,并在虚拟主播的拟人化与消费者行为之间构成关键机制[21]。根据刻板印象内容模型,感知温暖与感知能力虽相对独立,但也存在相互影响。据此,本文提出以下假设:
H4:感知温暖正向中介了肢体语言(a)、声调(b)、语言内容(c)对购买意愿的影响。
H5:感知能力正向中介了肢体语言(a)、声调(b)、语言内容(c)对购买意愿的影响。
3.2. 理论模型
刻板印象是个体关于某一社会群体成员相对稳定的观念与期望,构成了一种特定的社会认知图式。从进化心理学视角看,早期人类为适应生存环境,需在面对陌生人时迅速判断其意图(友善或敌对)及执行意图的能力(是否构成威胁)。基于这一进化逻辑,Fiske等人提出了刻板印象内容模型(SCM) [40],为系统研究个体与群体认知提供了理论框架。该模型指出,刻板印象主要由“能力”与“热情”两个基本维度构成:热情维度涉及对他人意图的感知,如友好、善良、真诚与可信等特质;能力维度则关注个体实现意图的技能,包括智力、专业素养、创造力与工作效率等[41]。当前,热情与能力作为社会认知的核心维度,二者间的关系已成为学界广泛探讨的重要议题。
现有研究证实,SCM在市场营销、人机交互等领域具有广泛解释力。该模型认为,热情与能力维度可通过社会线索激活,并进一步影响消费者的满意度、信任及购买行为。具体而言,在服务业中,二者共同影响客户满意度与忠诚度;在服务机器人研究中,享乐型场景更易激发用户对热情特质的关注,而功利型场景则更侧重能力特质;在直播电商情境下,虚拟主播所展现的温暖与能力特征也被证实有助于增强用户关系并提升购买意愿[42]。尽管上述研究揭示了SCM在不同领域中的作用机制,虚拟主播在具体表达层面如何影响消费者的热情—能力感知,仍有待深入探讨。因此,本研究基于梅拉比安沟通模型,采用分组实验分别测量三类线索的独立影响:实验1验证视觉线索对温暖度与能力水平的作用;实验2检验听觉线索对感知评价的影响;实验3分析语言线索与消费者感知的联系,为虚拟主播表达设计提供模块化优化依据。研究理论模型见图1。
Figure 1. Research framework
图1. 理论模型
4. 研究设计
4.1. 量表设计
本文将情境实验与问卷调查结合收集数据。本研究根据Yao等的实验结果[14],选择虚拟品牌的沐浴露作为体验类产品。根据经济学与消费者行为学理论,沐浴露满足体验类产品的体验属性与低可搜索性,此外,沐浴露的核心价值需要体验后才能验证。感知温暖与感知能力的4个题项均来自Cuddy和Fiske的研究[40]。购买意愿的3个题项来自Chen和Lu的研究[43]。在商务直播中,社交导向型语言和任务导向型语言是主播常用的两种语言风格。因此,本文将实验三语言内容分为社交导向型与任务导向型,并借鉴Van Dolen等改编的量表进行测量[44],具体问项根据实际情境进行调整。有关测量题项的具体信息见表1。
4.2. 问卷设计
为验证虚拟主播具象化表达对体验类产品购买意愿的影响机制,本研究通过在线调研平台“见数”发放问卷进行数据采集。问卷设计包含两个部分:第一部分采用组间实验设计,将被试随机分配至两种实验情境之一(实验一:低肢体语言水平vs.高肢体语言水平;实验二:低语调变化组vs.高语调变化组;实验三:社交导向语言组vs.任务导向语言组),每种实验情境的暴露时间严格控制在30秒,被试浏览完相应材料后,需对感知到的表达特征水平进行评估,并依次填写对虚拟主播温暖感与能力感的感知评价,
Table 1. Measurement items
表1. 变量及题项
变量 |
测量问项 |
来源 |
感知温暖 |
1. 我认为虚拟主播很和蔼 |
Cuddy和Fiske (2008) [40] |
2. 我不认为虚拟主播对顾客别有用心(反向题) |
3. 我认为虚拟主播始终以顾客的最佳利益为出发点 |
4. 我认为虚拟主播很真诚 |
感知能力 |
1. 我觉得虚拟主播很能干 |
2. 我觉得虚拟主播很高效 |
3. 我认为虚拟主播有能力实现其意图 |
4. 我认为虚拟主播很熟练 |
社交导向 |
1. 我认为虚拟主播有兴趣与顾客进行社交。 |
Van Dolen等(2007) [44] |
2. 我认为虚拟主播很友好并且关心顾客。 |
3. 我认为虚拟主播试图亲近顾客。 |
4. 我认为虚拟主播喜欢交谈并让顾客放松。 |
任务导向 |
1. 我认为虚拟主播有明确的目标导向。 |
2. 我认为虚拟主播努力提供信息。 |
3. 我认为虚拟主播希望直播能提供丰富的信息,让顾客了解产品。 |
4. 我认为虚拟主播主要关心的是他/她所推广产品的细节。 |
购买意愿 |
1. 我将购买主播在他/她的直播中推销的产品 |
Chen和Lu (2017) [43] |
2. 我打算购买该主播在其直播中推广的商品 |
3. 我会把这个主播的直播间作为我的首选购物选择 |
以及产品购买意愿量表。所有量表均采用7点Likert量表(1 = “非常不同意”,7 = “非常同意”)进行测量。第二部分收集人口统计信息,包括性别、年龄、教育程度与收入水平。
4.3. 样本选择与数据收集
为了确保每组情景实验对关键变量的有效操纵,在正式实验开始前展开了预调研。该阶段分别收回有效问卷58、66、63份。根据探索性因子分析结果显示,三组预实验所有潜变量的KMO值均在0.7~0.839,高于0.7的接受标准,且每个潜变量的测量项因子均具有较好的区分度并保持在同一维度。这表明,问卷设计合理,能够反映因子的含义,且量表内部结构较好。随后,独立样本t检验结果表明,预实验一中,低肢体语言水平组的均值显著低于高肢体语言水平组(
,
,
,
, t = −2.232, p = 0.031 < 0.05);预实验二中低语调变化组的均值显著低于高语调变化组(
,
,
,
, t = −2.534, p = 0.014 < 0.05);预实验三中社交导向型语言情境下的社交导向水平显著高于任务导向水平(
,
,
,
, p < 0.001);任务导向型语言情境下的社交导向水平低于任务导向水平(
,
,
,
, p < 0.001)。三组实验的自变量操纵均有效。
随后,使用线上平台正式发放三组问卷分别收回279、251、250份,剔除无效问卷后,最终得到有效问卷240、221、206份。数据采纳率分别为86%,88%,82.7%,该样本量达到结构模型中指向特定变量最大路径数10倍以上,满足偏最小二乘结构方程模型(PLS-SEM)的最小样本量要求。
5. 实证分析
本研究采用基于SmartPLS 3软件的PLS-SEM进行数据分析。选择该方法主要基于以下考量:首先,该方法主要适用于探索性研究,与本研究的性质高度契合;其次,本研究数据不符合正态分布要求,表明PLS-SEM相较基于协方差的结构方程模型(CB-SEM)更具适用性;最后,PLS-SEM能够提供比CB-SEM更高的统计效力。
5.1. 描述性统计分析
三组实验的人口统计信息见附表1。通过独立样本t检验,高肢体语言水平得分显著高于低肢体语言水平得分(
,
,
,
, p < 0.001);实验二高语调变化组(M = 6.97, SD = 2.053)会比低语调变化组(M = 5.49, SD = 2.323)涉及更多的语调变化,两者之间存在显著差异(t = −5.043, p < 0.001);在社交导向型语言情境下,社交导向水平显著高于任务导向水平(
,
,
,
, p < 0.001)。在任务导向型语言情境下,任务导向水平显著高于任务导向水平(
,
,
,
, p < 0.001),实验操纵成功。
5.2. 测量模型检验
本研究通过评估各构念的信度与效度对测量模型进行检验。由表2可知,三组实验各项Cronbach’s α与组合信度(CR)均大于0.7的阈值[45],说明所有潜在构念都具有良好的内部一致性[46]。通过平均方差提取值(AVE)来检验收敛效度。三组实验的AVE值都在0.544~0.734,高于0.5的建议阈值[47]。所有构念的AVE平方根值均大于与其他构念的相关系数,表明具有良好的区分效度[45]。
本研究采用加入共同方法因子(CMF)的验证性因子分析检验是否存在共同方法偏差。使用AMOS.26测量模型在有无共同潜变量的情况下,模型的拟合度对比。与原模型相比,三组实验加入CMF的模型各项指标变化量均小于0.03,且单因子模型的各项拟合指标与其他模型相比最差,因此,本研究的共同方法偏差问题并不严重。
Table 2. Reliability and validity of variables
表2. 信度与效度表
变量 |
实验1 |
实验2 |
实验3 |
α |
CR |
AVE |
α |
CR |
AVE |
α |
CR |
AVE |
感知温暖 |
0.866 |
0.868 |
0.624 |
0.863 |
0.867 |
0.622 |
0.857 |
0.86 |
0.607 |
感知能力 |
0.842 |
0.844 |
0.576 |
0.899 |
0.9 |
0.692 |
0.825 |
0.826 |
0.544 |
社交导向 |
|
|
|
|
|
|
0.871 |
0.873 |
0.633 |
任务导向 |
|
|
|
|
|
|
0.866 |
0.867 |
0.62 |
购买意愿 |
0.888 |
0.892 |
0.734 |
0.812 |
0.817 |
0.598 |
0.799 |
0.813 |
0.596 |
5.3. 结构模型检验
5.3.1. 直接效应检验
本文使用SmartPLS4.1建立PLS-SEM来验证假设。结果见表3。具体而言,虚拟主播的肢体语言对感知温暖具有较强的正向作用(β = 0.354, SE = 0.055, 95% CI = [0.241, 0.459]);而对感知能力的促进作用相对较弱(β = 0.33, SE = 0.058, 95% CI = [0.207, 0.436]);表明肢体语言更易激发消费者的感知温暖。同时,肢体语言对购买意愿存在显著直接效应(β = 0.284, SE = 0.055, 95% CI = [0.176, 0.392])。H1a、H1b和H1c成立。此外,性别(β = −0.025, SE = 0.1, 95% CI = [−0.219, 0.173])、年龄(β = 0.001, SE = 0.054, 95% CI = [−0.104, 0.11])、收入(β = 0.047, SE = 0.058, 95% CI = [−0.065, 0.162])对购买意愿均无显著影响,说明消费者对虚拟主播行为的反应在不同人口统计特征中表现一致。
Table 3. Results of hypothesis testing
表3. 假设检验结果
假设 |
std. (β) |
S.E. |
T-values |
结果 |
H1a |
肢体语言–感知温暖 |
0.354*** |
0.055 |
6.408 |
成立 |
H1b |
肢体语言–感知能力 |
0.33*** |
0.058 |
5.685 |
成立 |
H1c |
肢体语言–购买意愿 |
0.284*** |
0.055 |
5.149 |
成立 |
H2a |
语调–感知温暖 |
0.632*** |
0.042 |
14.881 |
成立 |
H2b |
语调–感知能力 |
0.538*** |
0.053 |
10.103 |
成立 |
H2c |
语调–购买意愿 |
0.285** |
0.077 |
3.693 |
成立 |
H3a |
社交–感知温暖 |
0.551*** |
0.061 |
9.01 |
成立 成立 |
任务–感知温暖 |
0.042 |
0.062 |
0.68 |
H3b |
社交–感知能力 |
0.051 |
0.06 |
0.856 |
成立 成立 |
任务–感知能力 |
0.555*** |
0.054 |
10.19 |
H3c |
社交–购买意愿 |
0.249** |
0.089 |
2.781 |
成立 |
任务–购买意愿 |
0.112 |
0.082 |
1.365 |
注:*表示 < 0.05,**表示 < 0.01,***表示 < 0.001。
实验二结果显示,语调变化与感知温暖(β = 0.632, p < 0.001)和感知能力(β = 0.538, p < 0.001)均呈显著正相关,支持假设H2a和H2b;同时,语调变化越丰富,对购买意愿的提升作用越明显(β = 0.285, p < 0.001),假设H2c成立。实验三进一步比较了语言风格的影响,结果表明,相较于任务导向型语言(β = 0.042, p > 0.05),社交导向型语言更能提升消费者感知温暖(β = 0.551, p < 0.001);而在感知能力方面,任务导向型语言的影响更强(β = 0.555, p < 0.001),社交导向型语言则无显著作用(β = 0.051, p > 0.05)。此外,社交导向型语言对购买意愿具有显著正向影响(β = 0.249, p < 0.01),而任务导向型语言的影响不显著(β = 0.112, p > 0.05)。据此,H3a,H3b,H3c通过验证。任务导向型语言在直接路径中未显著影响购买意愿,可能源于其过度强调信息传递而削弱了情感联结,从而限制了行为驱动效果。
5.3.2. 中介效应检验
采用bootstrap方法验证感知温暖与感知能力的中介效应(见表4)。结果显示,感知温暖通过肢体语言影响购买意愿的标准化间接效应值为0.117,其95%的置信区间不包含零值(CI = [0.06, 0.192]),表明中介效应显著,H4a得到验证。而感知能力的间接效应值为0.083 (CI = [0.036, 0.144]),支持假设H5a。虽同样达到显著性水平(p < 0.01),但其效应量较感知温暖降低28.9% (Δβ = 0.034)。这一差异可从认知加工理论角度进行解释:在消费者决策中,情感驱动的“热认知”路径通常优先于理性驱动的“冷认知”路径,因此以温暖为代表的情感性中介机制表现出更强的解释力。
Table 4. Results of mediation effect test
表4. 中介效应检验结果
假设 |
中介路径 |
中介效应 |
95% BC-CI |
结果 |
Lower |
Upper |
H4a |
肢体语言–温暖–购买意愿 |
0.117*** |
0.06 |
0.192 |
成立 |
H5a |
肢体语言–能力–购买意愿 |
0.083** |
0.036 |
0.144 |
成立 |
H4b |
语调–温暖–购买意愿 |
0.137** |
0.04 |
0.239 |
成立 |
H5b |
语调–能力–购买意愿 |
0.167*** |
0.088 |
0.248 |
成立 |
H4c |
社交–温暖–购买意愿 |
0.169** |
0.074 |
0.275 |
成立 |
任务–温暖–购买意愿 |
0.013 |
−0.025 |
0.053 |
不成立 |
H5c |
社交–能力–购买意愿 |
0.008 |
−0.009 |
0.038 |
不成立 |
任务–能力–购买意愿 |
0.091* |
0.002 |
0.181 |
成立 |
Note: BC-CI = bias-corrected confidence interval.
虚拟主播的语调变化通过感知温暖(β = 0.137, p < 0.01, 95% CI = [0.04, 0.239])与感知能力(β = 0.167, p < 0.001, CI = [0.088, 0.248])两条路径间接影响购买意愿,假设H4b与H5b均获支持。值得注意的是,感知能力的中介效应更强,说明在语调线索的加工中,消费者更依赖能力感知作为理性决策的依据,反映出认知路径中对专业性的重视。
实验三的路径检验结果(见图2)揭示了语言风格与感知路径的特异性关联:感知温暖的中介作用仅在社交导向型语言条件下显著(CI = [0.074, 0.275]),而在任务导向型语言条件下不显著(CI = [−0.025, 0.053]);与之相反,感知能力的中介作用仅在任务导向型语言条件下显著(CI = [0.002, 0.181]),在社交导向型语言条件下不显著(CI = [−0.009, 0.038]),因此H4c与H5c均得到部分证实。这一分化模式源于两种语言风格所激活的截然不同的认知加工路径。社交导向型语言作为一种关系构建信号,其内容与“温暖”特质高度契合,能有效触发情感处理路径,从而通过提升感知温暖间接驱动购买意愿;然而,它未能提供证明专业性的有效线索,故无法显著提升感知能力。反之,任务导向型语言旨在传递工具性信息,其内容直接展示了主播的专业知识与逻辑严谨性,故而能有效激活分析式认知路径,并通过增强感知能力的中介作用影响决策;但由于其内容与评估主播真诚、友善等温暖特质的关联性极弱,因此对感知温暖的提升作用有限,无法形成有效的中介通路。
Figure 2. Mediation model effect of verbal communication
图2. 说话内容中介模型效应
综合比较各表达维度的效应量与路径机制可知,语调变化在直接与间接路径中均表现出较高的整体效能,其总间接效应最强(β = 0.304),且能同时激活感知温暖与感知能力的双重中介路径。因此,实践层面建议优先优化虚拟主播的语调表现,肢体语言与说话内容次之,以在有限资源条件下实现消费者感知与行为意图的协同提升。
6. 研究结论与对策建议
6.1. 研究结论
本研究考察了虚拟主播的具象化表达对体验类产品购买意愿的影响并得出以下主要结论。第一,商业直播中,肢体语言丰富的虚拟主播比缺少肢体语言的主播更能促进消费者的购买意愿。第二,推广体验类产品时,语调变化丰富的虚拟主播会让消费者感到更亲切,提升对其能力的感知,进而提高购买意愿。第三,在体验类产品购买过程中,消费者对使用社交导向型语言的虚拟主播直播间表现出更高的购买意愿,而任务导向型语言的直播间则相对较低。第四,感知温暖和感知能力均在肢体语言与语调变化对购买意愿的影响中起到促进作用。然而,感知温暖仅在社交导向型语言条件下显著促进购买意愿,感知能力则仅在任务导向型语言条件下发挥作用。
6.2. 对策建议
随着虚拟主播在现代数字营销和消费文化中的影响力日益增加,虚拟主播成为了网络直播、娱乐、社交和电子商务等多个领域的重要角色。本文的研究结果表明,虚拟主播的具象化表达对体验类产品的购买意愿存在显著的正向影响。
首先,从具象化表达角度促进了虚拟主播的开发设计。在直播推广体验类产品时,虚拟主播的开发应注重非语言与语言线索的系统整合。对于非语言线索来说,相对于肢体语言匮乏、语调平淡的虚拟主播的直播间,那些拥有丰富肢体语言及语调变化的虚拟主播,能够增强消费者对虚拟主播情感温度与业务潜能的感知程度,引导消费者在与虚拟主播的互动交流中,既体会到虚拟主播传递出的暖心关怀,又能察觉到其在产品推广、问题解答等直播业务环节中的能力。因此,对于生产体验类产品的品牌方来说,在虚拟主播的非语言表达设计方面,建议构建系统化的动作与语调库。具体而言,应开发分场景肢体动作模板,针对体验类产品重点设计包含产品使用模拟、情感表达等三类以上典型动作。同时建立动态语调体系,在产品展示环节采用升调强调关键信息,在情感沟通时使用降速缓和的语调模式,并确保动作与语调的协调匹配。
其次,在语言策略设计方面,社交导向语言主要通过激发感知温暖来促进购买意愿,而任务导向语言则侧重通过提升感知能力影响消费决策。研究表明,社交导向语言对体验类产品购买意愿具有直接促进作用,而任务导向语言需通过能力感知的中介路径产生间接影响。这一发现揭示了不同语言风格对消费者心理的差异化作用机制。因此,在设计开发虚拟主播用于推广体验类产品时,应依据社交导向与任务导向语言的不同作用机制进行针对性配置。社交导向语言能有效建立情感联结,建议在直播全程保持较多占比,重点运用于开场互动、使用场景描述及用户情感回应等环节,用语宜贴近目标受众的日常表达习惯。任务导向语言则适用于产品功能演示、技术参数说明等专业内容阐释环节,通过精准的专业术语和结构化表达强化信息可信度。语言表达还需与非语言线索形成协同。在社交导向表达时配合开放的肢体动作与富有变化的语调,在任务导向陈述时保持姿态稳定、语调沉稳,通过多模态表达的有机统一,最大化提升传播效果。
最后,品牌合作与营销策略层面,建议构建虚拟主播表达风格与品牌定位的精准匹配体系。具体而言,高端品牌宜采用动作舒缓、语调平稳的表达方案以传递其优雅与专业,而大众品牌则可选择动作丰富、语调多变的活泼风格以营造亲和力。为确保品牌内核与主播表达的高度统一,建议建立品牌方与运营团队的双向协同机制,通过多轮内容校准会,共同规划直播脚本与表达设计。在内容架构上,可依据“基础信任建立–情感联结强化–沉浸体验打造”的逻辑层次进行配置,重点统筹社交导向与任务导向语言的运用节奏,从而形成一个从表达设计、内容执行到效果优化的完整运营闭环。
基金项目
本文为一般项目–面上项目(用户对客服机器人算法厌恶的形成机理与治理路径研究) (项目号:2025JC-YBMS-831)研究成果之一。
附 录
Table A1. Demographic information of the participants
表A1. 人口统计信息
|
实验1 (N = 240) |
实验2 (N = 221) |
实验3 (N = 206) |
数量 |
比例 |
数量 |
比例 |
数量 |
比例 |
性别 |
男性 |
109 |
45.40% |
81 |
36.70% |
87 |
42.20% |
女性 |
131 |
54.60% |
140 |
63.30% |
119 |
57.80% |
年龄 |
18~25 |
25 |
10.40% |
28 |
12.70% |
27 |
13.10% |
26~35 |
161 |
67.10% |
139 |
62.90% |
126 |
61.20% |
36~45 |
48 |
20% |
48 |
21.70% |
51 |
24.80% |
≥46 |
6 |
2.50% |
6 |
2.70% |
2 |
1% |
学历 |
普高及以下 |
16 |
6.70% |
15 |
6.80% |
7 |
3.40% |
专科 |
80 |
33.30% |
55 |
24.90% |
43 |
20.90% |
本科 |
135 |
56.30% |
136 |
61.50% |
137 |
66.50% |
硕士及以上 |
9 |
3.80% |
15 |
6.80% |
19 |
9.20% |
NOTES
*通讯作者。