1. 引言
当前,全球经济正在经历一场以数字化为核心特征的深刻变革。数字经济不仅成为重塑全球竞争格局的关键力量,更是驱动各国高质量发展的核心引擎[1]。在这一宏观图景下,电子商务作为数字经济中最活跃、渗透率最高的组成部分,其内涵与外延正在发生剧烈变化。根据最新的文献计量分析显示,数字经济背景下的电子商务研究已经超越了传统的在线交易范畴,深度融合了数字化转型、平台经济理论以及大数据驱动模型。特别是在“互联网+”行动计划及“十四五”规划等国家战略的推动下,电子商务已成为连接数字技术与实体经济的桥梁,其发展重点从单纯的规模扩张转向了质量提升与模式创新[2]。
直播电商作为电子商务演进的高级形态,正是这一宏观趋势的典型缩影。它不仅仅是销售渠道的变革,更是“内容 + 社交 + 技术”三元驱动下的商业范式重构。随着5G、云计算、物联网等数字基础设施的完善,直播电商打破了传统电商的图文静态展示限制,通过高实时性、高互动性的视听语言,重构了“人、货、场”的连接逻辑[3]。然而,随着流量红利的逐渐消退,行业发展面临着新的瓶颈,迫切需要从“流量驱动”向“技术驱动”转型。这一转型与数字经济整体向“技术创新”与“新质生产力”跃迁的轨迹高度一致[4]。
在此进程中,人工智能(AI)技术的爆发式增长扮演了决定性角色。生成式人工智能(AIGC)、大语言模型(LLM)以及扩展现实(XR)技术的应用,正在从根本上重塑直播电商的底层逻辑[5]。内容生产机制正从依赖人工创意的劳动密集型模式,转向由算法驱动的自动化生成模式;交互主体逐渐突破物理限制,呈现出从真人主播向高保真虚拟数字人(Virtual Humans)演进的趋势[6];分发机制亦从浅层的协同过滤,升级为基于深层意图理解的智能推荐[7]。这种技术与商业的深度互构,虽然极大地提升了供应链效率与用户体验,但也同步引发了关于算法伦理、大数据杀熟、版权归属以及人机协同边界等一系列复杂的社会科学议题[8]。因此,在智能化转型的关键节点,厘清人工智能视域下直播电商的知识演进脉络,对于指导产业实践与完善行业治理具有重要的理论价值。
2. 数据来源与研究方法
2.1. 数据来源
本研究的数据采集工作依托中国知网(CNKI)学术期刊数据库进行,该数据库覆盖了国内绝大多数高质量的社会科学与技术类文献。为确保样本的权威性与代表性,文献来源被严格限定为“CSSCI”(中文社会科学引文索引)及“北大核心”(中文核心期刊要目总览)收录期刊。这一筛选标准与数字经济领域经典文献计量研究保持一致,旨在剔除低质量或缺乏学术严谨性的边缘文献,确保分析结果的信度。在检索策略上,本文采用“主题”精确匹配方式,构建了涵盖产业形态与技术维度的组合检索式。考虑到直播电商涉及的技术谱系日益复杂,检索逻辑设定为:“直播电商”或“直播带货”或“电商直播”与“人工智能”或“AI”或“算法”或“大数据”或“虚拟人”或“AIGC”的交集。检索时间跨度从2015年1月截至2025年12月。
在数据清洗阶段,研究团队通过人工判读与关键词过滤相结合的方式,剔除了“农业工程”领域中关于“激光间苗”等虽然包含相关技术关键词但完全脱离商业逻辑的技术类文献。同时,去除了会议综述、征稿启事及无作者条目。值得注意的是,针对数字经济背景下的交叉议题,本研究特意保留了涉及“乡村振兴”、“跨境贸易”及“供应链管理”等宏观经济主题的文献,以便后续进行跨维度的关联分析。随后,利用Jieba中文分词工具对文献的题目、摘要及关键词进行切分,并加载包含“本文”、“研究”、“分析”等60余个高频通用词的停用词表以消除噪音干扰,最终获得有效核心文献样本共计1169篇。
2.2. 基于BGE-BERTopic的深度文本挖掘架构
在研究方法层面,鉴于传统LDA模型在处理短文本时面临的数据稀疏问题,本文创新性地引入BERTopic主题建模框架[9]。该方法结合了Transformer预训练模型与c-TF-IDF算法,具体技术路径如图1所示。首先,研究加载了由北京智源人工智能研究院发布的中文预训练语言模型BAAI/bge-large-zh-v1.5。该模型拥有3.26亿参数量,在中文文本嵌入基准中表现优异。通过该模型,1169篇文献摘要被转化为1024维的高维稠密向量。这一步骤的核心优势在于其强大的语义捕捉能力,使得“数字人”与“虚拟主播”、“推荐算法”与“猜你喜欢”等语义相近但字面不同的词汇在向量空间中能够保持极高的相似度,从而有效解决了传统共词分析中“多词一义”的识别难题。
在完成文本的向量化表征后,本文采用UMAP算法对高维数据进行降维处理。为了兼顾文献语义的局部细节与全局分布特征,UMAP的邻域大小(n_neighbors)设定为15,目标维度(n_components)降至5维,并采用余弦相似度(cosine)作为度量指标;同时,将最小距离(min_dist)设为0以确保降维后的数据点在语义空间中尽可能紧凑,从而优化聚类效果。在关键的聚类阶段,考虑到传统的HDBSCAN算法在处理高密度文本时容易产生过度合并现象,本研究改用经典的K-Means聚类算法进行强制切分,并固定随机种子(random_state = 42)以确保研究结果的可重复性。经过多次指标测算与对比,最终将聚类数设定为12,从而将语义空间划分为边界清晰、颗粒度适中的12个独立议题簇。最后,为了实现对各个聚类的学术定性,本文应用c-TF-IDF算法[10],将同一聚类下的所有文档视为一个整体进行权重计算,公式如下:
其中,
表示词
在类别
中的词频,
为包含词t的类别总数,A为类别总数。通过该算法,本文成功从每个聚类中提取出“信息茧房”、“情感计算”、“产教融合”等高辨识度的核心关键词,完成了对12个主题的学术定性。
Figure 1. BGE-BERTopic-based topic mining framework for live-streaming e-commerce
图1. 基于BGE-BERTopic的直播电商领域主题挖掘研究框架
3. 研究概况
3.1. 发文数量演进
Figure 2. Time distribution of research publications on live e-commerce from the perspective of AI, 2015~2025
图2. 2015~2025年人工智能视域下直播电商研究发文量趋势图
研究文献发文量是科研活动在某一阶段的绝对产出成果的现实体现,可以反映学术界对相关研究领域的关注度和活跃度。结合CNKI检索数据及数字经济宏观背景分析,人工智能视域下直播电商研究发文量整体呈显著的上升趋势,但在2025年步入高位平台期,如图2所示。这一增长轨迹与国家数字经济政策的密集出台及关键技术的突破节点高度耦合。演进历程可清晰划分为三个阶段:起步探索期主要关注“直播 + 电商”的商业模式创新,技术仅被视为辅助工具;爆发增长期受疫情与5G催化,技术赋能成为核心,关于精准营销与算法推荐的实证研究大幅增加;而近期受AIGC驱动,研究进入深化转型期,关于虚拟人、AIGC内容生产及算法伦理的讨论热度首次超过传统营销议题,标志着研究重心从应用层面的效能提升,转向对技术本体论及伦理风险的深度反思。
3.2. 关键词共现网络
为从整体上把握人工智能视域下直播电商研究的热点结构,本文构建了关键词共现网络图,如图3所示。从拓扑结构来看,该领域研究呈现出以“技术”为核心枢纽,向“平台载体”、“用户交互”、“商业应用”与“合规治理”四个维度辐射的多中心协同网络特征。具体而言,形成了以“传播、媒介”为核心的宏观融合视域,将直播电商视为技术驱动的社会性媒介现象;以“算法、推荐”为核心的底层机制逻辑,揭示了信息分发与用户决策的微观机理;以“人工智能、消费者”为核心的商业应用场景,关注AI技术在带货场景中的效能;以及以“平台、治理”为核心的产业生态规制,反映了对版权保护、算法责任及税收征管等法律问题的关注。这一图谱揭示了该领域研究已超越早期的“流量变现”逻辑,形成了“技术赋能–平台支撑–算法驱动–法律规制”四位一体的复杂知识体系[11]。
Figure 3. Keyword co-occurrence network map of live e-commerce research from the perspective of AI
图3. 人工智能视域下直播电商研究的关键词共现网络图
3.3. 研究主体分布
在研究主体结构方面,依据普赖斯定律与社会网络分析,该领域虽然涌现出部分高产作者,但核心作者群的贡献率尚未达到成熟学科的理论预期,呈现出“大分散、小聚焦”的形态。具体数据表明,黄楚新以13篇的权重位居核心作者首位,显示出较强的学术影响力,其次是郭全中(7篇)、王丹(7篇)及彭兰(6篇)。然而,高产作者列表在头部之后迅速呈现长尾分布,权重在4及以下的作者占据了绝大多数,如匡文波、左志新等。这表明研究正处于爆发式增长后的“大浪淘沙”阶段,尚未形成具有学术影响力的紧密学术共同体。
从机构分布来看,发文量前十的机构中有9所明确隶属于新闻传播学科,显示出明显的“传播学转向”。根据机构权重统计,中国人民大学新闻学院以29的高权重位居榜首,成为该领域的“学术重镇”;紧随其后的是暨南大学新闻与传播学院(23)与清华大学新闻与传播学院(19)。值得注意的是,中国传媒大学展现了“集团军”作战的特点,其下属的电视学院、新闻学院、广告学院等多个二级学院均进入高权重列表,显示出该校在直播电商研究领域的全方位布局。这与传统电商研究由经管学院主导的格局形成鲜明对比,反映了在人工智能介入下,直播电商的底层逻辑已让位于以内容生产、人机交互与视听场景构建为核心的传播学议题。
Figure 4. Scientific research collaboration network map of live e-commerce studies from the perspective of AI
图4. 人工智能视域下直播电商研究的科研合作网络图谱
此外,科研合作网络图谱(图4(a),图4(b))揭示了显著的“碎片化”与“孤岛效应”。在作者合作网络(图4(a))中,虽然形成了以黄楚新、郭全中为核心的较大规模合作子群,以及丁宁、王建民等构建的局部网络,但整体上大量节点(如彭兰、胡泳等)仍处于相对独立的“原子化”状态,缺乏跨团队的连通性。机构合作网络(图4(b))同样印证了这一点,合作连线多集中在同一高校内部(如中国传媒大学各学院之间)或地缘相近的机构之间,作者和机构的合作多局限于内部循环,跨学科及跨区域的协同创新亟待加强,这与数字经济研究中普遍存在的合作稀疏现象相吻合。
4. 主题聚类与深度解析:从流量连接到数智生成
4.1. 关键词语义聚类与微观知识结构透视
为进一步验证宏观主题演化的微观基础,本研究对1169篇文献的“关键词”字段进行了BGE-BERTopic深度聚类分析。相较于摘要文本,关键词是作者对核心研究内容的精准提炼。分析结果显示,如图5所示,该领域已形成10个边界清晰的语义词群,并根据内在逻辑构成了“技术–产业–社会”互构的五大微观知识维度。首先,智能技术与媒资融合维构成了直播电商的技术底座与媒介环境,其中规模最大的“人工智能与媒体治理”词群(Topic 0)以及“融媒变革”词群(Topic 3),表明学界始终在一个宏大的媒介生态视角下审视技术变革,反映了直播电商作为一种新型媒介形式,正在加速传统广电媒体的移动化与基层化转型。其次,算法影响力与内容生产维揭示了内容分发与生产方式的根本性变革,既包含直指流量分配逻辑及其负面效应的“算法推荐机制”词群(Topic 1),也涵盖代表前沿内容形态的“虚拟与元宇宙”词群(Topic 9),标志着研究焦点正从二维屏幕向三维沉浸式空间延伸,技术对“人”的替代与增强成为新热点[12]。
Figure 5. Keyword cluster distribution of live e-commerce research from the perspective of AI
图5. 人工智能视域下直播电商研究关键词聚类分布
在此基础上,研究显示直播电商正在向垂直领域纵深发展,形成了产业应用与垂直深化维。其中,“乡村振兴”词群(Topic 7)体现了技术红利向边缘地区的渗透与普惠价值,而“产教融合”词群(Topic 5)则揭示了知识类直播的兴起以及行业对数字化复合型人才的迫切需求。在交互主体与消费行为维度,研究不仅通过“消费者心理”词群(Topic 6)关注购买意愿与信任等实证议题,更通过“数字劳动”词群(Topic 2)深度反思算法系统对主播这一新兴劳动者的劳动权益保障困境问题,具有极强的人文关怀色彩。最后,随着产业野蛮生长,法律规制与版权保护维日益凸显,“版权治理”词群(Topic 8)与“文化传播”词群(Topic 4)明确指向了短视频与直播切片引发的知识产权新难题,反映了如何在合规前提下实现文化的有效出海也是当前的重要议题。
4.2. 主题聚类——“流量连接”到“数智生成”的五维图谱
为了突破传统主题模型在短文本处理上的语义稀疏性局限,本研究采用K-Means聚类算法对BGE向量化后的文献进行深度挖掘。在确定聚类数K时,本研究综合平衡了统计收敛效率与语义颗粒度。如图6所示,通过测算
区间内的误差平方和Sum of Squared Errors (SSE)的边际改进(∆SSE)发现:虽然随着K值的增加,误差平方和的下降量整体呈波动趋势,但在K = 12处呈现出显著的局部最优值(∆SSE = 2.87)。紧随其后的是K = 13处的增益急剧收缩(降至1.38),跌幅达51.9%。这一统计学上的“边际收益断层”表明,K = 12是模型在进入低效碎片化切分阶段前的最优拐点。本研究未选取K < 10的数据,主要由于低K值虽具有较高的全局统计降幅,但会导致“聚类不足(Under-clustering)”,使得“虚拟数字人”、“乡村振兴”等极具前沿价值的异质性议题被过度合并,无法满足本研究对细分议题全面覆盖与精准刻画的需求。
Figure 6. Distribution of marginal ımprovement in SSE under different cluster numbers
图6. 不同聚类数下误差平方和(SSE)的边际改进分布
在此统计基础上,结合c-TF-IDF算法提取的代表性关键词,本研究发现这12个细分主题并非孤立存在,而是根据内在的语义逻辑聚合为五大核心议题群(见表1),清晰地刻画了该领域从“媒介融合”向“智能生成”演进的学术图谱。
如表1所示,直播电商研究构建了以“智媒融合”为底色的技术演进脉络。基础设施层(Theme I)聚焦于5G推动的媒体转型,并呈现出向知识与文化垂直领域(Topic 6, 7)深耕的趋势;核心机制层(Theme III)则从定性描述转向基于数据的因果推断,重点解析算法推荐与多模态交互(Topic 4, 9)对消费决策的实证影响。此外,前沿演化层(Theme IV)突显了“AIGC共生”的新范式,Topic 10与Topic 5的关联表明,虚拟数字人与自动化内容生成正在重塑直播主体与生产成本结构,并带动了数字化人才培养(Topic 11)的教育变革。伴随着产业的成熟,研究视域进一步拓展至制度保障层(Theme V)。Topic 8的独立成簇标志着行业从野蛮生长迈向规范化治理,学术界开始深度反思算法权力背后的版权争议与伦理风险,致力于构建技术、资本与法律相协调的治理体系。综上所述,人工智能视域下的直播电商研究已超越单一商业维度,形成了一个涵盖“底层智媒设施–中层算法交互–上层AIGC创新–外部法律规制”的立体化知识体系,展现了技术逻辑与社会伦理的双重互构。
Table 1. Distribution of core topic clusters in the live e-commerce domain based on BGE-BERTopic
表1. 基于BGE-BERTopic的直播电商领域核心主题聚类分布
核心议题群 |
Topic ID |
主题标签 |
核心关键词 |
频次 |
I. 智媒融合与文化传播 |
0 |
5G技术与融媒 |
媒体,技术,5G,融合,时代,电视 |
187 |
|
1 |
新闻融合报道 |
媒体,融合,新闻,报道,两会 |
165 |
|
6 |
数字文化传播 |
文化,传播,数字,传统,视听 |
88 |
II. 平台生态与垂直应用 |
2 |
视频平台生态 |
视频,平台,媒介,社会,青年 |
140 |
|
3 |
短视频内容场 |
抖音,视频,内容,电影,传播 |
117 |
|
7 |
出版与知识直播 |
出版,图书,阅读,直播,出版业 |
81 |
III. 算法机制与用户感知 |
4 |
算法推荐机制 |
算法,用户,推荐,行为,感知 |
105 |
|
9 |
多模态交互实验 |
视频,算法,模态,特征,实验 |
62 |
IV. AIGC驱动与产业创新 |
5 |
直播电商主体 |
直播,主播,虚拟,电商,消费者 |
94 |
|
10 |
生成式AI |
AI,生成式,AIGC,创作,人工智能 |
36 |
|
11 |
数字化人才培养 |
教学,教育,学习,在线,课堂 |
27 |
V. 数智治理与版权合规 |
8 |
算法治理与版权 |
治理,版权,义务,侵权,规则 |
67 |
4.3. 研究议题群演化趋势分析
基于五大议题群的年度占比变化趋势,如图7所示,人工智能视域下的直播电商研究呈现出一种深刻的“结构化”演进特征。为了深度透视这一演化路径背后的底层逻辑,本研究引入社会学家安东尼·吉登斯(Anthony Giddens)的结构化理论(Structuration Theory)作为分析框架[13]。该理论核心的“结构二重性”(Duality of Structure)认为,社会结构(如技术、规则)既是人类行动的媒介,也是其结果,这一视角完美契合了直播电商领域中技术迭代与研究实践双向互构的特征。图7直观地反映了该领域从2015年至2025年间,知识体系如何从初期的商业媒介形态探索,经由中期的算法权力解构,最终跃迁至AIGC驱动下的系统性重塑,这本质上是技术结构(Structure)与人类代理(Agency)在不断博弈中实现结构再生产的生动体现。
Figure 7. Evolution trend of the “Five Major Topic Clusters” in live e-commerce research
图7. 人工智能视域下直播电商“五大议题群”演化趋势
在2015~2019年的研究早期,系统处于“结构生成期”,“智媒融合与文化传播”议题长期维持较高占比并达到峰值。这一阶段的研究主要聚焦于直播叙事、媒介融合及受众互动逻辑,这本质上是人类代理在探索5G、流媒体等新兴技术结构所提供的“行动空间”。此时,研究者倾向于将直播电商视为一种新型媒介形式对传统传播格局的冲击,而同期的“平台生态与垂直应用”议题在2015~2018年的主导地位,则反映了学界正致力于构建最初的平台商业规则与供应链结构,技术在此时更多作为一种被动的中介物存在。随着平台运行机制的固化,技术结构开始展现其“生产性与约束性”,驱动研究焦点从宏观生态转向微观机制的深度解构。图7显示,2020年后“平台生态”议题的相对权重逐年下滑并在2025年降至低点,而“算法机制与用户感知”则同步显著上升,成为核心增长点。这种此消彼长揭示了技术逻辑的深度下沉:算法不再仅是工具,而是演变为一种具备权力的结构,通过推荐机制、路径学习等逻辑对主播的数字劳动和消费者的决策路径进行隐性引导。研究范式从现象描述向因果机制解释的深化,实质上是学界在揭示算法这一“黑箱行动者”如何重塑社会交互的微观机理。
进入2023年后,随着生成式人工智能的爆发,系统步入“结构重组与治理复归”的前沿阶段。如图7所示,“AIGC驱动与产业创新”在2020年后出现跃迁式增长,占比迅速超过30%,标志着虚拟数字人等非人行动者正式成为重塑产业结构的核心变量。这种主体性的根本移位倒逼了社会系统做出反应,使得“数智治理与版权合规”议题自2019年起稳步增长并与技术爆发保持同步。研究重心的这一转向,反映了治理不再是外部的强加,而是为了修复技术扩散引发的伦理困境与版权争议,从而在技术创新、资本扩张与法律规制之间达成新的结构平衡。
综上所述,人工智能视域下直播电商研究的演化并非孤立的技术更替,而是“技术结构”与“研究代理”持续互动并迈向联合优化的动态过程。从早期对媒介形态的初步试探,到中期对算法权力的微观解构,再到近期AIGC驱动下的系统性重塑,这一逻辑脉络映射出行业正经历从“流量红利”驱动向“技术红利”与“制度红利”协同驱动的深刻转型。研究重心的位移证明,直播电商已超越了单一的商业应用范畴,演进为一个涵盖“底层智媒设施,中层算法交互,上层AIGC创新,外部法律规制”的技术–社会复合系统。这种由宏观叙事向因果机制及规范化治理的跃迁,不仅深化了学术界对数字经济新质生产力的理论认知,也为未来在人机协同、算法伦理及绿色供应链等维度的纵深探索奠定了坚实的知识基础。
5. 结论
在数字经济由规模扩张向高质量发展转型的宏观背景下,直播电商正经历由“流量红利”驱动向“技术红利”与“制度红利”协同驱动的深刻变革。本文基于CNKI数据库中CSSCI与北大核心期刊收录的1169篇文献,引入BGE-BERTopic深度文本挖掘框架,对人工智能视域下直播电商研究的热点结构与演化路径进行了系统梳理,得出以下主要结论。
首先,从整体知识结构来看,人工智能已成为重塑直播电商研究范式的核心变量。研究主题不再局限于传统的营销效率或平台模式讨论,而是逐步形成了一个涵盖“智媒基础设施–算法机制–AIGC内容生成–数智治理”的立体化知识体系。传播学视角在该领域长期占据主导地位,但其内涵已从早期的媒介融合与叙事分析,演进为对人机交互、算法权力与技术伦理的综合审视,显示出明显的理论深化趋势。其次,从主题演化路径看,人工智能视域下的直播电商研究呈现出由宏观现象描述向微观机制解释、再向规范化治理协同跃迁的结构性特征。早期研究以“智媒融合与文化传播”为核心,强调直播电商作为新型媒介形态的社会连接功能;随着平台体系与数据基础设施的成熟,研究重心逐步转向算法推荐、用户感知与多模态交互等机制层问题;近年来,在AIGC技术快速扩散的推动下,虚拟数字人、生成式内容生产与自动化运营成为新的研究前沿,并同步引发了对版权归属、算法责任与数字劳动等治理议题的广泛关注。这一演化轨迹表明,学术界对直播电商的理解正从“商业工具”转向“技术–社会复合系统”。从产业与社会价值层面看,直播电商研究呈现出明显的纵深拓展与外延延伸特征。一方面,研究不断向乡村振兴、知识直播、产教融合等垂直领域渗透,体现了人工智能技术在促进普惠发展与缩小数字鸿沟方面的潜力;另一方面,伴随行业规范化进程加速,算法治理、数字版权与平台责任已从边缘议题上升为不可回避的核心议题,反映出直播电商正嵌入更为复杂的制度环境之中。最后,从未来研究方向看,人工智能视域下的直播电商研究仍具有广阔的拓展空间。随着AIGC技术从“辅助生成”迈向“自动生成”,人机协同机制、虚拟主播的情感交互效能及其对消费者信任结构的重塑,将成为重要的理论增长点。同时,在跨境电商与品牌出海背景下,如何在全球数据治理趋严的环境中实现技术创新与合规发展的平衡,亦值得进一步深入探讨。此外,绿色供应链与可持续发展议题的引入,将有助于推动直播电商研究与数字经济高质量发展目标的深度对接。
综上所述,人工智能视域下的直播电商研究已从早期的应用探索阶段,迈入以机制解释、技术伦理与制度治理为特征的深化发展阶段。其演化不仅反映了技术进步对商业模式的重塑,更揭示了数字经济条件下社会生产关系与治理逻辑的深层调整,为后续跨学科研究与政策制定提供了重要的知识基础。