1. 引言
随着互联网、移动通信和大数据技术的快速发展,电子商务已成为数字经济体系中的核心环节[1] [2]。云计算、人工智能、数字支付与智慧物流的应用,不仅重塑了商业交易模式,也推动了产业结构与区域经济布局的深度变革[3] [4]。过去十年,中国电子商务从最初的线上零售,逐步扩展至农村振兴、跨境贸易、平台治理与产业升级等多个方向[5]-[7]。政策支持、技术创新与国际合作共同塑造了电子商务的长期发展轨迹,推动其在全球化与数字化浪潮下的快速扩张与结构优化[8] [9]。
现有研究在电子商务发展阶段、商业模式创新、跨境电商政策与农村电商实践等方面积累了大量成果,但大多依赖案例研究、问卷调查或政策分析,缺乏系统的定量研究,难以揭示电子商务多方向演化的整体规律与动态特征。尤其是在数字经济背景下,电子商务如何在政策、产业与国际合作的交织影响下演化为不同发展路径,仍有待深入探讨[10] [11]。
针对这一不足,本研究基于2015~2025年CNKI中文文献,构建电子商务研究语料库,并采用LDA主题建模方法识别12个主要发展方向。在此基础上,结合时间切片分析与增长率聚类,归纳出四类典型演化模式,从而揭示电子商务在数字经济背景下的动态演化特征与内在逻辑。旨在通过大规模、长时序的定量分析框架,对既有关于电子商务发展方向的认识进行系统性验证与动态模式刻画。本研究的贡献在于:1) 提供了基于文本挖掘的系统框架,用于识别电子商务的发展方向;2) 通过演化模式分析揭示了不同方向的差异化演进规律;3) 为电子商务相关的政策制定、产业布局与学术研究提供了实证依据与方法参考。
2. 研究方法
为系统揭示中国电子商务的发展方向及演化规律,本文构建了从文献数据获取、文本清洗、主题建模到演化模式分析的完整研究流程(见图1)。具体而言,研究首先收集和筛选数字经济背景下电子商务相关文献,构建标准化语料库;随后采用LDA模型提取潜在主题,并结合大语言模型生成语义标签以识别发展方向;最后,基于时间切片的主题频次矩阵和增长率聚类,分析各发展方向的动态演化模式,从而形成定量化、结构化的演化分析框架。
Figure 1. Overall research framework diagram
图1. 总体研究框架图
2.1. 数据来源
本文文献数据来源于中国知网(CNKI),选择“电子商务”与“数字经济”为关键词组合检索,以确保样本内容与研究问题的匹配度和语义一致性,覆盖电子商务在数字经济背景下的研究动态。加入“数字经济”关键词的组合检索能提升样本的相关性与语义聚焦度,凸显近年来电子商务与数字经济深度融合的研究内容。数据采集时间范围为2015~2025年(1~8月),文献类型限定为期刊论文。为保证数据质量,首先利用数据库高级检索功能获取初步文献集合,然后进行去重、主题相关性筛选及完整性检查,最终获得有效中文文献2483条,并以Refworks格式导出以便后续处理。
2.2. 文本预处理
为了构建可用于主题分析的标准化语料库,对文献标题、摘要及关键词进行了系统清洗与预处理,包括:文本标准化:统一小写化处理,去除标点符号、数字及无意义字符;停用词与低信息词过滤:剔除高频无技术含义的词语及停用词,停用词库采用哈工大中文停用词表;词形还原与词性筛选:保留核心技术实体词和关键动词,构建文档–词项矩阵(Bag-of-Words)。通过以上步骤,确保语料库能够充分反映电子商务各发展方向的技术、政策及应用特征,为后续主题建模提供高质量输入。
2.3. 主题建模与聚类
其次,采用Latent Dirichlet Allocation (LDA)模型对清洗后的语料进行无监督主题聚类。该模型假设每篇专利由若干潜在主题的概率分布所构成,每个主题由一组关键词加权表示。通过遍历多个主题数量参数,以主题一致性指标(Coherence Score)作为评估标准,确定最优的主题数。最终每篇文献被映射为一个主题概率向量:
其中
表示专利
在主题
上的概率权重,其中主导主题对应最大概率值。
为增强主题的可解释性,本研究引入大语言模型(LLM)对每个主题的关键词集合进行自然语言处理,生成语义标签,从而将无监督主题词转化为明确的电子商务发展方向(如“乡村振兴与农村电商发展”“跨境电商与产业转型”等),形成结构化主题清单。具体而言,将LDA模型输出的每个主题前30个关键词作为提示词(prompt)输入至GPT-4模型,指示其基于关键词生成2~3个候选主题标签,经人工筛选后确定最终标签,以减少主观偏差并提高语义一致性。此外,通过主题相似度热力图对各主题之间的语义关联进行可视化,揭示不同发展方向的内在联系,为后续演化分析提供参考。
需要指出的是,LDA模型在处理短文本时可能存在主题稀疏、分布模糊等问题,且其“词袋”假设忽略了上下文语义关系。本文通过结合LLM辅助命名等方式缓解了这一问题,但仍可能对部分语义重叠主题的区分能力有限。
2.4. 演化模式分析
为揭示各发展方向在时间维度上的动态演化规律,将文献按年份划分为若干时间切片(2015~2016、2017~2018、2019~2020、2021~2022、2023~2025)。基于文献主导主题的时间分布,构建“发展方向–时间切片”二维频次矩阵,统计每一发展方向在各时间段的文献数量,以量化其演化轨迹。
在此基础上,进一步计算每一发展方向在相邻时间段的增长率序列,反映其短期与长期的增长动态。随后,采用KMeans聚类算法对增长率序列进行无监督聚类分析,并引入轮廓系数(Silhouette Coefficient)对聚类效果进行评估。结果显示,K = 2时轮廓系数最大(0.6106),K = 4时次优(0.4531),展示出较好的聚类质量。考虑到两类聚类会过度合并不同发展模式,难以反映各个主题的真实演化特点,本研究最终选择K = 4,兼顾聚类质量与实际解释力,以实现对电子商务主题演化模式的精细化刻画。由此,将电子商务发展方向划分为快速上升型、稳步增长型、阶段性起势型及波动发展型等四类典型演化模式,从而能够清晰识别各主题的演化节奏、活跃度差异及潜在研究热点,为政策制定、企业战略布局和科研资源优化提供定量依据。
3. 研究结果
3.1. 电子商务的主要发展方向
采用Latent Dirichlet Allocation (LDA)模型构建数字经济背景下电子商务文献语义空间,以模型一致性指标(Coherence Score)为依据,通过遍历主题数k ∈ (5, 20),最终选择k = 12作为最优主题数。图2展示了不同主题数下的模型一致性得分曲线。
为评估主题聚类结果的区分度与语义质量,本研究计算了主题间余弦相似度,并绘制了热力图(见图3)。结果表明,大多数主题边界清晰,语义空间分离良好,仅在少数主题对(如Topic 0与Topic 2, Topic 4与Topic 11)之间存在中等程度的关联性,说明LDA模型聚类结果合理。
每篇文献由一个主题分布向量
表示,其主导主题对应概率最大的一类。为提升主题的可解释性,本研究引入大语言模型(LLM)对每个主题的关键词集合进行处理生成语义标签,将主题编号转化为可理解的发展方向。例如,将Topic 0的关键词集合{乡村、农村、电子商务、振兴、农业、农产品、建设、产业、路径、融合、营销}转化为语义标签“乡村振兴与农村电商发展”;类似地,Topic 1对应“跨境电商与产业转型”,Topic 4对应“国际合作与数字鸿沟治理”等(完整汇总见表1)。这一过程不仅增强了LDA模型的语义解释能力,也为后续电子商务发展方向演化分析提供了结构化的主题依据和发展方向清单,表中列明了每个主题的编号、发展方向名称、关键词特征及对应样本数。
Figure 2. Model consistency score curve diagram for different number of themes
图2. 不同主题数下的模型一致性得分曲线图
Figure 3. Topic similarity heatmap
图3. 主题相似度热力图
Table 1. Summary of the main development directions of e-commerce under the background of digital economy
表1. 数字经济背景下电子商务的主要发展方向汇总表
主题编号 |
发展方向 |
关键词特征 |
样本数 |
Topic 0 |
乡村振兴与农村电商发展 |
乡村、农村、电子商务、振兴、农业、农产品、建设、产业、路径、融合、营销 |
497 |
Topic 1 |
跨境电商与产业转型 |
电商、跨境、企业、农业、物流、转型、升级、出口、外贸、模式、政策 |
176 |
Topic 2 |
农村电商效应与城乡差距 |
农村、效应、收入、政策、城乡、差距、消费、县域、共同富裕、空间、实证 |
130 |
Topic 3 |
区域发展与数字经济评价 |
区域、水平、创新、指数、产业、广西、综合、环境、测度、政府、会议 |
99 |
Topic 4 |
国际合作与数字鸿沟治理 |
合作、中国、东盟、金融、技术、基础设施、治理、鸿沟、投资、APEC |
132 |
Topic 5 |
平台治理与法律规制 |
平台、法律、数据保护、监管、消费者、反垄断、规制、竞争、知识产权、算法 |
119 |
Topic 6 |
跨境贸易规则与全球治理 |
贸易、规则、全球、国际、治理、数据流动、协定、谈判、RCEP、WTO |
406 |
Topic 7 |
互联网经济与行业分析 |
互联网、技术、消费、统计、产业、信息、增长、方法、生产、挑战 |
228 |
Topic 8 |
数字化转型与产业升级 |
数字化、转型、融合、创新、企业、升级、高质量、动能、战略、社会 |
339 |
Topic 9 |
电商人才培养与教育改革 |
人才培养、专业、高职、就业、课程、教学、能力、教育、商科、创业 |
162 |
Topic 10 |
跨境电商税收与征管挑战 |
税收、增值税、征管、跨境、规则、治理、征税、欧盟、模式、协调 |
104 |
Topic 11 |
“一带一路”与全球电商合作 |
一带一路、丝绸之路、建设、沿线、合作、倡议、对外贸易、规模、网络、市场 |
91 |
为了验证主题建模与关键技术清单的有效性,本研究选取了文献《浙江省与中亚国家跨境电商合作的现状、挑战与对策研究》作为典型案例进行分析。该文献的主题分布向量为:[(0, 0.0284), (1, 0.3059), (2, 0.0338), (3, 0.0206), (4, 0.4411), (6, 0.0160), (11, 0.1499)],其中,主导主题为Topic 4 (国际合作与数字鸿沟治理),高度契合文献所关注的“丝路电商”发展,即中国与中亚国家在数字贸易、跨境电商合作及政策协作方面的重点实践;Topic 1 (跨境电商与产业转型)反映了浙江省在跨境电商政策、企业升级及产业转型方面的具体实践;而Topic 11 (“一带一路”与全球电商合作)则揭示了文献所体现的宏观战略背景,即跨境合作与全球贸易网络的制度性支撑。由此可见,LDA模型能够准确识别文献的主要发展方向,同时揭示其在政策环境、国际合作机制及产业转型等方面的内在联系。这一案例表明,LDA模型能够通过主题分布向量有效揭示文献的主导发展方向,并清晰反映各主题在实际跨境电商合作中的功能角色,为电子商务领域的发展演化分析提供了可靠的语义依据。
3.2. 演化特征
在上述分析基础上,为进一步揭示电子商务主题方向的动态演化规律,本研究根据每篇文献的主导主题和其公开年份,以两年为基本统计单元,构建了主题–时间二维频次矩阵,反映各发展方向在不同阶段的关注程度和增长趋势(见图4)。
Figure 4. “Theme-Time period” two-dimensional frequency matrix
图4. “主题–时间段”的二维频次矩阵
结合表1中各主题代表的发展方向及时间切片矩阵结果,可观察到不同发展方向呈现出明显的演化差异。乡村振兴与农村电商发展(Topic 0)呈现持续快速上升趋势,尤其在近几年增长显著,体现了政策推动和产业实践的叠加效应,使其成为研究热点。跨境电商与产业转型(Topic 1)保持稳定增长,显示政策支持和企业升级实践在跨境电商研究中长期受到关注。农村电商效应与城乡差距(Topic 2)从低基数逐渐升温,说明随着政策落地及城乡经济差异的关注,该方向的研究热度逐步增加。区域发展与数字经济评价(Topic 3)呈现温和增长态势,尤其在2021~2022及2023~2025期间有所提升,说明区域数字经济综合评价在学术研究中的关注度逐步上升。国际合作与数字鸿沟治理(Topic 4)呈稳步上升趋势,在“一带一路”和跨境合作背景下,该方向逐渐成为研究关注重点。平台治理与法律规制(Topic 5)的研究持续增长,表明平台治理、数据保护及消费者权益监管等问题在数字经济发展中保持较高关注度。跨境贸易规则与全球治理(Topic 6)经历了快速增长阶段,并在近几年趋于稳定,显示国际贸易规则和全球治理问题在跨境电商研究中占据核心地位。互联网经济与行业分析(Topic 7)整体保持增长趋势,但在2023~2025略有下降,显示研究关注从单纯的行业统计和分析向更综合的数字经济应用转移。数字化转型与产业升级(Topic 8)呈现稳定增长,体现企业数字化转型与高质量发展战略在学术界的持续关注。电商人才培养与教育改革(Topic 9)起步较晚,但在近两期迅速升温,说明人才培养与教育改革正成为支撑电子商务可持续发展的关键议题。跨境电商税收与征管挑战(Topic 10)研究热度相对平稳,显示政策法规相关议题已进入成熟讨论阶段。“一带一路”与全球电商合作(Topic 11)呈波动上升趋势,说明“一带一路”倡议推动下的全球电商合作持续受到学术关注,但研究节奏相对均衡。
为探索政策因素对文献增长趋势的影响,本文将关键政策发布年份与主题文献数量增长率进行了对比分析。结果显示,乡村振兴与农村电商发展(Topic 0)在2018年后出现显著跃升,与“乡村振兴战略”实施时间高度重合;跨境贸易规则与全球治理(Topic 6)在2020年《RCEP协议》签署后出现明显增长[12]。此外,通过选取每个主题的高相关性代表文献进行内容分析,可以揭示主题内部研究焦点的演化。例如,Topic 4 (国际合作与数字鸿沟治理)的代表文献《共建“数字丝绸之路”背景下中国——东盟数字经济合作研究》《数字经济重塑全球经济格局——政策竞赛和规模经济驱动下的分化与整合》等主要聚焦国际合作与数字基础设施建设,强调推动数字技术与合作产业的深度融合、完善多元主体参与的数字治理机制;而Topic 5 (平台治理与法律规制)的代表文献《平台经济领域自治算法滥用与反垄断规制》《网络平台的公共性及其实现——以电商平台的法律规制为视角》等则集中于数据保护与平台垄断监管问题,反映出该领域研究正从平台经济的制度属性转向算法治理与竞争规制的细化探讨。
总体来看,电子商务各发展方向的演化呈现出以下几个特征:
热点主题集中且快速成长:如乡村电商、跨境电商及数字化转型相关方向,在近几年呈现快速上升趋势,成为学术研究和政策关注的核心领域。
稳步发展主题具备研究深度:区域发展评价、平台治理及国际合作等方向虽然增长较稳,但其研究内容深入,涉及政策、制度和治理等系统性问题。
研究重点由基础政策向创新应用转移:早期关注政策法规和制度建设的主题,逐渐向创新模式、跨境实践及数字化转型应用方向延伸,显示学术研究对实践导向和技术应用的重视度提升。
多主题协同发展趋势明显:跨境电商、国际合作及数字化转型等主题在时间上呈现一定重叠,表明不同发展方向之间存在研究协同和交叉融合,反映电子商务领域复杂的政策、技术与市场互动关系。
3.3. 演化模式
在前述演化特征分析基础上,为进一步揭示电子商务各发展方向的动态演化规律,本研究以2年为基本统计单元,对各主题频次矩阵构建了增长率指标,以反映各发展方向在不同阶段的变化程度。随后,采用KMeans聚类算法对各主题增长率时间序列进行无监督聚类,将12个发展方向划分为四类典型演化模式:快速上升型、稳步增长型、阶段性起势型和波动发展型,其平均演化曲线如图5(a)所示,各主题发展热度随时间的变化如图5(b)展示。
Figure 5. (a) Average evolution curves for various development models; (b) Evolution curve for e-commerce theme development
图5. (a) 各类发展模式的平均演化曲线;(b) 电子商务主题发展演化曲线
四类典型演化模式分析:
快速上升型(发展模式0):包括乡村振兴与农村电商发展(Topic 0)、跨境电商与产业转型(Topic 1)、平台治理与法律规制(Topic 5)、跨境贸易规则与全球治理(Topic 6)等主题。这类发展方向在近几年呈现明显的快速增长趋势,体现了政策推动、产业实践和全球贸易环境变化对研究热度的强力拉动,显示出在电子商务领域具有核心支撑地位和持续发展潜力。
稳步增长型(发展模式1):包括国际合作与数字鸿沟治理(Topic 4)、数字化转型与产业升级(Topic 8)等主题。这类方向在整个观察期内保持稳定增长,反映了研究关注点长期集中于制度完善、产业升级和跨境合作的深度问题,为电子商务发展提供了稳健支撑。
阶段性起势型(发展模式2):涵盖农村电商效应与城乡差距(Topic 2)、区域发展与数字经济评价(Topic 3)、电商人才培养与教育改革(Topic 9)、跨境电商税收与征管挑战(Topic 10)等主题。该类发展方向早期增长较缓,但在中后期开始显著上升,显示这些方向在政策实施、教育培训或制度完善逐步落地后逐渐受到研究关注,具有潜在发展空间和可持续性。
波动发展型(发展模式3):包括互联网经济与行业分析(Topic 7)及“一带一路”与全球电商合作(Topic 11)等主题。此类方向呈现周期性波动增长,研究热度在不同时间段有所起伏,反映了其受宏观政策、国际合作节奏以及市场环境影响较大,具有阶段性关注特征。
图5(b)进一步展示了各主题标准化增长强度的时间演化情况,不同演化模式底色区分清晰,可直观对比各发展方向的活跃度差异。快速上升型主题如乡村振兴与农村电商发展(Topic 0)在近两期保持高速增长,稳步增长型主题如数字化转型与产业升级(Topic 8)则呈现平稳递增趋势;阶段性起势型主题在中后期出现明显增长,波动发展型主题则在不同时间段显示出研究热度波动。通过该图,可以直观识别演化模式间的活跃差异,观察稳定持续演化的核心主题与短期内快速增长的爆发性发展方向,进一步揭示演化模式内部存在的异质性发展路径。
总体来看,不同发展方向的演化模式反映了电子商务研究的多样化路径:快速上升型主题揭示了政策和产业驱动下的热点领域;稳步增长型主题体现了制度与技术基础研究的长期关注;阶段性起势型主题表明新兴方向在政策或市场推动下逐渐受关注;波动发展型主题显示国际合作与市场环境影响对研究节奏的重要作用。该分析为理解电子商务领域的发展规律及核心议题演化提供了量化依据,也为政策制定者、企业及机构的战略布局和资源配置提供了参考。
4. 结论与展望
4.1. 研究结论
本文基于2015~2025 年CNKI电子商务相关文献,结合文本挖掘与LDA主题建模方法,系统识别了数字经济背景下电子商务的12个主要发展方向,并通过时间切片与增长率聚类方法,归纳出四类典型演化模式。研究结论如下:
1) 电子商务呈现多元化与分层次演进特征。在数字经济驱动下,电子商务研究已由早期的线上零售拓展至乡村振兴、跨境贸易、数字化转型、平台治理与国际合作等多个方向。不同主题的发展热度存在显著差异,体现了政策引导、技术创新与市场需求的多维合力。
2) 演化模式反映了电子商务在数字经济中的分化路径。快速上升型主题(如乡村振兴与农村电商、跨境电商规则治理)体现了政策扶持与技术突破下的高敏感领域;稳步增长型主题(如数字化转型与产业升级、国际合作与数字鸿沟治理)显示出制度与产业基础的长期支撑作用;阶段性起势型主题(如电商人才培养、区域数字经济评价)说明新兴议题在政策和实践推动下逐渐受到重视;而波动发展型主题(如“一带一路”与全球电商合作)则受国际环境和市场波动影响较大,呈现周期性变化。
3) 政策支持与技术创新构成电子商务演化的双重驱动。在数字经济框架下,政策红利(如乡村振兴战略、跨境电商综合试验区)与技术赋能(如人工智能、数据治理、智慧物流)共同塑造了电子商务的核心发展轨迹。快速增长的主题往往体现了二者的叠加效应,而制度建设和规则治理则确保了行业的稳健演进。
4) 数字经济背景下电子商务的未来发展方向。一方面,国际化与规则治理将持续成为重点,如跨境电商税收、全球贸易规则与“一带一路”合作,反映了数字经济时代下全球化与制度化的深度融合;另一方面,智能化与数字化升级仍是核心议题,涉及企业数字化转型、智能物流与数据驱动商业模式创新;同时,城乡融合与可持续发展议题将日益重要,如农村电商的社会效应、绿色供应链与平台治理。
综上所述,数字经济不仅为电子商务提供了发展动能,也重塑了其演化模式与研究重点。通过对文献主题与演化路径的系统分析,本文揭示了电子商务在全球化、智能化与可持续化背景下的多元化发展规律,为学术研究提供了实证依据,也为政策制定与企业战略布局提供了参考价值。
4.2. 研究局限与未来展望
本研究基于CNKI数据库的中文期刊论文开展分析,可能存在样本来源单一、数据覆盖有限的问题;同时,LDA模型存在主题稀疏与语义关联度不足的局限,且增长率聚类方法未能完全捕捉政策、技术及市场因素的因果机制。未来研究可从以下几个方面拓展:其一,整合万方、维普及国际数据库数据,构建跨语种、跨区域的综合文献样本,通过多源数据交叉验证来提高结果的全面性与代表性;其二,结合政策发布与产业数据开展事件研究或时间序列因果分析,探索政策与研究演化间的动态耦合;其三,深入开展代表性文献的引文网络分析,以刻画主题内部知识结构和研究范式演进路径。通过这些扩展,可进一步提升对电子商务发展演化机制的解释力和预测能力。