1. 引言
数字经济背景下,电商平台已成为核心消费渠道,用户评论作为UGC (User Generated Content,用户生成内容)的核心载体,涵盖产品质量、物流配送、售后服务等多维度真实反馈,是商家感知用户需求、识别运营痛点的关键数据来源[1]。随着电商交易规模扩张,单一商品常累积数千乃至数万条评论,这类评论具有鲜明的语言学特征,需深入分析其对语义表示的影响:一是短文本特征,电商评论多为1~3句话,单条文本词汇量少(平均8~15个词),语义信息高度浓缩,单个词汇的语义权重占比高,易出现语义稀疏性问题;二是口语化特征,评论多采用日常随意表达,无规范语法约束,存在大量缩写、口语词、语气词,且隐含语义丰富(如“包装烂了”隐含物流配送问题),导致语义表示易受无关噪声干扰,难以精准捕捉核心语义。这些特征使得从海量非结构化评论中系统性识别核心问题、构建结构化问题体系,成为电商精细化运营的关键挑战。
现有电商评论分析方法中人工抽样分析依赖领域经验,效率低且难以覆盖全部评论,难以满足大规模、常态化分析需求;传统自动化方法多基于规则匹配或关键词统计,例如采用TF-IDF (Term Frequency-Inverse Document Frequency)结合预定义关键词词典实现问题识别[2],这类方法仅捕捉浅层词汇特征,语义理解能力薄弱、结构化输出不足,难以直接支撑运营层面的层次化决策。为改善自动化分析效果,部分研究引入LDA (Latent Dirichlet Allocation)等无监督主题模型开展评论主题发现,实现问题的自动化归纳[3],但该类方法基于词共现统计假设,在电商评论短文本场景下主题区分度较低,输出结果多为主题编号或关键词集合形式呈现,难以直接对应具体问题类型,仍需人工进行二次解读。与此同时,基于支持向量机、朴素贝叶斯等传统机器学习模型的情感分类方法虽可实现情感极性判别,但难以刻画评论中复杂的语义依存关系,模型可解释性较弱,难以满足问题级分析与结构化输出的需求[4]。
近年来,以BERT (Bidirectional Encoder Representations from Transformers)为代表的预训练语言模型(Pre-trained Language Models, PLM)以及大语言模型(Large Language Models, LLM)的快速发展[5],为非结构化文本分析提供了新路径。PLM具备强大的上下文语义表示能力,可有效缓解电商评论短文本稀疏、口语化噪声干扰的问题,适配评论深层语义挖掘需求;LLM则在信息抽取与结构化生成方面优势显著,能够弥补传统方法结构化输出不足的短板。基于上述研究背景,本文提出PLM与LLM协同的电商评论问题结构化分析方法,发挥两类模型互补优势,核心贡献包括:(1) 构建PLM + LLM协同分析流程,通过K-Means聚类获取评论代表性样本,将其作为少量示例融入提示工程以引导LLM优化,实现从非结构化评论到层次化问题体系的自动构建;(2) 提升无监督聚类与结构化输出的可解释性和可用性,降低人工成本;(3) 通过实验验证PCA降维的效率与质量收益,提供可复现的工程化方案。
2. 相关工作
2.1. 电商评论问题挖掘研究
电商评论问题挖掘的核心目标在于从用户反馈中精准识别用户痛点,为商家优化产品与服务提供决策依据。早期研究多以情感分析为切入点,通过判别评论进行间接筛选负面问题,但该类方法只能反映整体情绪倾向,无法定位具体问题内容[6]。随后,关键词统计、规则匹配等方法被广泛应用于电商评论分析,其实现简单、计算效率较高,但对语言表达变化和隐含语义的适应能力有限,难以覆盖口语化、隐含性评论场景。为提升分析的自动化程度,部分研究引入主题模型对评论文本进行无监督主题发现。尽管该类方法在一定程度上缓解了人工规则依赖问题,但由于电商评论文本通常较短、表达随意,主题模型在实际应用中往往存在主题混叠、区分度不足等问题,输出结果晦涩难懂,难以直接映射为可操作的问题类型。总体而言,现有电商评论问题挖掘方法在语义理解深度与结果结构化水平方面仍存在明显提升空间。
2.2. 文本语义表示与分类方法
高质量语义表示是实现精准问题识别与分类的基础,也是支撑方法工程化应用的核心前提。传统词袋模型、TF-IDF方法仅能捕捉表层词频特征,忽略语义关联。Word2Vec等静态词向量模型虽能够捕捉词语间的分布式语义特征,但缺乏上下文感知能力,难以适配一词多义和语义歧义场景[7]。LSTM (Long Short-Term Memory,长短期记忆网络)、BiLSTM等深度学习方法虽能捕捉上下文依赖,但模型训练依赖大量标注数据,其可解释性弱、难以实现结构化输出,在电商短文本评论分析中实用性受限[8]。
2.3. 预训练语言模型在语义表示中的应用
以BERT为代表的PLM,凭借双向上下文建模与大规模语料预训练优势,可动态生成文本深层语义嵌入,有效捕捉电商评论中的语义关联、歧义及隐含信息,在评论分析相关任务中性能优于传统方法[9]。其提取的语义特征无需复杂人工标注,可直接作为下游任务输入,适配电商评论标注成本高的场景。BERT模型中,[CLS]位置向量作为句级语义表示的核心载体,能够融合整条评论文本的全局上下文信息,可适配电商评论短文本、语义浓缩的特征,但现有研究中,PLM在电商短文本评论处理中仍存在局限,其输出的[CLS]向量为高维语义向量,易包含冗余信息与噪声,不仅增加计算开销,还会影响下游分类任务的精度,相关优化方案仍需进一步完善[10]。
2.4. 大语言模型在文本结构化分析中的应用
随着大语言模型在生成、理解和推理能力上的不断提升,其在文本结构化分析任务中的应用受到广泛关注,为电商评论结构化输出提供了重要支撑。LLM无需人工设计复杂规则,可从非结构化文本中抽取实体、关系和事件,并生成连贯、可解释的层次清晰的结构化输出。在电商场景中,LLM已被用于产品属性抽取、评论摘要生成和用户诉求归纳等任务,能够有效解决口语化和隐含表达的问题[11]。但在零样本模式下处理小众主题评论时易出现分类偏差。同时,由于LLM模型参数量大、推理耗时久,直接处理电商评论会产生较高的计算成本,难以适配大规模评论的常态化分析需求。尽管可通过少量代表性示例(Few-shot Prompt)提升LLM的任务适配性[12],但语义表示模型与提示工程的融合程度仍有待提升,仍有较大的优化与完善空间。
3. 方法
本文结合评论文本特点提出面向电商评论问题结构化分析的PLM和LLM深度协同框架,通过K-Means聚类获取代表性样本,将其作为少量示例融入提示工程(Few-shot Prompt)输入LLM,让LLM更好地适配电商评论的表述特点,进而提升其处理同类评论时的准确性。框架核心涵盖语义表示(PLM)、表示空间优化(PCA,Principal Component Analysis,主成分分析)、评论主题聚类与代表性样本选取(K-Means)、
Few-shot Prompt构建与问题结构化组织(LLM)四大阶段。核心逻辑为输入评论文本集合
经
BERT编码与PCA降维得到语义嵌入矩阵
,通过K-Means生成聚类标签并选取代表性样本,将代表性样本作为Few-shot Prompt示例输入LLM,引导LLM精准学习该类目评论的问题特征与分类规则,完成全量评论的问题提取与分类,最终输出结构化结果
,各阶段具体实现如下。
3.1. 基于预训练语言模型的语义表示
为适配英文电商评论场景,采用BERT作为语义编码器,记为函数
。对每条评论
先进行分词、去除特殊字符和长度截断预处理,后输入BERT模型得到隐藏状态矩阵:
,
其中
为序列长度,
为隐藏维度。模型推理时,提取[CLS]位置向量作为每条评论的句级语义表示:
,
[CLS]向量可融合整条评论的全局上下文语义,能够初步捕捉电商评论的浓缩语义与隐含痛点,堆叠所有评论的[CLS]向量,形成整体语义表示矩阵:
.
3.2. 表示空间优化:PCA降维与噪声抑制
针对BERT [CLS]向量的高维冗余与噪声问题,采用PCA对语义表示矩阵进行降维优化,实现语义表征精度与计算成本的平衡。具体实现包括先对768维[CLS]向量矩阵进行标准化处理(均值为0、方差为1),消除量纲影响;再通过PCA算法计算协方差矩阵,求解特征值与特征向量,选取方差贡献累计占比达84.75%的主成分,将高维语义矩阵投影至128维低维子空间,得到优化后的语义嵌入矩阵
:
,
其中
为由前
个主成分构成的投影矩阵。通过保留方差贡献较大的主成分,PCA能够在降低维度的同时抑制噪声,使语义相近的评论在低维空间中更加聚集,为后续聚类分析提供更清晰的表示基础。后续主题聚类与分析均基于低维嵌入空间
开展。
3.3. 评论聚类与代表性样本选取
为LLM的Few-shot Prompt构建提供高质量示例,需基于PCA降维后的128维语义嵌入矩阵
采用K-Means算法进行无监督聚类,将语义相似的评论划分为同一主题簇。K-Means的优化目标为最小化样本到簇中心的平方误差之和:
其中
为第
条评论的低维表示,
为簇标签,
为对应簇中心。为避免人为设定聚类簇数带来的主观偏差,本文在预设候选区间内搜索最优簇数,并以轮廓系数最大化作为选择准则:
最终确定最优簇数为5,对应电商评论核心问题类别为产品质量、物流配送、价格问题、售后服务、其他。聚类完成后,选取每簇中距离簇中心最近的4条语义表达相对规范评论作为代表性样本可作为Few-shot Prompt示例,为LLM提供清晰的问题表述规律与分类参考。
3.4. 基于Few-Shot Prompt的LLM问题提取与分类
本文采用基于提示词的方式调用DeepSeek大语言模型,将3.3节K-Means聚类的代表性样本作为Few-shot Prompt示例输入模型,以解决LLM零样本分类偏差问题。针对单条评论中可能包含多个隐含问题的特点,对每条评论文本进行问题抽取,生成对应的问题集合
:
提示词模版如图1所示,明确要求模型仅输出用户核心问题,避免生成情感描述或无关信息,以提高问题提取结果的准确性与可比性。问题提取完成后,采用聚类先验与大语言模型判别相结合的策略进行问题分类,以3.3节聚类结果作为结构性先验,结合模型对每个问题
的独立的语义判别,生成其所属问题类别标签:
在获得问题集合
及其分类结果
后,继续调用该模型生成层次化结构化结果:
结构化结果
包括:(1) 问题的层次结构,即从一级问题类别到子类别再到具体问题实例的映射关系;(2) 问题的统计信息,如各类别及子类别的问题数量与分布特征;(3) 具有代表性的典型问题描述,用于辅助人工理解与决策分析。
在模型调用设置方面,本文在问题提取阶段将生成温度参数设为0.3,以减少随机性;在问题分类与结构化组织阶段将温度设为0.5,以增强模型在语义归纳与表达上的灵活性。所有LLM调用均基于同一DeepSeek API接口完成,以保证实验结果的一致性与可复现性。
4. 实验设置
4.1. 数据集和实验配置
本文采用Amazon商品评论数据集作为实验数据来源。该数据集包含来自不同商品类别的用户评论文本,内容覆盖食品、日用品、保健品等多个领域,随机抽取5000条英文评论作为样本,经清洗、去重、长度截断预处理后用于实验。本文实验的预训练语言模型为BERT (bert-base-uncased);最大输入长度为128;问题分类类别为产品质量、物流配送、售后服务、价格问题、其他5大类;每簇用于构建Few-shot Prompt的示例数固定为4条。
Figure 1. Problem extraction, problem classification, and structured organization of prompt word templates
图1. 问题提取,问题分类与结构化组织提示词模版
4.2. 评估指标
采用以下两类指标对方法进行评估。
(1) 聚类质量指标:用于主题聚类与基线对比。
a) 轮廓系数(Silhouette Coefficient):衡量样本与同簇的紧密度及与异簇的分离度;
b) Davies-Bouldin指数:簇内平均距离与簇间中心距离之比,越小表示簇内越紧凑;
c) Calinski-Harabasz指数:簇间方差与簇内方差之比,越大表示聚类质量越好。
(2) 问题分类指标:用于维度消融等实验。
a) 准确率(Accuracy):正确分类样本数占总样本数的比例;
b) 精确率(Precision):预测为正的样本中实际为正的比例;
c) 召回率(Recall):实际为正的样本中被正确预测为正的比例;
d) F1分数:精确率与召回率的调和平均数,综合衡量分类性能。
4.3. 对比方法
选取4类基线方法验证所提方法优越性:
1) TF-IDF + K-Means:传统基于统计特征的方法,使用TF-IDF提取文本特征,然后使用K-Means进行聚类,将聚类结果作为问题类别。
2) LDA 主题模型:是经典的无监督主题发现方法,使用潜在狄利克雷分配(Latent Dirichlet Allocation)进行主题建模,将主题作为问题类别。
3) 语义向量 + K-Means:使用BERT提取语义向量,通过PCA降维后使用K-Means进行聚类,但不使用LLM生成自动解释。
4) 关键词/规则基线:基于关键词匹配判断问题。
4.4. 实验结果与分析
4.4.1. 聚类质量对比
主题数固定为5时,各类方法聚类质量如表1所示。TF-IDF + K-Means受词汇稀疏性影响,轮廓系数仅0.0243,簇间分离度差;LDA在短文本场景下表现无效,轮廓系数为负。BERT嵌入的Calinski-Harabasz指数显著提升,证明上下文语义表示的有效性。本文方法经LLM语义精炼后,聚类性能大幅优化:轮廓系数较纯BERT方法提升115.9%,Davies-Bouldin指数降低35.3%,Calinski-Harabasz指数达253.04,显著优于各类基线,方法在聚类质量上的优越性得到验证。
Table 1. Comparison of clustering quality of different methods
表1. 不同方法的聚类质量对比
方法 |
轮廓系数 |
Davies-Bouldin |
Calinski-Harabasz |
TF-IDF + K-Means |
0.0243 |
5.1167 |
75.64 |
LDA主题模型 |
−0.0404 |
9.0108 |
31.86 |
BERT嵌入 + K-Means |
0.0328 |
5.5850 |
39.62 |
PLM + LLM (本文) |
0.0581 |
3.1307 |
253.04 |
4.4.2. 问题结构化分析结果
选取100条采样评论,经DeepSeek提取有效问题67个,类别分布如表2所示。图2是各类别下子问题分布,子类别由结构化分析层级得到。产品质量问题占比最高(58.2%),主要子类型为口味/风味不佳、与描述不符;物流配送问题占比13.4%,涵盖包装破损、配送延迟等子问题;价格问题、售后服务问题占比分别为6.0%、3.0%;其他类问题占比19.4%,以包装规格不符为主。该结构化结果可直接支撑电商运营优化与产品改进,充分体现了方法的实用价值。
Table 2. Problem category distribution statistics
表2. 问题类别分布统计
问题类别 |
数量 |
占比(%) |
主要子类型 |
关键特征词 |
产品质量 |
39 |
58.2 |
口味/风味、与描述不符 |
stale, bland, tasteless, misleading |
物流配送 |
9 |
13.4 |
包装破损、配送延迟 |
melted, damaged, unavailable |
价格问题 |
4 |
6.0 |
性价比不足、消费成本 |
overpriced, expensive, not worth |
售后服务 |
2 |
3.0 |
沟通不畅 |
unresponsive, refused, rude |
其他 |
13 |
19.4 |
包装规格、购买便利性 |
wrong size, allergic, expectation |
Figure 2. Distribution of sub-problems under each problem category
图2. 各问题类别下子问题分布
4.4.3. LLM问题提取与结构化质量
选取200条人工标注评论对比分析如图3所示。关键词/规则、TF-IDF + 逻辑回归(在标注数据上5折交叉验证训练二分类)均未能有效识别问题,精确率、召回率、F1均为0;扩展关键词基线虽F1较高,但依赖人工词表、无结构化能力,无法归纳产品质量、价格等核心痛点的子类特征。本文方法采用零样本模式,无需人工构建词表,既能精准提取问题,又能输出层次化结构,在可解释性与实用性上显著优于基线。额外验证显示,LLM结构化输出的规范性、一致性、层级覆盖度均达1.0,层级粒度表现为5个一级类别、20个子类别(平均每类含4个子类),归纳粒度合理,可为后续分析提供清晰的层级支撑。
4.4.4. 消融实验
为验证PCA降维的有效性,实验对比了128、256、512、768四种不同维度下的聚类性能。结果如图4显示,四种维度对应的最优聚类簇数均为2;其中128维嵌入表现最优,相较于原始768维维度,其轮廓系数等核心聚类指标提升约15.9%,同时可保留84.75%的语义方差,且存储与计算成本降低约83.3%。该结果充分验证了PCA降维策略在去除冗余噪声、提升聚类效率与性能方面的有效性和高效性。
5. 结论
本文针对电商评论文本非结构化、语义碎片化及问题难以系统归纳等现实需求,提出了一种基于预训练语言模型与大语言模型协同的电商评论问题结构化分析方法,提供了一种从非结构化文本到结构化决策支持的自动化流程,并通过对比实验与消融实验验证了方法的有效性与合理性。结果表明,将预训练语言模型用于高质量语义表示、将大语言模型用于问题级语义提取与结构化归纳,能够充分发挥两类模型在语义建模与结构化推理方面的互补优势。进一步的维度消融实验表明,在保证主要语义信息的
Figure 3. Problem extraction phase assessment
图3. 问题提取阶段评估
Figure 4. Trends in the three evaluation indicators under different dimensions
图4. 不同维度下三个评估指标的变化趋势
前提下,通过PCA将语义嵌入维度降至128维,不仅能够有效抑制冗余噪声、提升聚类质量(轮廓系数约提升15.9%),同时显著降低存储与计算开销(约减少83.3%),验证了表示空间优化策略在效率与性能平衡方面的有效性。未来研究可从以下方面进一步拓展:一是引入更多预训练语言模型与大语言模型进行对比分析,以评估方法的模型泛化能力;二是将方法应用于更大规模、多品类及多语言的评论数据场景;三是结合问题优先级建模与问题关联分析,进一步提升结构化结果对实际决策的支持能力。