1. 引言
1.1. 研究背景
随着互联网技术的飞速发展和移动支付的普及,我国电子商务市场呈现出前所未有的繁荣景象。根据中国互联网络信息中心(CNNIC)最新报告,截至2025年6月,我国网络购物用户规模已达9.76亿人,网络购物已成为现代生活中不可或缺的一部分[1]。在这一背景下,电商平台上的用户评论作为消费者表达购物体验、传递情感态度的重要载体,其数量呈爆炸式增长。这些评论数据直接、真实地反映了用户对产品功能、服务质量、用户体验等多方面的主观评价,蕴含着巨大的商业价值与研究价值。
现在用户评论已成为连接消费者与商家的重要桥梁,不仅为潜在消费者提供了购买决策依据,也为商家和生产者提供了改进产品、优化服务、精准营销的宝贵线索。然而,这些评论数据通常体量巨大、形式多样且多为非结构化的文本信息,其中还掺杂着大量无关或重复内容。如何从海量、冗杂的评论中高效、准确地提取有价值的信息,深入理解用户的情感倾向与核心诉求,已成为学术界和工业界面临的重要问题[2]。
近年来,基于深度学习的文本分析方法在电商评论挖掘中展现出显著优势,其中基于Transformer架构的预训练语言模型(如BERT)因其强大的语义表征能力受到广泛关注。BERT (Bidirectional Encoder Representations from Transformers)模型通过双向编码器结构和大规模语料预训练,能够深度理解文本中的上下文语义关系,在情感分类、主题提取等自然语言处理任务中取得了极大的进展[3]。在电商产品评论分析中,BERT模型能够精准捕捉用户评论中蕴含的情感倾向,如对手机性能、拍照效果、续航能力等维度的正面或负面评价,这些细粒度的情感分析结果直接反映了用户对产品的满意度和核心诉求。
本次研究以京东平台上购买手机的用户评论为分析对象。基于BERT模型对手机评论进行情感分类,帮助消费者快速了解产品的口碑情况,而对于手机制造商而言,这些评论数据能够准确反映各机型在用户心中的实际表现。制造商可以通过分析海量评论中的情感倾向,及时发现产品的优势与不足,从而针对性地优化产品设计、改进用户体验。在准确挖掘用户情感倾向的基础上,企业能够以市场需求为导向进行产品迭代,提升产品竞争力,进而增强市场占有率。
1.2. 研究现状
目前,情感分析采用三种方法:混合方法,机器学习方法和基于词典的方法。基于词典和语料库的方法属于基于词典的方法的范畴,它们是用于情感分类的最初方法之一。深度学习方法都包含在基于机器学习的策略中用于情感分析[4]。混合方法结合了基于词典的技术和机器学习,通常显著地结合了情感词典。
在机器学习方法中,传统算法如支持向量机(SVM [5])、朴素贝叶斯、逻辑回归和随机森林等被广泛应用于情感分类任务。这类方法通常依赖手工特征(如词频、TF-IDF、n-gram)和情感词典,在数据量较小或标注样本有限的场景中仍具有一定的适用性。然而,这些方法在特征表达能力和上下文语义捕捉方面存在局限,尤其在处理长文本、隐含情感和复杂语言现象时表现较差。
随着深度学习技术的发展,基于神经网络的情感分析方法逐渐成为主流。Jianqiang等人[6]采用卷积神经网络(CNN)对推文进行情感分析,结合了单词的上下文语义特征、共现统计特征与n-gram特征,显著提升了短文本情感判别的准确性。Hyun等人[7]提出了目标依赖卷积神经网络(TCNN),通过建模目标词与上下文词之间的距离关系以更好地捕捉局部语义影响。Ma等人[8]扩展了长短期记忆网络(LSTM),提出Sentic LSTM模型,引入概念级输入与词级记忆的融合机制,增强了显性与隐性情感特征的提取能力。Chen等人[9]则将LSTM应用于中文产品评论的情感分析,验证了循环神经网络在序列建模方面的优势。
近年来,预训练语言模型(如BERT、RoBERTa [10]等)在情感分析中表现出卓越的性能,它们通过大规模语料预训练获取丰富的语言表示,在不同领域的情感分类任务中实现业界领先的效果。
2. 研究方法和研究设计
2.1. 情感分析
情感分析是自然语言处理中的一项重要技术,它通过计算手段自动识别和提取文本中蕴含的主观情感、态度和评价[11]。该方法能够对海量的用户评论、社交媒体内容等非结构化文本进行高效处理,不仅能够判断文本整体的情感倾向是积极、消极还是中性,还能够进一步挖掘评价的具体维度与方面,实现更细粒度的意见挖掘。它提供了各种优势,并在不同领域都得到了应用。不仅能够广泛应用于产品评价、品牌监控、市场研究等商业场景,也为社会舆情分析和决策支持提供了有效依据。
2.2. 研究方法
BERT (Bidirectional Encoder Representations from Transformers),即基于Transformer的双向编码器表示。与传统单向语言模型(如GPT)按顺序处理文本不同,BERT具有双向深度双向编码架构。它通过掩码语言模型(MLM)和下一句预测(NSP)两大预训练任务,在海量无标注文本上学习语言表示,从而能够生成基于上下文环境的动态词向量,深刻理解词汇在特定句子中的完整语义。BERT在情感分析中的应用主要体现在其能够对文本进行深层的上下文语义编码,从而精准理解词汇在具体语境中的真实情感倾向。它通过预训练获得的基础语言知识,可以有效处理反讽、否定和依赖远距离上下文的复杂情感表达。在实际应用中,通过在网络顶端添加一个分类层,并在特定领域的评论数据上进行轻量级的微调(Fine-tuning),即可快速实现高性能的情感二分类(正面/负面)或多维度情感分析,是精准识别用户情感倾向的重要工具。
本文主要基于Python语言,利用预训练BERT模型对采集自电商平台的手机评论进行深度语义分析与情感分类,通过微调策略使模型适配领域数据特征,最终实现高准确率的评论情感极性判别。
2.3. 研究流程
本研究首先通过采集工具抓取京东平台手机商品评论数据,之后利用Python对评论进行数据预处理,包括删除无效短评、去除无关符号与噪声、进行文本分词及去停用词等操作。随后基于词频统计提取高频特征词,并生成词云图以直观呈现评论焦点。在此基础上,本研究引入BERT预训练模型,通过微调方式实现对评论情感的三分类(正面、中性、负面),从而精准识别用户情感倾向。最后,借助LDA主题模型挖掘不同情感倾向下的用户关注主题,提取核心观点,为产品优化与营销策略提供依据。流程图见如下图1。
Figure 1. Research flow chart
图1. 研究流程图
3. 数据获取预处理
3.1. 数据收集
京东作为中国领先的自营式电子商务企业,为消费者提供涵盖数码、家电、日用等全品类商品的一站式购物服务。尤其在智能手机销售领域,京东凭借其强大的供应链能力和正品保障优势,已成为国内消费者购买手机的首选平台之一,其手机品类销量常年位居行业前列,用户评论数量庞大、更新及时,具有显著的市场代表性和数据完整性。
基于京东平台在手机销售及用户反馈方面的权威性和典型性,本研究选取京东平台上某手机品牌的用户评论作为研究对象。通过Python编程语言与Selenium自动化工具相结合,实现了手机商品评论数据的抓取与清洗。经过对重复评论、无效内容及非相关文本的系统筛选,最终构建了一个共计9822评论的高质量语料库。所获数据来源可靠、内容翔实,具有良好的代表性和可分析性,适用于深入的手机用户情感分析与产品评价研究。一些评论案例如图2所示。
Figure 2. Mobile phone comment display
图2. 手机评论展示
观察图2,包含的用户评价信息有用户id、评论内容、评分等。星级评分表示消费者对于该商品的满意程度,取值区间为1~5星,星级越高,表示消费者对该商品越满意。由于本文研究内容是文本数据的情感倾向,因此需要爬取评分和评论内容等内容。获取的部分有效评论数据如表1所示。
Table 1. Examples of online reviews
表1. 在线评论示例
用户名称 |
评分 |
时间 |
评论内容 |
类型 |
暴***8 |
5 |
2025.3.5 |
本来还很担心东西不好,拿到手发现完全多虑了,五星好评品质一级棒,包装也不错,物流很快,而且价格合理,很喜欢 |
好评 |
j***3 |
4 |
2025.3.14 |
政府补贴,京东的送货速度跟体验一直是最好的,虽然屏幕有个点贴膜前擦不干净,但不影响使用,客服也妥善处理了。 |
中评 |
7***4 |
1 |
2025.1.2 |
刚到手就降价,还不能价保 |
差评 |
3.2. 数据预处理
在数据分析之前,需对原始评论数据进行预处理,以提升数据质量与分析效率。本研究共获取淘宝手机评论9822条,经去重及预处理后,保留有效评论8407条。预处理主要步骤如下。
1) 评论去重:评论去重是指从原始数据中识别并删除重复的评论内容。在电商平台中,评论文本重复现象较为普遍,主要可分为两种情况:一是评论内容本身存在大量重复,例如“默认好评”、“此用户未填写评价内容”等平台默认填充文本;二是因数据采集过程中页面刷新或信息重复加载,导致同一评论被多次抓取。这两类重复均需在预处理阶段予以清理。
2) 文本清洗:去除评论中的无关字符,如特殊符号、表情符号、网址等,仅保留中文字符、英文字母和数字,并统一转换为简体中文。
3) 文本分词和词性标注:由于使用的是中文模型,故不需要额外分词。使用BERT中的tokenizer处理将文本转换为子词单元。部分分词后的评论数据如表2所示。
4) 标签编码:将情感类别(负面、中性、正面)转换成数字标签,将评分5分标记为好评,1~2分标记为差评。
Table 2. Comment data after partial word segmentation
表2. 部分分词后评论数据
评论内容 |
评分 |
情感倾向 |
购买 活动 价格 划算 发货 速度 很快 物流 送货 打开
包装 发现 设备 颜值 顺畅 运行 速度 拍照 效果 |
5 |
正向 |
价格 实惠 音质 清晰 穿透力 售后服务 无虑无忧 京东
快递 发货 神速 明天 有待 时间 考证 希望 失望 |
4 |
正向 |
降价 物流 客服 售后 敷衍 |
1 |
负向 |
3.3. 评论主题词云图
经过上述的文本数据预处理后,我们通过词云图对处理后的手机评论数据进行可视化展示,如图3所示。从词云中我们可以看出,消费者提及最为频繁的五个词汇为“手机”“外观”“质量”“不错”和“速度”。这反映出消费者在评论中普遍表现出较为积极的情绪,尤其关注产品的整体外观设计、质量可靠性以及设备运行速度。词汇“不错”的出现频率较高,进一步说明用户对这些方面的体验持肯定态度,说明该手机在设计美学、工艺质量和性能表现上获得了用户的广泛认可,整体口碑较为良好。
Figure 3. Comment on the keyword cloud map
图3. 评论主题词云图
4. LDA模型构建与情感分析
4.1. 基于LDA主题模型的特征分析
困惑度(Perplexity)是评估语言模型预测能力的重要指标,也常用于衡量LDA主题模型性能,其值越低表示模型预测越准确。在LDA模型中,主题数k是一个需预先设定的超参数,直接影响模型效果与主题质量:k过大易导致主题重叠和模型复杂化,k过小则可能遗漏关键主题。在文本分析中,对于识别文档的语言模型来说,可以识别文档是否包含不确定性的主题。数值结果与不确定性呈正相关关系,数值越高,不确定性就越大,说明模型的聚类结果一般。在LDA中,困惑度的计算公式为:
(1)
公式中M和D分别表示文档和语料库的测试集,Nd表示每篇文档d中的单词数,Wd表示文档中的词,
表示文档中词W产生的概率。
以京东手机售后评论为数据,进行LDA主题挖掘与可视化。如图4,发现当k = 3时,模型困惑度最低,主题之间重叠最少、区分最明显,表明该设定聚类精度更高,能更有效地概括评论内容。因此,将评论划分为三个主题更为合理。
本文使用LDA主题聚类模型得到3个主题,并选取了每个主题排名前10的特征词,结果如表3所示。结合日常生活信息,并根据表内高权重特征词的含义,最终将3个主题概括为手机产品质量、客户的评价、服务与售后。
第一类主题主要聚焦于手机的产品质量,相关的高频词汇中排名前十的包括“手机”“性能”“音效”“拍照”“质量”“外观”“屏幕”“性价比”“续航”和“充电”等。这些词汇不仅覆盖了手机硬件和性能的核心维度,也反映出消费者在选购手机时最为关注的产品特质。主题分析表明,用户高度重视手机的整体质量及各项基础功能的表现,例如摄像能力、音响效果、显示质量、续航时间以及操作流畅性等。同时,“性价比”一词的突出也说明消费者在追求产品质量的同时,对价格和性能之间的平衡具有明确的预期。整体来看,该类主题突显了当前市场中对手机本身综合体验的迫切需求,以及消费者
Figure 4. Line chart of topic number and perplexity
图4. 主题数与困惑度折线图
Table 3. Feature words of different themes
表3. 不同主题的特征词
主题 |
关键词 |
1 |
手机、性能、音效、拍照、质量、外观、屏幕、性价比、续航、充电 |
2 |
不错、推荐、满意、体验、清晰、特别、感觉、不行、时尚、惊艳 |
3 |
速度、物流、京东、很快、收到、商家、售后、快递、服务、包装 |
在功能完备性与实际使用感受之间的权衡。
第二类主题集中反映了消费者对手机产品的主观评价与使用感受,排名前列的高权重词汇包括“不错”“推荐”“满意”“体验”“清晰”“特别”“感觉”“不行”“时尚”及“惊艳”等。这些用语不仅体现出用户在性能之外格外重视整体使用体验和情感反馈,也显示出消费决策中口碑与主观印象的重要影响。正面词汇如“惊艳”“满意”和“推荐”突显了用户对产品显著优势的认可和自发分享意愿,而“不行”等表述则暗示部分体验未达预期,反映出用户在情感层面的敏锐感知。与此同时,“时尚”“清晰”等评价维度,也表明消费者对外观设计、显示效果等具象特征存在明确偏好。整体来看,这一类主题侧重于用户的情感反应和社交传播导向,补充了产品质量维度之外的口碑要素,进一步勾勒出消费者从实际使用到情感认同的整体评价路径。
第三类主题转向了消费过程中的物流与服务环节,排名靠前的高权重词包括“速度”“物流”“京东”“很快”“收到”“商家”“售后”“快递”“服务”及“包装”。这些词汇集中体现了消费者在购买后阶段对平台及商家服务能力的重视,尤其关注物流效率、售后支持及商品交付的完整性。诸如“很快”“速度”等评价凸显出用户对配送时效的高预期,而“售后”“服务”等词则反映出其对购买保障和长期使用支持的需求。此外,“包装”一词也暗示用户对商品交付状态和外包装完整性的在意。整体上,该主题呈现出消费者从下单到收货乃至售后全流程中的体验关切,进一步补充了产品功能与口碑评价之外的服务维度,凸显出电商消费中“物流与服务”已成为影响满意度和复购决策的关键因素。
4.2. 基于BERT模型的情感分析
4.2.1. 评价指标
本文使用准确率(Accuracy),精确率(Precision),召回率(Precision),F1值作为评价指标。这些指标从不同角度评估模型性能:准确率反映整体预测正确性;精确率和召回率分别关注正样本预测的准确性和覆盖率;F1分数综合平衡精确率和召回率。其计算公式如下:
(2)
(3)
(4)
(5)
其中,TP表示正确预测为正样本,TN表示正确预测为负样本,FP表示错误预测为正样本,FN表示错误预测为负样本。
4.2.2. 模型训练策略与结果展示
本文采用3.2节中对评论数据的标注规则,即评分5分标记为好评(正向),1~2分标记为差评(负向)。接着,将标记好的8407条评论数据,采用随机抽样的方式以4:1的比例划分训练集与测试集,其中训练集为6725条,测试集为1682条。
模型架构以BERT-base-Chinese预训练语言模型为基础,该模型在大规模中文语料上经过充分预训练,具备深厚的语言理解能力。在其基础上对模型进行微调,在其基础上添加一个分类层,将BERT的[CLS]标记对应的输出向量输入到一个全连接层中进行三分类。使用Hugging Face的Transformers库来构建模型,并采用表4训练参数来微调模型。
Table 4. Parameter setting
表4. 参数设置
参数 |
值 |
BERT模型 |
Chinese base |
输入序列最大长度 |
512 |
学习率 |
2e-4 |
优化器 |
Adam |
学习率 |
2e-5 |
Batch_size |
16 |
Dropout |
0.01 |
为评估本文使用的基于BERT的情感分析模型,采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数等指标来全面评估模型性能。具体实验结果如下表5所示。
Table 5. BERT model results evaluation
表5. BERT模型结果评估
评价指标 |
结果(%) |
准确率 |
91.0 |
精确率 |
90.4 |
召回值 |
90.9 |
F1值 |
90.1 |
结果显示本文的准确率、召回率、F1值在该数据集的训练结果上都具有较好的结果,整体来看模型的性能较为出色。综上所述,本文使用的基于BERT的情感分析模型性能较好,能够较为精确的识别在线评论的属性及情感极性。
4.2.3. 消费者情感分布分析
基于BERT进行情感分析,并设情感得分大于0.6为正向情感倾向评论,0.6到0.4之间为中性情感倾向评论,小于0.4为负向情感倾向评论。在不同的主题下,不同情感类型的占比如表6所示。
Table 6. Consumer sentiment distribution statistics
表6. 消费者情感分布统计结果
主题 |
情感类型 |
数量(条) |
百分比 |
产品质量 |
正向情感 |
4652 |
85.19% |
中性情感 |
591 |
11.28% |
负向情感 |
214 |
3.53% |
客户评价 |
正向情感 |
3762 |
82.26% |
中性情感 |
608 |
13.32% |
负向情感 |
206 |
4.42% |
服务与售后 |
正向情感 |
2913 |
76.14% |
中性情感 |
547 |
14.32% |
负向情感 |
365 |
9.54% |
在三种的主题中,积极情绪反馈均占据了主导地位,在产品质量方面最高,占比高达85.19%,这表明消费者对手机产品的整体满意度较高,普遍持有认可和推荐的态度。特别在积极情绪中,用户反馈多集中于手机性能、拍照效果、续航及流畅度等核心功能,典型评论如“买到了心仪的商品,物美价廉,质量绝佳。物流迅速,商家服务周到,售后无忧。不得不说,这商品太值了”。“运行流畅,玩游戏完全没有卡顿”等,都体现出消费者对产品硬件实力和综合体验的充分肯定。在服务与售后的主题上,积极情绪比其它两个主题的占比要低不少,可见网上的服务与售后方面做的还不够好。
在三种的主题中,中性情绪占比的比例大致相同,这说明了仍有一部分消费者在体验后未形成强烈的情感倾向,其评论往往带有一定保留,如“手机还不错,就是手感有点重”“系统好用,但充电有点慢”。这类用户虽对产品以及服务等基本认可,但仍存在可优化的体验,提示企业应在细节层面持续改进,以推动他们转向更积极的反馈。
在三种主题中,负向情绪的比例均未超过10%,但负面情绪应该是卖家应该着重注意的地方,从主题一来看,负面情绪占比3.53%,但内容多集中在手机具体功能缺陷或服务环节的不足,其中出现最多的就是“信号不好”“充电速度较慢”等。这些评论显示出,某些关键体验的短板会显著影响用户整体评价。商家对于产品的改进应该着重于这些方面。在主题三中,负面情绪相较于其他两个主题要更多一些,达到了9.54%。其中主要的负面评论例如“买了几天就降价,保价只保七天”“外观有磕碰,客服人员不给售后”这些负面反馈中指出的明显产品缺陷或服务失误,值得品牌高度警惕,避免因负面体验扩散而影响品牌声誉。
5. 结论
5.1. 研究结论
本文采用基于BERT的情感分析技术和LDA主题建模方法,对电商平台手机产品的用户评论进行了多维度挖掘与分析,以探究消费者对手机产品的关注焦点与情感倾向。通过构建主题模型和细粒度情感分类,研究发现用户讨论主要集中在手机产品质量、功能性能、外观设计、性价比以及物流与服务体验等方面。分析表明,消费者尤为重视手机的核心性能表现,如运行流畅度、拍照效果、续航能力等,同时对外观设计与性价比也具有较高关注。
不同主题下的情感分析结果显示,绝大多数手机的评论都表达了积极情绪(最高占比85.19%),体现出用户对手机产品整体满意度较高;中性与消极情绪虽占比较低,用户主要在信号、充电体验及售后服务等方面存在的顾虑与不满。这一方面说明当前手机市场主流产品能够较好满足用户预期,另一方面也提示生产商与平台应继续优化产品细节与配套服务,尤其需重视负面反馈中暴露的薄弱环节,从而进一步提升用户体验与品牌忠诚度。
5.2. 电商平台手机销售建议
本文根据LDA主题模型与情感分析结果,消费者关注点高度集中于产品本身的质量性能、主观使用体验及物流售后服务三大维度。据此,提出以下建议。
5.2.1. 产品优化与定位突出
优化信号与充电体验:数据显示,用户负面反馈高度集中于信号与充电问题。商家应将此作为产品改进的核心突破口。
强化核心卖点,精准触达用户:由于用户对于“性能”、“拍照”、“续航”、“流畅度”等的积极情绪较高,品牌方应突出优势。通过技术解读、专业评测、对比视频等方式,突出手机在性能、拍照、流畅度等方面的独特优势,形成差异化竞争优势。
5.2.2. 服务与体验优化
用户反馈机制:建立完善的用户反馈机制,及时收集并分析用户对手机的使用反馈,不断优化产品功能和用户体验。
售后服务升级:服务层面的负面情绪占比达9.54%,厂商应该建立更主动的服务体系。例如,提供首次设置指导、积极与用户沟通、故障远程诊断、以旧换新一站式服务等。第一时间联系用户解决问题,将服务差评转化为展示服务诚意的机会。
5.2.3. 营销创新与品牌口碑
基于主题的精准广告投放:对用户进行调查归类,实现广告的精准推送。向关注“拍照”的用户推送影像旗舰机型;向关注“性价比”的用户推送优惠活动和秒杀信息。
线上线下融合:结合线上电商平台和线下实体店的优势,开展线上线下联动的营销活动,如新品发布会直播、限时抢购、线下体验会等,提升用户购买体验和品牌忠诚度。
正向口碑的挖掘与传播:积极参与社会公益活动,如教育支持、灾害救援等,通过实际行动传递正能量,提升品牌形象和社会影响力。