1. 引言
用户需求被视为产品和服务创新的核心动力源,真实把握用户需求对提升企业竞争力具有重要价值。电子商务的爆发使平台每天实时沉淀亿级购后评论,这些图文、视频与追评跨越地域时段,完整记录消费者从下单到长期使用的真实情绪与细节,天然覆盖性能、服务、物流等全链路场景,既反映瞬时痛点,也累积长周期口碑演化;相较传统问卷或访谈,其规模、细粒度与低获取成本优势显著,为商家精准识别用户需求提供了高价值、低成本的全新入口。
正确识别用户的正负情感状态是准确把握用户需求的前提,现有研究中,通常应用机器学习和深度学习算法对大规模用户评论进行情感分析。李高翡等结合分裂粒子群优化算法与集成学习,提高了模型情感分类性能[1],体现了机器学习在情感分析中的技术价值。而深度学习方法则更多依赖神经网络模型,其中循环网络,如孙玲玲等使用长短时记忆神经网络(Long Short-Term Memory neural networks,简称LSTM),对热点主题的用户关注度和满意度进行了动态挖掘[2];卷积网络,如李俭兵等将权重分配层引入卷积网络,强调文本中的关键部分,同时采用门控机制缓解了梯度下降过程中梯度弥散或爆炸的问题[3]。为了解决卷积网络池化层的信息丢失问题,并给出包含更精准空间信息的输出,有学者提出了胶囊网络(Capsule Network,简称CapsNet)的概念,如季陈等使用了一种混合模型,将双向LSTM (BiLSTM)和CapsNet相结合,能更有效地处理细粒度情感分类任务[4]。此外,预训练语言模型也在情感分析中发挥出重要作用。张国方等使用BERT (Bidirectional Encoder Representations from Transformers)从用户评论中提取了产品特征和情感倾向[5]。其后,研究者进一步探索BERT的变体,如XLNet、RoBERTa和ERNIE等,拓展了模型对语义关系和上下文的处理能力。
助听器(hearing aid, HA)是目前公认的能有效改善听力损失者听觉能力的康复辅具,能提高语言识别和日常沟通质量,还能改善耳鸣等症状[6]。有研究表明,听力损失人群在使用助听器后,具有更好的社会交往能力,较低的抑郁水平和较高的总体健康状态[7] [8]。据WHO在2021发布的《世界听力报告》中统计,全球约4.66亿人存在听力损失,其中60岁及以上人群占一半以上[9]。随着我国老龄化程度的加深,已经成为世界上听力患者最多的国家,但老年听力损失人群助听器干预率却不足10% [10],老年人的听力健康已成为国家关注的重点健康问题。社会对助听器产品需求的增加和对听力健康重视程度的提升,共同驱动着助听器技术与服务的持续创新;而实现有效创新关键,在于对用户多层次、场景化的个性化真实需求进行系统识别与精准响应。
随着数字消费的发展,助听器这一原本依赖线下验配的高壁垒品类加速向电商平台迁移,线上销量激增直接带来评论体量的指数级膨胀:仅京东、天猫两大平台,单款主流型号即可收获数十万条追评与图文视频,并随促销节奏持续更新。电商评论可爬取、可追溯的特性,使研究者与厂商能够以低成本批量获取跨地域、跨年龄、跨听损程度的真实使用数据,快速定位差评集中区间与需求漂移方向,从而将原本分散的个体体验转化为可量化、可迭代的产品优化坐标,为精准识别并响应助听器的个性化用户需求提供了电商原生的高时效入口。
本研究构建了BiLSTM-LDA研究框架,基于助听器用户在线评论文本,应用深度学习中的BiLSTM进行情感分析,通过LDA进行主题识别,了解助听器用户对助听器技术和服务的需求,提出提高助听器满意度的建议,以有效改善听损人群的生活质量。
2. 理论基础
2.1. 双向长短时记忆神经网络(BiLSTM)
BiLSTM通过两个LSTM层分别处理正向和反向序列,以捕获完整的上下文信息。LSTM是由Hochreiter等于1997年提出一种特殊的循环神经网络(Recurrent Neural Network) [11],其主要特点是能够学习长期依赖关系,解决了梯度消失或梯度爆炸的问题。一个LSTM单元包含以下几个组成部分[12]:
(1) 输入门(Input Gate):决定新输入的哪些部分应该被添加到记忆单元中。
(1)
(2) 遗忘门(Forget Gate):决定记忆单元中哪些信息应该被遗忘。
(2)
(3) 记忆单元(Cell State):更新记忆单元的状态。
(3)
(4)
(4) 输出门(Output Gate):基于记忆单元的状态,决定最终的输出。
(5)
有记忆细胞后,可通过输出门来控制记忆细胞到隐藏状态Ht的信息的流动:
(6)
在这个过程中,每个时刻的输出都会作为下一个时刻的输入,使LSTM能够在序列数据中保持长期记忆。其中,It为输入门激活值;Ft为遗忘门激活值;Ct为记忆细胞状态;Ot为输出门激活值;Ht为当前时刻隐藏状态;Xt为当前时刻输入;Ht−1为上一个时刻的隐藏状态;Wxi,Wxf,Wxo,Wxc依次为输入门、遗忘门、输出门和候选记忆细胞的输入权重矩阵;Whi,Whf,Who,Whc依次为输入门、遗忘门、输出门和候选记忆细胞的隐藏状态权重矩阵;bi,bf,bo,bc依次为各门的偏置项;
为候选记忆细胞;Ct−1为上一个时刻的记忆细胞状态。σ为sigmoid激活函数;tanh为双曲正切激活函数。
2.2. LDA模型
Latent Dirichlet Allocation (LDA)是用于离散数据集合的生成概率模型,由Blei等于2003年提出[13]。LDA模型包括两个随机过程:文档生成和词语生成。基本思想是将文档视为潜在主题的随机混合物,其中每个主题都以单词分布为特征,并通过统计推断方法,揭示隐藏在文本中的主题信息。
近年来,研究者不断提升LDA在实际数据中的建模效果。为进一步提升LDA对语义结构的捕捉能力,Ma等将LDA与Word2Vec方法结合,用于构建多层次主题演化模型,提高了对认知内容动态变化的建模精度[14]。与此同时,Zimmermann等指出,数据预处理质量直接影响LDA建模效果,尤其是在短文本语料中,分词、停用词过滤与短语识别策略需根据具体语境优化[15]。LDA还被应用于对科学政策文本的结构性理解,如Yoann等通过大规模语料建模分析“科学–政策领域”中的主题分[16],为研究复杂文本语义结构提供了方法参考。此外,Dejian Yu等利用LDA揭示人工智能领域的研究主题演变,体现出该方法在识别文本数据中潜在趋势与用户关注点方面的优势[17]。
3. 情感分析模型构建
实验环境依托Windows 10的操作系统,使用Jupyter Notebook和Pycharm IDE搭建Python3.9实验平台。对比各个网络购物平台中助听器产品的评论页,京东的用户评论数据较为优质,即数据充足、真实性高、刷单行为少,故将其作为数据来源。
3.1. 数据的获取与预处理
使用Pycharm运行scrapy框架,以助听器为关键词,共爬取到评论数据45,916条,涵盖309个商品。使用Jupyternotebook进行数据的统计性分析并绘制图1,价格和毛重存在离群值,且呈非正态分布。鉴于产品存在迭代、评论有时效性,本研究选取2023年9月至2024年3月的数据,共11,263条;为保证数据的可靠性,剔除图1所示价格、毛重中包含离群值的样本,并删除无效评论;同时,为保证数据的针对性,选取产品适用人群为重度听损者的样本。最后留存5281条评论文本。
对评论数据进行标记。样本中差评极少,而好评中提出不少产品缺陷,故随机选取1/2的数据集由两名研究人员做人工双盲标注,以用户是否提出产品不足为标准,将数据标记为积极与消极两类。对比后,两组标签一致度为94.85%,保留标签一致的数据共2504条,并剔除评论文本长度为离群值的数据,留存训练数据2391条。
非平衡数据处理。负面评论占比为14.38%,表明数据集不平衡。先将数据集划分为训练集和测试集,训练集比例为0.7。随后通过随机欠采样来平衡训练数据,最终得到1074条记录。
分词、删除停用词、文本向量化。评论有口语化的特点,适用Jieba分词;结合百度停用词表和哈工大停用词表,对文本数据进行了停用词过滤操作;采用TF-IDF (Term Frequency-Inverse Document Frequency)方法将文本向量化。
Figure 1. Box chart and distribution of hearing aid price and gross weight
图1. 助听器价格与毛重的箱型图与分布情况
3.2. 机器学习算法建模
使用到逻辑回归、决策树、随机森林、梯度提升树(Gradient Boosting Trees,简称GBT)、极度随机树(Extremely Randomized Trees,简称ERT)、支持向量(Support Vector Machine,简称SVM)和stacking集成学习进行建模。由于传统机器学习模型性能都较为优秀,即使全放入stacking中,带来的噪声也不多,且可能增加模型稳健性,因此在stacking模型中,以逻辑回归为元分类器,并将上述几个传统机器学习模型都作为基分类器。其余各模型通过网格搜索法调参,以分类准确率为标准,穷举出最佳参数,见表1。
Table 1. Traditional machine learning model parameters
表1. 传统机器学习模型参数
模型 |
参数名 |
参数值 |
参数取值范围 |
参数含义 |
逻辑回归 |
penalty |
l2 |
l1, l2 |
惩罚项,L2正则化(岭回归) |
multi_class |
auto |
auto |
根据solver自动选择多分类策略 |
C |
1.0 |
1.0 |
正则化参数 |
max_iter |
10 |
range (50, 200, 10) |
最大迭代次数 |
solver |
lbfgs |
'newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga' |
优化算法 |
决策树 |
criterion |
gini |
'gini', 'entropy' |
节点分裂准则,使用基尼不纯度 |
splitter |
random |
'best', 'random' |
寻找最佳分裂的策略,随机选择 |
max_depth |
50 |
10, 20, 30, 40, 50 |
树的最大深度,防止过拟合 |
随机森林 |
n_estimators |
300 |
100, 200, 300 |
森林中决策树的数量 |
criterion |
entropy |
'gini', 'entropy' |
节点分裂准则,使用信息增益 |
max_features |
sqrt |
'auto', 'sqrt', 'log2' |
在寻找最佳分裂时要考虑的特征数量 |
GBT |
criterion |
friedman_mse |
'friedman_mse', 'mse' |
分裂节点的标准 |
|
learning_rate |
0.1 |
0.01, 0.1, 0.2 |
学习率 |
max_depth |
7 |
3, 5, 7 |
树的最大深度 |
n_estimators |
200 |
100, 200 |
模型中树的数量 |
ERT |
criterion |
gini |
'gini', 'entropy' |
节点分裂准则,使用信息增益 |
n_estimators |
200 |
100, 200 |
模型中树的数量 |
max_features |
sqrt |
'auto', 'sqrt', 'log2' |
在寻找最佳分裂时要考虑的特征数量 |
SVM |
kernel |
linear |
'linear', 'poly', 'sigmoid' |
线性核函数,决策边界 |
C |
10 |
0.1, 1, 10, 100 |
正则化参数 |
gamma |
scale |
'scale', 'auto' |
核函数的系数 |
3.3. BiLSTM建模
本研究使用了BiLSTM算法,以及引入注意力机制的BiLSTM (BiLSTM-att)。BiLSTM-att除却注意力机制与隐藏层数,其他参数均一致,详情见表2。在模型训练过程中,提取25%的训练集作为验证集,采用交叉熵损失函数和Adam优化器,学习率和权重衰减通过设置超参进行训练。在每个训练周期结束时,通过在验证集上评估模型性能,记录不同阈值下的验证损失和准确率,以确定最优阈值。
Table 2. Deep learning model parameters
表2. 深度学习模型参数
|
参数名 |
参数值 |
参数取值范围 |
参数含义 |
BiLSTM |
input_dim |
X_train_tensor.size(2) |
X_train_tensor.size(2) |
输入数据的维度,等同于各时刻的特征数量 |
hidden_dim |
256 |
128, 256, 512 |
隐藏层节点数 |
out_dim |
2 |
2 |
输出层的输出维度 |
num_layers |
2 |
2, 3 |
隐藏层数 |
bidirectional |
True |
True |
设置为双向LSTM神经网络 |
dropout |
0.3 |
0.2, 0.3, 0.4 |
遗忘率 |
learning_rate |
0.001 |
0.01, 0.001, 0.0001 |
学习率 |
weight_decay |
0.0001 |
0.01, 0.001, 0.0001 |
防止过拟合 |
BiLSTM-att |
num_layers |
3 |
2, 3 |
隐藏层数 |
attention_heads |
8 |
8, 16, 24, 32 |
多头注意力机制参数 |
3.4. 模型性能对比及分类结果
对比7个传统机器学习模型和2个深度学习网络的准确率、精确率、召回率和F1值,如表3。
由此可见逻辑回归、GBT和BiLSTM的准确率并列第一,而BiLSTM模型的F1远高于其他模型,因此选择BiLSTM模型作为情感分类工具。此外,引入多头注意力机制后,BiLSTM模型的两项指标都有下滑。猜测原因可能如下:其一,样本规模较小,多头注意力机制导致过拟合;其二,注意力机制通常对文本长度和结构敏感,数据集中的文本长度存在一定差异;其三,数据集特征稀疏,注意力机制难以捕捉到有用的信息,导致性能下滑。
Table 3. Model performance comparison
表3. 模型性能对比
模型 |
Accuracy (%) |
Precision (%) |
Recall (%) |
F1 (%) |
逻辑回归 |
90.25 |
82.76 |
26.97 |
40.68 |
决策树 |
80.64 |
33.55 |
57.30 |
42.32 |
随机森林 |
88.86 |
55.42 |
51.68 |
53.49 |
GBT |
90.25 |
66.67 |
42.70 |
52.05 |
ERT |
89.28 |
57.89 |
49.44 |
53.33 |
SVM |
85.65 |
44.70 |
66.29 |
53.39 |
stacking |
89.69 |
59.04 |
55.06 |
56.98 |
BiLSTM |
90.25 |
80.27 |
68.39 |
72.30 |
BiLSTM-att |
89.55 |
81.13 |
62.21 |
66.16 |
载入训练好的BiLSTM分类模型,对剩余2639条数据进行分类,并与先前人工分类的样本合并。其中积极样本4809条,消极样本470条。
4. 应用LDA提取助听器用户需求
Figure 2. The results of the LDA model
图2. LDA模型结果
为防止低信息密度高频词对于主题数据的污染,自定义停用词表,内含词汇包括“很好”、“满意”、“不错”等。与此同时,应用了TF-IDF加权方法,进一步减少余下低信息密度高频词的影响。此外,为了提高LDA模型性能,定义了同义词表,并对出现次数小于15次的低频词以及出现比例大于0.7的高频词进行过滤,且最终仅考虑信息量最大的500个词汇。比对LDA模型在1~10个主题下的一致性和困惑度后,发现LDA模型在主题数为5时主题内词汇的一致性最高,达到了0.5390;与此同时困惑度较低,为72.01,因此最终确定主题数为5个。使用pyLDAvis模块,绘制聚类结果如图2所示。用户需求主要侧重主题4,该主题最关注产品本身性能;且主题1与主题4产生部分交叉,主题1更关注产品的快递与物流,由此推测顾客需求往往集中于产品性能及其配送服务方面。
刘洪波等调研分析助听设备产品外观的多元化设计,为听障群体心理保护与审美情感的提升提供参考[18];此外,关注到助听器评论中存在超高频词汇“老人”,故参考其他适老产品设计因素,如杨超翔等归纳出用于描述产品的感性意象,并将感性意象转换成评估准则,成功设计了适老化理疗仪[19]。在文献研究和全数据集主题关键词分析的基础上,结合5个主题的关键词,提炼出助听器用户的5个一级需求维度:功能性、舒适性、美观性、智能性、关怀性。此外,基于上述作者的研究成果,对产品智能性和关怀性两个一级维度,进行了二级维度的扩展,以求提高产品的人性化与个性化。具体的助听器顾客需求维度,见表4。
Table 4. Hearing aid customer demand dimension
表4. 助听器用户需求维度
维度 |
细分维度 |
维度解释 |
评论关键词示例 |
功能性 |
扩音能力 |
产品对声音信号的放大能力 |
没有助听效果 |
降底噪 |
产品放大声音信号时对底噪的剔除能力 |
嗡嗡嗡响 |
防啸叫 |
产品防止输出啸叫的能力 |
没有啸叫 |
舒适性 |
耳塞舒适性 |
产品耳塞尺寸与材质的舒适性 |
老人很容易误碰导致耳塞脱落 |
防掉措施 |
防止产品从耳部脱落的措施 |
容易掉下来 |
尺寸 |
产品尺寸应在人体承受范围 |
更小的产品有利于深入耳道 |
美观性 |
颜色 |
产品颜色 |
白色耳机结实漂亮 |
形态 |
产品形态符合人体工学 |
羽绒服外套容易触碰到那根线 |
智能性 |
场景识别 |
识别并剔除环境噪音 |
汽车经过之后助听器还有沙沙的声音 |
人声识别 |
识别并剔除用户自身的人声 |
- |
语音转文字 |
语音转文字辅助用户交流的工具 |
讯飞专长的音频转文字功能 |
听力健康检测 |
记录用户听力习惯,为听力诊疗提供依据 |
- |
其他健康检测 |
记录用户生理信息,例如体温、心率等 |
- |
定位功能 |
产品丢失后便于找回,
便于亲属了解用户地理位置 |
- |
紧急呼叫 |
检测到用户生理信息异常后,
可以提供紧急呼叫救助的功能 |
- |
关怀性 |
隐蔽性 |
维护听障人群的自尊 |
助听和蓝牙耳机二合一功能 |
个性化 |
帮助体现用户个体的个性 |
- |
配饰 |
提高耳饰与产品的兼容性 |
- |
随后,为进一步验证情感极性对需求聚焦的调节效应,沿用前述LDA超参数,对积极、消极评论分别重新提取主题。结果显示,积极评论的关键词集中于“小巧”、“精致”等外观意象,表明积极用户已将产品审美价值纳入决策考量;而消极评论则显著呈现出“噪音”、“耳塞”、“验配”等风险叙事。尽管消极评论数量相对较少,但所反映的问题更具紧迫性。一方面,部分用户提出的产品设计问题具有较强的可行性和调整空间,例如耳塞设计尺寸与材料等,企业可据此在短期内优化方案,提供可选尺寸及材料的耳塞配件,增强市场竞争力。另一方面,用户对验配可自行完成的误解,暴露出对助听器使用知识的严重缺乏,直接影响助听器产品使用的安全性。不当验配可能引发啸叫与噪音,甚至导致听力进一步受损。电商平台可在详情页嵌入“验配指引”短视频、设置客服自动回复关键词,并邀请听力师定期直播答疑,以长期、轻量的科普逐步提升用户听力健康意识,降低因误调配带来的不适风险。
5. 讨论
本研究以电商平台助听器用户评论为唯一数据源,通过情感分析与需求挖掘两个核心环节,深度还原了用户在购买–使用–追评全链路中的真实诉求。研究证实BiLSTM性能最优,准确率达到90.25%、F1达到72.3%,为后续主题过滤提供高置信度的消极评论样本池。LDA主题模型对全评论集建模,发现性能与物流为用户的普遍痛点。与此同时,基于全评论集5个主题,提炼出助听器用户的5个一级需求维度:功能性、舒适性、美观性、智能性、关怀性。LDA进一步针对消极评论的分析显示,企业通过优化耳塞设计尺寸与材料等方式,在短期内便能够满足部分用户需求,直接增强市场竞争力。然而截至目前,耳背式助听器的耳塞及耳钩尺寸参数仍缺乏科学依据。未来可以从人因工程角度出发,通过大量采集人耳三维数据建立数据库,深入研究人耳解剖特征以及不同人群耳型差异,同时探索新型材料的应用,并优化耳塞及耳钩设计。除此之外,长期视角下商家在重视电商平台为用户带来的便捷性优势的同时,仍需进一步普及助听器产品的验配服务。
本研究的结论不仅基于电商评论给出助听器设计改进的量化优先级,其“情感–主题–商品标签”三段式框架亦适用于轮椅、血糖仪等其他康养辅具的在线评价分析,帮助企业在电商环境中快速响应用户需求、提升转化率与用户生活质量。
NOTES
*第一作者。
#通讯作者。