1. 引言
随着互联网的飞速发展和物流效率的提高,生鲜消费作为在线购物的一个重要类别得到了快速发展,其消费比重呈现逐年增加的趋势。消费者购物习惯的转变和对便利性、选择多样性的追求,使得生鲜电商行业在全球范围内呈现出强劲的发展势头。生鲜产品易腐性、保质期短、对运输和储存条件要求高等特殊性,对物流服务质量提出了更高的要求和挑战。配送速度、包装完整性、商品新鲜度等一系列物流服务质量相关因素,与产品质量、价格等产品相关因素共同影响着消费者对生鲜产品的选择和满意度[1]。
数字化的在线用户生成内容(User-Generated Content, UGC)已然成为物流服务质量改进和发展的重要力量[2]。用户生成内容有文字、图片、音频和视频等多种形式,它们是用户主动参与、主导并分享的有价值信息。物流服务用户的在线评论,作为用户生成内容的一种类型,携带了物流服务用户的个性化需求信息和消费偏好信息,对物流服务消费者的选择物流服务的意愿具有深远的影响[3]。传统时代口碑只能在熟人与熟人之间口口相传,互联网时代的口碑是可以在陌生人之间传播的,而且陌生人占的比例更大,所以网络口碑营销的重要性更加明显。因此,深入研究和分析用户生成内容,特别是在线评论,对于理解消费者行为、提升物流服务质量,以及推动物流服务的发展具有重要意义。
消费者评价中往往携带着消费者的动机,如信息动机、社交动机、宣泄动机和共鸣动机等[4],动机是挖掘消费者评价价值的重要研究方向。动机是一种心理过程,是引起、维持和促进个体行动的内在力量,难以被直接地观察和测量。消费者动机就是消费者购买和消费产品或服务时最直接的原因和动力。然而人类的动机是复杂的、多层面的消费者的购买动机可能来源于一种动机也可能是多种动机的协同影响。而评论动机来自购买行为的内在驱使力,识别评论动机有利于提升服务质量。作为服务行业的分支,物流服务面向的是顾客,要改进服务质量,顾客的评论动机的识别可以带来针对性的改进,因此本研究从评论动机出发。通过深入研究用户的评论内容,可以揭示消费者对生鲜物流服务的期望、痛点和满意点,这对于提升物流服务质量、优化运营策略、增强竞争力具有重要价值。
机器学习和人工智能的迅速发展,为消费者评论信息的挖掘,提供了重要的工具和方法支持。深度学习在搜索技术、数据挖掘、机器学习、机器翻译、自然语言处理、多媒体学习、语音、个性化推荐技术以及其它相关领域都取得了很多成果。其核心思想是通过大规模的数据和计算能力来训练神经网络模型,使其能够自动学习复杂的特征和模式。在自然语言处理(Natural Language Processing, NLP)领域,传统的自然语言处理的研究方法存在一些如理解能力欠佳等弱点,使用深度学习模型与传统的NLP研究方法相结合的模式,逐渐成为该领域效果更好的一条研究路径。GPT和BERT等大型预训练模型取得的显著成果,验证了该路径的可行性和发展潜力[5] [6]。
本文将聚焦生鲜物流评论动机研究,旨在借助基于深度学习的文本研究工具剖析消费者在评论生鲜物流服务时的动机,并构建相应的动机识别方法,为改进服务质量提供量化依据。这一研究旨在为网络生鲜零售商和交易平台优化物流服务,提升服务质量提供实用的指导。
2. 模型结构
针对用户动机分类中存在提取困难等挑战,本文提出了RoBERTa-HA分类模型,首先引入基于深度学习模型Transformer的预训练模型RoBERTa感知用户评论的语义特征,创新性的结合多层注意力机制(Hierarchical Attention)提取文本中深层次的关键动机特征。
2.1. 基于RoBERTa-HA的文本分类模型
本章对预训练模型RoBERTa进行改进。首先将文本输入到RoBERTa预训练语言模型中,以获取精确的表征。随后在RoBERTa中创新性地引入了多层注意力机制层(Hierarchical Attention Networks, HAN),用于处理字词嵌入表示,通过多层次的注意力机制,突出关键词语的权重,提升对句子的理解。在获得局部特征之后,进一步融合RoBERTa的隐藏输出向量和HAN提取的特征,形成了RoBERTa-HA模型。最后通过全连接层对融合后的语义特征进行处理,最终得出文本分类结果。模型包括输入层、RoBERTa层、多层自注意力机制层、全连接层和输出层。模型结构如图1 RoBERTa-HA模型。
Figure 1. RoBERTa-HA model
图1. RoBERTa-HA模型
2.1.1. RoBERTa层结构
BERT模型提供了更高的语言理解水平,但存在固定输入长度大小限制、字片嵌入问题和计算复杂等问题16 [7]。RoBERTa (Robustly optimized BERT approach)是对BERT (Bidirectional Encoder Representations from Transformers)模型的改进和优化版本。在文本分类任务中,传统机器学习模型如支持向量机(SVM)和朴素贝叶斯(Naive Bayes)尽管在某些领域表现出色,但它们依赖于手工特征提取方法(如TF-IDF或词袋模型),难以充分捕捉中文文本中的复杂语法和语义信息,在处理非结构化和长度不一的评论文本时其性能会显著下降。
文本分类任务是一种基于token级别的任务,文本中的每个字或词(token)都会被用来构建RoBERTa模型的输入[8]。为了更好地完成任务,RoBERTa模型的序列开头会插入一个特定的token,即[CLS]。该[CLS] token隐含了输入句子的整体语义特征。它对应的最后一个Transformer层的输出用于聚合整个序列的表征信息。(图2)
Figure 2. RoBERTa layer
图2. RoBERTa层
对输入文本进行预处理,包括分词和添加特殊标记[CLS]和[SEP]。假设输入文本为T,分词后(这里对中文文档的处理方式是分字处理)得到token序列:
(2-1)
在序列开头添加特殊标记[CLS],在序列结尾添加[SEP],得到处理后的序列:
(2-2)
使用RoBERTa的词汇表,将每个token转换为对应的ID:
(2-3)
为每个token分配位置编码P,以保留序列中token的位置信息。RoBERTa使用固定的正弦和余弦函数来生成位置编码:
(2-4)
其中,
是位置编码矩阵,第(i)个位置的编码为
。
将token嵌入向量、位置编码和段编码叠加,形成最终的嵌入表示:
(2-5)
RoBERTa使用多层Transformer模型来处理输入嵌入,每一层的输入是上一层的输出。假设有l层Transformer,初始输入(第0层)为嵌入表示:
(2-6)
对于第l层Transformer,其输出表示为
:
(2-7)
最终,经过所有Transformer层的输出为
:
(2-8)
2.1.2. 多层注意力机制层构建
多层注意力机制层结构如图3。
Figure 3. Multiple layers of attention mechanisms
图3. 多层注意力机制层
由以下几个部分构成:
1) 字编码器(Word Encoder)。给定一个句子其中包括字
,其中
,首先通过嵌入矩阵
将字嵌入到向量中:
(2-9)
使用双向GRU来获取字的注释(annotation),总结来自两个方向的信息,因此在注释中包含上下文信息。双向GRU包含前向GRU和后向GRU:
(2-10)
(2-11)
通过连接前向和后向的隐藏状态,获取所给定字
的注释:
(2-12)
2) 单词注意力机制(Word Attention Mechanism)。并不是所有单词对句子意义的贡献都是相同的,因此引入注意力机制来提取对句子意义重要的单词,并将这些信息性的单词的表示聚合成一个句子向量。
将单词注释
通过一个单层的MLP获取其隐藏表示:
(2-13)
计算单词的重要性权重,这个权重表示为单词隐藏表示和单词上下文向量的相似度,使用softmax函数进行归一化:
(2-14)
根据这些权重对单词注释进行加权求和,得到句子向量
:
(2-15)
3) 句子编码器(Sentence Encoder)。给定句子向量
,可以通过类似方式获得文本向量。使用双向GRU来编码句子,通过连接前向和后向的隐藏状态,获取给定句子的注释:
(2-16)
(2-17)
(2-18)
4) 句子注意力机制(Sentence Attention Mechanism)。再次使用注意力机制并引入句子级上下文向量来衡量句子的相对重要性。首先,将句子注释通过一个单层感知器获取其隐藏表示:
(2-19)
计算句子的重要性权重,这个权重表示为句子隐藏表示和句子级上下文向量的相似度,使用softmax函数进行归一化,最后,根据这些权重对句子注释进行加权求和,得到文本向量
:
(2-20)
(2-21)
这些步骤共同构成了用于文本分类的层次注意力部分(HA)的基本架构。
2.1.3. 输出层设计
对v进行softmax归一化处理,得到评论在各动机分类的概率分布矩阵,选择具有最高概率的结果作为用户评论的类别。softmax函数是一种常用的激活函数,主要用于多分类问题中的输出层。它能够将模型的输出转换为概率分布,使得输出值在(0, 1)之间,并且所有输出值的总和为1。计算方式如公式所示,其中
为权重矩阵,
为偏移量。
(2-22)
由于模型中的参数是连续的,故采用反向传播机制训练和更新,同时使用交叉熵损失函数优化,避免在梯度下降计算的时候出现梯度弥散,弥补sigmoid型函数的导数形式易发生饱和的缺陷。
为真实的概率分布,
是模型预测的每个分类对应的概率,n为类别的总数。
(2-23)
2.2. 动机识别方法与数据集构建
本研究的生鲜物流评论动机识别问题在自然语言处理研究领域实质上可以看作一个典型的文本分类问题。因此需要建立合适的文本分类模型,改进的RoBERTa模型通过添加分层注意力机制,形成RoBERTa-HA模型。
在本研究中,选择从京东生鲜品类下的多个子分类中收集商品评论数据,包括多种商品,如水果、蔬菜、肉类和海鲜等。为收集京东网站上关于生鲜物流的用户评论数据,本研究开发了一个自动化的网络爬虫,采用Python语言编写,发送HTTP GET请求至京东的评论API。爬取初始数据共60,000条,包括商品的详细信息(如商品名称和编号)以及顾客的评论信息(包括评分、评论内容)。使用自建常用物流关键词词表的方式筛选与物流相关的评论数据,筛选后与物流相关评论27,834条。使用正则表达式删除了非中文词汇、emoji表情符号以及其他非法字符,建立清洁且去噪的生鲜物流评论基础资源库,经随机抽样分层后保留4443条数据进行标注。
动机类别划分特别借鉴了Hennig-Thurau (2004)和Yoo & Gretzel (2011)对用户评论动机的多维度理论支持,结合实际调研和动机理论的理论基础,确立了五个最为关键的评论动机类别:表达积极情感、发泄负面情绪、帮助其他顾客、获得平台奖励以及帮助供应商或平台改进。采用Doccano进行数据标注,每个类别的定义都明确指出了其在生鲜物流服务质量评估中的作用和意义,标注者对分配给他们的评论数据进行独立标注,每条数据由两名独立的标注者进行标注,通过双重标注策略以降低个人偏见和错误的影响。
标注完成的数据结构如表1。
Table 1. Comment motivation category statistics table
表1. 评论动机类别统计表
类别 |
评论数量 |
表达积极情感 |
1228 |
发泄负面情绪 |
987 |
帮助其他顾客 |
923 |
获得平台奖励 |
458 |
帮助供应商或平台改进 |
847 |
3. 实验一:文本分类任务实验
3.1. 实验设置
THUCNews是由清华大学基于2011年至2012年间新浪新闻RSS订阅频道数据整理的中文文本分类数据集。新闻标题通常较短但包含丰富的信息,这和模型处理各种长度和格式的非结构化文本数据(如用户评论)非常相似,这种特点上的高度相似,使其被选用为实验数据集。与生鲜物流评论动机识别研究中手工标注得到的五个标签类似,在实验前从THUCNews中选取的20万条新闻标题被划分为10个类别,每个类别包含2万条。数据预处理操作完之后,按18比1比1划分为训练集、验证集和测试集。为了找到最佳的模型性能,实验中对多个训练参数进行了调优。所采用的参数及其待选值如表2。
Table 2. Training parameters to be selected table
表2. 训练参数待选表
训练参数 |
待选值 |
学习率 |
2e−5,3e−5,5e−5 |
批大小 |
32,64,128 |
最大文本长度 |
32,64,128,256 |
模型优化器 |
Adagrad,Adam,AdamW |
丢弃率 |
0.1,0.3,0.5 |
除了采用改进后的RoBERTa-HA模型以外,还选用了多种基于Transformer架构的预训练模型,包括BERT、ERNIE、Transformer和RoBERTa。所有模型均在THUCNews数据集上进行训练和测试。过程中,为了确保公平比较,各模型的训练参数和超参数设置尽可能保持一致。参数见表3。
Table 3. Text classification experiment parameter selection table
表3. 文本分类实验参数选择表
训练参数 |
选择值 |
学习率 |
5e−5 |
批大小 |
64 |
最大文本长度 |
32 |
模型优化器 |
Adam |
丢弃率 |
0.1 |
3.2. 实验结果分析
本实验是一个文本分类实验,故使用准确率(Accuracy, Acc)、精确率(Precision, P)、召回率(Recall, R)以及F1值(F1)作为实验的评价指标[9]。在基准模型RoBERTa上,由于数据集的规模较大,因此epoch为3轮时就可以收敛完全,因此在这里均设置成epoch = 3。每个模型训练过程各运行10次,取平均值。各模型在THUCNews数据集上的分类准确率如表4。
Table 4. Comparison of experimental results of text classification
表4. 文本分类实验结果比较
模型 |
Acc/% |
P/% |
R/% |
F1/% |
RoBERTa-HA |
95.15 |
95.20 |
95.02 |
95.11 |
ERNIE |
94.21 |
93.91 |
94.41 |
94.16 |
续表
RoBERTa |
94.12 |
94.14 |
94.03 |
94.08 |
Transformer |
89.67 |
89.86 |
89.33 |
89.59 |
BERT |
93.73 |
94.01 |
93.32 |
93.66 |
这些结果表明,改进后的RoBERTa-HA模型在本次实验中提供了最优的分类性能,适合在需要高准确率和高精确率的应用场景中使用。ERNIE和RoBERTa是次优选择,也具备较好的性能。而原始的Transformer的表现则明显不足。
4. 实验二:京东生鲜物流评论动机识别实验
4.1. 实验设置
依据之前文本分类的实验,设计了基于RoBERTa的评论动机识别实验。
1) 数据预处理。在研究开始阶段,京东评论数据集经过了彻底的预处理操作。考虑到RoBERTa模型的输入要求,进一步将文本转换为RoBERTa可处理的格式,即将文本分割为字单元,并在文本前后分别添加特殊的分类标记([CLS])与分隔标记([SEP])。
2) 标签编码。研究所用数据集包含五个自定义标签:表达积极情感、发泄负面情绪、帮助其他顾客、获得平台奖励、帮助供应商或平台改进,这些标签被转换为数值编码(1, 2, 3, 4, 5)。
3) RoBERTa模型选择与适配。根据中文文本分类实验的结果本研究选用预训练的中文RoBERTa模型作为基础框架。研究中将RoBERTa模型的最后一层输出连接至一个新的分类层,该层的输出维度与数据集标签的数量相匹配(本任务中为5)。
4) 微调与训练。利用已标注的评论数据对RoBERTa模型进行微调。设定合适的学习率和训练周期,并采用交叉熵损失函数优化模型,以提高模型在特定的评论动机识别任务上的性能。同时,监控训练过程中的损失值和验证集上的准确率,调整训练参数以防过拟合。
5) 动机识别。模型训练完成,使用微调后的模型对新的评论数据进行动机识别。模型将输出每条评论对应五个标签的概率分布,根据最高概率的标签确定评论的主要动机,设置输出调和准确率F1作为评价模型指标。按基于RoBERTa的评论动机识别方法对自建数据集进行实验。实验环境如下表。按照8:1:1的比例将数据集划分为训练集、验证集和测试集。
参数定义如表5。
Table 5. Motivation recognition experiment parameter setting
表5. 动机识别实验参数设置
训练参数 |
选择值 |
学习率 |
3e−5 |
批大小 |
64 |
最大文本长度 |
256 |
模型优化器 |
Adam |
丢弃率 |
0.1 |
4.2. 实验结果分析
鉴于实验数据集的大小,可以进行更多轮次训练以获得更好效果,设置epoch为12,重复10次实验取F1值的平均值,实验结果记录如图4。
Figure 4. Variation of accuracy with training rounds
图4. 准确率随训练轮次变化图
可以看到在epoch为8的时候模型训练结果已经收敛。0.82的F1值表明了基于RoBERTa-HA的动机识别模型性能与基于自行标注的数据集在标注质量上都显示出具有优良表现。验证了基于RoBERTa-HA评论动机识别方法的可行性。
5. 生鲜物流服务质量改进
服务蓝图(Service Blueprint)是一种管理学领域经典的用于分析和设计服务流程的工具,帮助组织理解和优化客户体验。它通过将客户行为、前台行为、后台行为和支持过程可视化,明确各个接触点和后台操作,揭示潜在问题并找到改进机会。这种系统性的方法促进了跨部门协作,确保服务流程的顺畅和高效,从而提供更高质量的客户体验。本章通过深入分析京东平台的生鲜物流服务流程,利用服务蓝图工具揭示了客户体验的各个接触点和后台操作过程。
5.1. 京东平台生鲜物流服务流程分析
京东平台的生鲜物流涉及多个步骤,包括选购、下单、支付、拣货、包装、配送以及客户反馈等环节。服务蓝图能够帮助清晰地描绘这些流程,确保每一个环节都能被详尽展示和管理。服务蓝图展示京东平台生鲜物流服务流程如图5,同时标记出失误点。
Figure 5. Jingdong platform fresh logistics service model service blueprint
图5. 京东平台生鲜物流服务模式服务蓝图
服务蓝图中的失误点(Fail Points)是服务流程中可能出现问题或导致客户不满意的关键节点,通过识别这些失误点,组织可以预防问题的发生,提高服务的可靠性和一致性,进而提升客户满意度和忠诚度[10]。针对性地解决失误点还能帮助设计更有效的员工培训计划,提升服务水平,确保在问题发生时快速响应和解决,减少对客户的负面影响。
在京东平台生鲜物流服务流程中失误点出现在回复和反馈环节,其原因经分析有以下三点。
1) 反馈的非结构化数据:当前的评论系统可能未能有效地区分和利用客户反馈中的动机,导致部分重要反馈未被充分利用。
2) 反馈处理效率低:缺乏自动化工具识别和分类反馈,手工处理耗时且容易错过关键信息。
3) 反馈利用不足:客户反馈是改进服务、产品和用户体验的宝贵资源。如果这些反馈没有得到充分的分析和利用,就会错失改进服务质量和效率的机会。
5.2. 结合评论动机识别的物流服务质量改进
结合服务蓝图(图6)对京东生鲜物流流程的分析得到的失误点,对整个服务流程进行改进。在此过程中,运用动机分类的结果,可以通过动机反馈部门汇报给决策部门,制定有针对性的策略来改进对不同动机的消费者群体的物流服务质量[11]。
Figure 6. Jingdong platform fresh logistics service model improvement service blueprint
图6. 京东平台生鲜物流服务模式改进服务蓝图
1) 为了激励用户表达积极情感,京东可以设计和实施积极反馈的激励机制,以促进用户分享正面体验并增强对平台的认同感。平台可以为经常发布正面评价的用户提供积分奖励或优惠券,以激励他们在享受服务后主动表达满意态度,从而提升平台的评价内容质量。通过建立用户评价等级制度,鼓励用户不断提供高质量的正面评价以提升其个人等级,并增强其在社区内的影响力,形成正面激励作用。
2) 为有效管理用户在消费过程中的负面情绪表达,京东应当建立健全的客服反馈机制,确保消费者在遇到问题时能够及时、便捷地向供应商反馈。这种直接沟通方式有助于减少消费者在公开场合如商品评价区和社交平台上发表负面评论的可能性,进而降低负面口碑的传播,维护平台的良好声誉。
3) 平台应确保被识别为帮助他人的动机的评论优先呈现给其他消费者。为了强化社区精神并激励用户帮助他人,提供详细的评论指南,教育用户如何撰写具有实用性和帮助性的评论。增设问答功能,允许潜在买家提问,由经验丰富的用户回答,有望有效增加社区互动,提高信息价值。
4) 通过提供多样化的奖励系统,激励用户积极参与评论活动。实施评价积分制度,根据评论的有用度(例如被其他用户点赞的数量)给予额外奖励,避免无意义评论。增设创造性评论奖励,鼓励用户发表具有创意和个性的评论,增加评论的趣味性和吸引力。对识别为获得平台奖励的无营养评论,可以考虑折叠评论策略。
5) 定期进行用户评论的数据分析,从中找出生鲜产品或服务的常见问题和用户需求,用以指导供应商或平台的改进方向,确保被识别为帮助供应商或平台改进的评论有效反馈给供应商或者平台。建立正向激励机制,对于根据用户反馈进行显著改进的供应商,平台可以给予额外的曝光或奖励,确保用户的反馈被认真处理,并向用户展示他们的评论如何帮助改进了产品或服务。
6. 结语与展望
6.1. 结语
第一,在研究过程中,构建了一个面向服务质量改进的生鲜物流评论动机识别模型,该模型基于改进的RoBERTa-HA架构,通过引入多层注意力机制,能够有效捕捉评论文本中的关键动机特征。通过实验验证,该模型在评论动机识别任务中表现出色,准确率高,能够为物流服务提供商提供量化的消费者需求和偏好信息。
第二,本研究通过服务蓝图工具对京东平台的生鲜物流服务流程进行了系统化分析。服务蓝图的应用不仅帮助我们全面识别了客户体验中的各个接触点,还揭示了服务过程中后台操作的细节和逻辑。通过对服务蓝图的深入分析,本研究识别出物流服务流程中的潜在失误点,诸如配送时效不达标、客户沟通效率不高等问题。针对这些失误点,基于动机识别方法,本研究提出了一系列针对性的改进措施,旨在提升客户回复系统和后台反馈系统的智能化水平,提高整体服务效率和客户满意度。
第三,本研究通过构建基于深度学习的评论动机识别策略,结合服务蓝图工具,探讨了生鲜物流服务质量的改进路径,并为电商平台提供了可行的解决方案。这一研究框架和成果不仅适用于生鲜物流领域,还可为其他消费场景中的服务质量改进提供参考和借鉴。
6.2. 展望
本文提出的面向服务质量改进的生鲜物流评论动机识别策略还存在着一些不足,下一步研究可以围绕以下几点来研究。
1) 本文改进后的RoBERTa-HA评论动机识别模型在动机识别任务中展现出了相较于其他神经网络模型一定程度的性能优势。但模型的复杂性仍然较高,引入了多层注意力机制编码器,这使得模型的整体结构更为复杂,导致时间复杂度显著增加。因此下一步研究可以考虑在保证模型性能的前提下,简化模型结构以期实现更高效的动机识别模型,提升可操作性和响应速度。
2) 动机识别的有效性在很大程度上依赖于高质量的动机标注数据集,当前标注数据的过程工程量较大,所需的人工标注成本较高。且由于人力资源的限制,所获得的数据集规模尚不够庞大,这可能限制了模型的泛化能力和性能表现。未来的研究可以尝试制定适合本研究的半自动标注方案,借助自动化技术如主动学习(active learning)和弱监督学习(weak supervision)等手段,降低人工标注的负担。若条件允许,也可以通过投入更多的人力和资源,构建规模更大、覆盖面更广的动机标注数据集,获得更佳的模型训练效果和更广的应用场景。
3) 本文主要研究了生鲜物流领域的评论动机识别问题,虽然生鲜物流在当前消费环境下具有典型性,但其应用场景的覆盖范围相对较为有限。下一步研究可以将此动机识别策略扩展至其他消费领域,以验证其在更广泛的场景下的适用性和有效性。通过扩展研究领域,可以深入了解不同消费场景下消费者的动机特点,进一步提升基于评论动机的服务质量改进策略的通用性和实用性,从而为更多行业的服务质量优化提供理论支持和实践指导。
NOTES
*通讯作者。