1. 引言
近年来,互联网蓬勃发展,各大行业的客户会在互联网上发表商品使用后的切实体会,也就是用户生成内容(UGC)。这些内容表明了客户对该产品的真实意见、态度和使用评价。据Nielsen等人(2019) [1]的调查显示,全球中有92%的用户信任UGC,并且相信用户的评价,Xu等人(2023) [2]指出在线评价中蕴含着极其多的研究价值,特别是客户的差评。因此,本文在前人研究的基础上将用户的评价分为差评和非差评两类,重点对差评进行研究。
在统计过程控制(SPC)的背景下,差评可以作为不良事件,并通过监测方案连续检测。如果在当前监控过程中没有异常变化,则该过程被称为受控(IC)。一旦出现失控(OC)信号,表明此时产品出现了异常问题,控制图将立即向业务经理发出预警,以减少不必要的损失。
因为文字评价中包含的信息大于数字评价,因此本文对用户的文字评价进行监控。而对文本数据进行监控,我们需要进一步将定性数据转换为定量数据,此时就需要进行情感分析,计算评价文本的情感得分。
在同一时期内,商品的差评往往会远低于非差评,这使得传统的监测方案(如p图)对差评数量的变化不敏感(Montgomery, 2012) [3]。例如,Ju等人(2019) [4]收集了16,430条评论,其中只有300条差评。面对这种情况,本文采用文字差评的情感得分(S)来进行监控。Xu (2020) [5]提出情感得分(S)表示客户意见,对于差评,S (S < 0)的绝对值越高,用户反映质量越低,反之亦然。因此,对在线评论过程的监控转变为对差评的情感得分S的监控(Zhang, 2021) [6]。
在一般情况下,我们无法得知情感得分S的分布,即以往的参数控制图可能会失效,因此我们需要使用非参数控制图来对在线评论的情感得分进行监控。Wilcoxo [7]提出的Wilcoxon秩和(WRS)统计量适用于在底层分布未知的情况下检验两个样本的均值之差。到目前为止,WRS统计数据已被广泛用于无分布监测方案的设计,如Chong等(2016) [8],Mukherjee (2017) [9],Huang等(2018) [10]。Li等人[11]最初提出了基于指数加权移动平均(EWMA)的WRS统计量,该统计量在检测中小位移方面比普通WRS统计量更有效、更稳健。但WRS统计量只考虑了变量位移参数的变化,对于尺度参数的变化却忽略了。在实际应用中,过程的均值和方差可能会同时发生变化,因此,需要提出能联合检测位置参数和尺度参数变化的控制图(Li等,2018) [12]、(Mukherjee等,2017) [13]。其中最常见的方法是基于Lepage检验的控制图(Mukherjee等,2012) [14]。但在Marozz等人[15]的研究中,我们得出了一种比Lepage检验更优的检验——Cucconi检验[16],其比Lepage检验更为显著,更适合用于本文构建控制图。因此,受前人研究的启发,我们将基于EWMA的Cucconi统计量应用于在线评论的监控上,既可以监控情感得分的均值,也可以同时监控其方差,且比以往的控制图更高效。
2. 在情感分析和SPC的背景下进行异常检测
情感分析中的异常检测是指利用在线评论检测客户的异常情绪,异常情绪可能是因为产品质量的变差而导致的。近年来,关于情感分析的异常情绪检测越来越多(李杨等,2023) [17],本文将通过非参数控制图来对情感分析进行异常检测,当EWMA统计量超出控制限时,控制图会立即发出警报,表示产品出现异常。
现阶段,Wankhade等人(2022) [18]总结了情感分析的两大方法:基于机器学习的情感分析方法和基于词典的情感分析方法。因为本文重点在于监控部分,因此,更倾向于采用训练好的词典来计算情感得分。
2.1. 数据处理
每条评论都由多个元素组成,包括发布时间、数字评级、评论内容和其他与个人账户有关的数据。核心元素可以概括为一个元组(g, w),其中g为产品或服务名称,w为从评论内容中分解出来的词向量(Zhang等) [6]。对于元组(g, w),g是很容易得到的。为了获取w,需要对非结构化文本进行预处理。首先,删除少于5个中文或英文单词的在线评论。其次,采用Jieba分词将评论中的句子分解成相互独立的单词。最后,使用一个stopword来删除不相关的标点和连词。到此,我们已经成功地从原始评论中提取了元组(g, w)。
2.2. 情感分析
情感分析[19],是一种自然语言处理技术,旨在从文本中识别、提取和量化文本的主观信息,如情感、态度、观点等。基于词典的情感分析,首先需要我们选择一本词典来进行情感分析。以前对情感分析的研究主要是研究英语文本评论,许多可用的词典提供英语单词和情感分数之间的匹配,如:新词典(Bradley等人,1999) [20]、OpinionFinder (Strapparava等人,2004) [21]、SentiStrength (Thelwall等人,2004) [22]和Wordnet-affect (Wilson等人,1999) [23]。在中文文本评论方面,词典相对有限。其中最著名的是徐等人(2008) [24]的情感词典,有27,466个情感词汇。在该本词典中,积极的词汇记为1分,消极词汇记为−1分。库等人则是编制了一份程度副词和带有相应系数的词汇列表。
接着,我们将根据以上词典来计算文本的情感得分S。步骤如下:
Step1:将分割后的单词向量中的单词与情感字典进行顺序匹配,如果一个单词在情感词典中有重复,记录它的情感得分。
Step2:当情感词前有程度副词或否定词时,记录相应的系数。对于中文,如果情感词前只有否定词,则情感词的权重为
,其中Ne为否定词的个数。Zhang等人(2020) [25]提出,如果一个情感词前同时存在否定词和程度副词,则该情感词的权重为:
(1)
其中C表示程度副词的系数,Nb为程度副词前的否定词数,Na为程度副词后的否定词数。在线评论的整体情感得分S是所有情感词的加权情感得分之和。
Step3:保留总体情绪得分小于零的评论,因为这些评论代表了差评。对于差评,随着顾客不满意程度的加剧,S的绝对值增大。因此,对于连续差评,变量S用整体情绪得分的绝对值表示。
3. 非参数控制图
非参数控制图的优势在于其不需要知道变量的分布。无论变量服从什么分布,都能采用该非参数控制图。因此,我们从受控(IC)中抽出一组数据作为参考样本,再从实时的在线评论中抽取另一组数据作为测试样本。当发生异常变化时,两组数据已不再服从同一分布。因此,监控问题就转化为了两组数据分布的监控问题。
3.1. 双样本检验的Cucconi统计量
我们假设
是大小为m的一组参考样本,并且来自于分布
,但分布是未知的。假设
是大小为n的一组测试样本,来自分布
。对每个测试样本,我们都有如下假设检验:
(2)
我们将参考样本
和测试样本
结合在一起,并将
个观测值升序排列,就可以得到两组数据的秩
和
。我们用
来表示第i时刻测试样本的秩和,
表示第i时刻参考样本的秩和:
(3)
(4)
我们可以得到其均值和方差为:
(5)
(6)
Cucconi检验统计量的定义为:
(7)
其中:
(8)
(9)
(10)
3.2. 构造基于EWMA的Cucconi统计量
基于Shehart的统计量对微小变化不敏感,因为它完全忽略了历史样本,因此本文将构造基于EWMA的Cucconi统计量
:
(11)
其中,
,
表示平滑系数。在以往研究中,常取
进行研究。因此,本文也取
进行研究。此外,我们还需要设置受控下的平均运行长度ARL0、参考样本个数m、测试样本个数n,根据以往研究,本文设定ARL0为370,m为50、100、150,n为5、10。
3.3. 监控方案实现
本文的监控分为Phase I和Phase II两部分组成。参考样本来自于Phase I,而测试样本来自于Phase II。具体的控制方案如下图1所示:
Figure 1. Implementation of monitoring solution
图1. 监控方案的实现
3.4. 控制限的计算
控制上限H取决于ARL0、m、n和λ。当m、n和λ固定时,H由ARL0 (= 1/α)确定。对于基于Shewhart的方案,Sanusi等人(2019) [26]推导了控制极限的精确表达式。对于基于EWMA的方案,很难获得简单而明确的控制极限表达式。Zou(2011) [27]采用马尔可夫链推导出一个合适的ARL近似,用于估计控制极限。当底层分布未知时,马尔可夫链的传递概率矩阵趋于复杂,基于这种方法推导ARL是不切实际的。此外,Qu等人(2018) [28]建议使用蒙特卡罗模拟来近似ARL,这有助于节省大量时间和精力。仿真结果与推导结果一致。
因此,我们采用Qu等人提出的蒙特卡罗模拟来计算ARL,并进一步估计控制极限。因为本文的方法是基于非参数的,因此,任何假设的分布都不会影响模拟的结果。在此基础上,本文假设参考样本和测试样本都服从高斯分布,分别考虑了ARL0为370,λ为0.05、0.1、0.2,m为50、100、150,n为5、10,每个情况进行了10000次模拟,得到了表1的控制限H结果。
Table 1. Control limits H under different conditions
表1. 不同情况下的控制限H
λ |
m |
n |
H |
0.05 |
50 |
5 |
8.41 |
0.05 |
100 |
5 |
8.3 |
0.05 |
150 |
5 |
8.28 |
0.05 |
50 |
10 |
8.48 |
0.05 |
100 |
10 |
8.34 |
0.05 |
150 |
10 |
8.33 |
0.1 |
50 |
5 |
10.1 |
0.1 |
100 |
5 |
9.9 |
0.1 |
150 |
5 |
9.82 |
0.1 |
50 |
10 |
10.22 |
0.1 |
100 |
10 |
10.09 |
0.1 |
150 |
10 |
10.08 |
0.2 |
50 |
5 |
12.96 |
0.2 |
100 |
5 |
12.75 |
0.2 |
150 |
5 |
12.75 |
0.2 |
50 |
10 |
13.27 |
0.2 |
100 |
10 |
13.168 |
0.2 |
150 |
10 |
13.1 |
3.5. 控制图ARL的分布特征
由于平均运行长度的分布也是衡量控制图性能的重要指标,因此本文考虑平均运行运行长度的平均误差SDRL和一些分位数特征,比如考虑第25、50、75和95个分位数。从而研究本文所提出的检测控制图的受控状态的运行长度分布(如表2)。
Table 2. Distribution characteristics of ARL under different conditions
表2. 不同情况下ARL的分布特征
λ |
m |
n |
SDRL |
5th |
25th |
50th |
75th |
95th |
0.05 |
50 |
5 |
305.3415 |
63 |
141 |
270 |
496 |
968 |
续表
0.05 |
100 |
5 |
309.864 |
66 |
149 |
291 |
506 |
990.05 |
0.05 |
150 |
5 |
329.67 |
59.9 |
136 |
276 |
499 |
994 |
0.05 |
50 |
10 |
321.672 |
62 |
149 |
271.5 |
485.25 |
981.1 |
0.05 |
100 |
10 |
318.645 |
61 |
150 |
283 |
496.5 |
1014.25 |
0.05 |
150 |
10 |
321.672 |
62 |
149 |
271.5 |
485.25 |
981.1 |
0.1 |
50 |
5 |
331.6 |
38.95 |
131 |
262 |
501 |
1089 |
0.1 |
100 |
5 |
326.46 |
38 |
117.75 |
251 |
484 |
1012.5 |
0.1 |
150 |
5 |
346.96 |
38 |
110.75 |
244 |
496 |
1030.5 |
0.1 |
50 |
10 |
343.567 |
34 |
132 |
260 |
483 |
1042.35 |
0.1 |
100 |
10 |
346.3095 |
42.9 |
123 |
257 |
509 |
1106.4 |
0.1 |
150 |
10 |
363.92 |
35.95 |
128.75 |
257 |
518.2 |
1145.8 |
0.2 |
50 |
5 |
351.3619 |
32.9 |
123.75 |
263.5 |
536.25 |
1101.5 |
0.2 |
100 |
5 |
355.288 |
28 |
115 |
264 |
504.25 |
1136.2 |
0.2 |
150 |
5 |
339.299 |
27.95 |
117 |
278 |
530.25 |
1026.7 |
0.2 |
50 |
10 |
361.288 |
31 |
109 |
257 |
513.5 |
1078 |
0.2 |
100 |
10 |
350.693 |
30.95 |
111.75 |
269 |
488.25 |
1038 |
0.2 |
150 |
10 |
361.066 |
27 |
104.7 |
242 |
513.25 |
1121 |
同以往方法的运行长度分布特征相比,本文方法的SDRL大大减少,表明该方法的运行长度分布更趋于对称,并更集中。
4. 案例研究
4.1. 数据收集
本文将使用携程(https://www.ctrip.com)的真实在线评论来演示Cucconi-EWMA检测控制图的实施过程,携程在中国在线旅游服务市场中扮演着非常重要的角色。在激烈的行业竞争中,携程的业务经理也越来越重视关于客户的在线评价。Chen等人(2018) [29]以及之前的研究和调查中发现酒店服务和机票问题是客户对携程投诉中需要改进的业务方向,因此本案例将重点放在酒店的在线评价上,主要研究连锁酒店服务质量的异常检测。同时,将使用本文提出的非参数Cucconi-EWMA控制图来进行异常检测。
Table 3. 50 reference samples
表3. 50个参考样本
No. |
S |
No. |
S |
No. |
S |
No. |
S |
1 |
5.98 |
4 |
4.52 |
7 |
4.26 |
10 |
12.25 |
3.65 |
3.13 |
3.23 |
4.57 |
7.01 |
4.79 |
5.09 |
6.73 |
7.96 |
7.85 |
9.9 |
7.92 |
8.68 |
8.55 |
5.7 |
5.99 |
续表
2 |
4.13 |
5 |
11.66 |
8 |
4.4 |
|
|
7.14 |
4.59 |
16.35 |
|
|
6.04 |
6.15 |
9.93 |
|
|
8.55 |
5 |
3.14 |
|
|
7.44 |
6.65 |
7.11 |
|
|
3 |
8.85 |
6 |
6.97 |
9 |
10.98 |
|
|
5.4 |
3.68 |
5.23 |
|
|
5.36 |
5.29 |
6.35 |
|
|
9.33 |
2.07 |
3.12 |
|
|
2.08 |
9.97 |
7.41 |
|
|
Table 4. 100 test samples
表4. 100个测试样本
No. |
S |
No. |
S |
No. |
S |
No. |
S |
11 |
8.78 |
16 |
5.65 |
21 |
6.8 |
26 |
7.35 |
6.72 |
6.93 |
3.57 |
16.62 |
3.95 |
5.86 |
4.06 |
2.61 |
2.42 |
26.7 |
3.57 |
5.23 |
14.03 |
4.66 |
6.49 |
2.46 |
12 |
11.36 |
17 |
18.41 |
22 |
3.39 |
27 |
9.19 |
2.82 |
9.12 |
2.96 |
9.68 |
15.39 |
4.95 |
6.42 |
7.22 |
10.23 |
7.07 |
4.02 |
12.5 |
5.34 |
3.5 |
5.85 |
6.93 |
13 |
4.6 |
18 |
14.16 |
23 |
4.16 |
28 |
5.49 |
5.42 |
9.04 |
5.6 |
13.34 |
11.7 |
8.39 |
1.44 |
12.28 |
3.81 |
3.78 |
6.15 |
14.8 |
8.38 |
6.71 |
11.97 |
18.42 |
14 |
7.52 |
19 |
4.4 |
24 |
8.1 |
29 |
5.26 |
6.07 |
4.96 |
7.62 |
4.97 |
7.57 |
4.38 |
4.39 |
6.13 |
6.27 |
3.52 |
5.37 |
4.28 |
7.06 |
11.5 |
5.53 |
3.41 |
15 |
6.85 |
20 |
10.16 |
25 |
5.15 |
30 |
7.87 |
7.21 |
5.32 |
3.3 |
5.11 |
3.57 |
4.3 |
4.16 |
9.52 |
8.69 |
8.55 |
4.53 |
6.49 |
7.19 |
2.84 |
3.91 |
4.3 |
根据Zhang等人(2021) [6]中收集的数据,对2018年7月至2019年8月的在线评论进行分析,然后通过文本预处理和情感分析来计算情感得分S,最后筛选差评,并对差评进行监控。在实验中,我们取m为50,即前50个差评被纳入参考样本中,其余的差评作为样本量为5 (即n = 5)的测试样本(如表3)。非参数Cucconi-EWMA控制图中有20个测试样本(如表4)。此外,使用Minitab (版本17)软件在5%显著性水平下测试S和T参考样本的拟合优度。研究发现,观测值S可以拟合到多个分布。为了检测非参数的控制图的过程,本文设置ARL0 = 300,平滑参数设置为0.2,根据模拟,可以得到控制图的控制上限为12.6。
4.2. 控制图的实现
我们将本文提出的Cucconi-EWMA统计量运用在150个观测值上,其中前50个观测值为参考样本,后面100个数据为测试样本。本文设置ARL0 = 300,平滑参数设置为0.2,则根据上述模拟结果,可以得到控制图的控制上限为12.6。
我们可以得到控制图如图2所示:
Figure 2. Control chart
图2. 控制图
根据控制图得到,第28个统计量超出了控制限,与Zhang等人(2021) [6]的研究一致,这表明产品的质量在此时发生了异常的变化,同时也表示了本文监控方法的有效性与可靠性。通过手工查看原始的评论,发现很多客户在此时刻抱怨了噪音污染,原因是监控时间段期间,用户在夜间休息期间,该酒店附近存在非法建筑施工。通过我们的监控,酒店的客户经理能及时发现这种特殊情况的发生。并且能在第一时间联系施工建筑,采取一定措施来解决客户的投诉问题,并减少以后的酒店投诉问题。
5. 总结
在监控产品或服务质量时,差评可以提供关于潜在问题的重要信息。检测和应对网络负面评论的异常变化变得至关重要。传统SPC方法主要适用于定量数据,而对定性数据的研究仍相对有限。鉴于此,本文提出了一种非参数的EWMA控制图的方法,用于检测定性数据方面的变化。本文首先通过情感分析,将定性数据转化为定量数据,再提出非参数控制图的方法对此进行监控。
在以往的在线评论中,大多非参控制图都只考虑了位移参数或尺度参数的变化,对于两者同时考虑的方法很有限,而本文提出的非参数Cucconi-EWMA控制图能同时对情感得分的均值和方差进行监控,比WRS统计量更全面和有效。并且本文控制方法的SDRL更小,运行长度更集中与对称。并且通过案例分析,证实了本文方法是有效的,能更好地应用到具体的行业服务中,企业经理可以在接收到失控信号后,采取一系列措施,缓解客户的负面情绪,从而避免不必要的经济损失。
但本文也存在一些局限性:
(1) 本文对差评的监测只包括了发布时的评论内容,其他评论属性,如发布时间、主观性、多样性、可读性和长度等语言风格,可以在未来进行研究。
(2) 本文的控制方案需要合适的参考样本集来构建统计量,在历史受控数据不足的情况下,可以进一步研究自启动方案。
(3) 需要一个自动程序来决定不同应用下(m, n, λ)的最佳组合。