1. 引言
后疫情时代,疫情时有反复,加之防疫政策放开,传统医疗资源紧缺的情况或时有发生。在传统医疗不能满足人们看病就医的需求时,在线医疗成为大众接受医疗服务的理想之选。在线医疗可以合理利用医疗资源为人们提供优质的医疗服务,且能够有效预防医患因近距离接触产生交叉感染的问题,一定程度上成为大众“病有所医”的保障。但目前,我国在线医疗平台产品创新不足、服务质量不高、各类产品同质化严重。因此,如何有针对性地提高用户满意度,是在线医疗平台各大管理者需解决的重点问题。本文运用数学方法深入探究影响用户对在线医疗平台满意度评价的因素,有利于为用户选择在线医疗平台提供参考,有助于管理者有针对性地提高在线医疗平台的服务质量,从而进一步为人们的看病就医提供便利和保障。
所谓文本挖掘,是抽取有效的、新颖的、可理解的、散布在文本文件中的有价值的知识,并且利用这些知识更好地组织信息的过程。通过阅读相关文献我们了解到,一部分学者挖掘海量的用户在线评论文本数据后,对数据进行处理,并将其应用于信息提取、情感分析和文本分类三个方面。
洪玲 [1] 以“平安好医生”APP为例,对爬取的该APP的评论文本数据进行文本分析,筛选出评论中的高频词,得到用户对该APP满意度评价的影响因素。陈婷 [2] 以移动医疗APP的在线评论文本作为切入点,采用文本挖掘技术和内容分析法探究影响用户满意度评价的因素,构建移动医疗APP用户服务满意度模型。
学者们对满意度的研究都较为深入,丁甜甜 [3] 以覆盖“互联网+医疗健康”全产业链的数字健康平台微医为例,通过用户网络评论分析在线医疗现状,研究在线医疗用户满意度影响因素,以期为了解用户需求、提升医疗服务质量与用户满意度、提高在线医疗效果提供参考。周露莎 [4] 对“好大夫在线”的数据进行研究,取出患者满意度的主题维度,计算每个医生各主题维度的满意度得分。
本文基于从网络上爬取的主流在线医疗平台的评价文本,从第三方的角度,利用文本特征分析、情感分析等方法挖掘影响用户对在线医疗平台服务满意度的因素,搭建满意度评价模型,为用户选择合适的在线医疗平台提供帮助。
2. 数据来源
本研究利用python网络爬虫技术,于2022年9月从华为应用市场、360手机助手等应用市场中爬取当前主流在线医疗平台的用户评论文本信息。
3. 模型的假设
1) 假设评论文本信息均真实可靠;
2) 假设文本信息预处理阶段去除的语气词,停顿词等对后序的文本分析的准确性无影响;
3) 假设评价模型的各个评价指标正向影响用户对移动医疗 APP 的服务满意度。
4. 模型的构建
4.1. 评论数据预处理
由于大多数评论偏口语化,不能真实反映主题,原始数据分析结果与真实情况存在偏差 [5] 。由爬取的评论数据可知,评论中含有许多语气词以及停顿词,如“吧”“啊”“哈”等。其次,标点符号易使关键词受到影响,亦不利于分析评论数据。因此,我们需要对评论文本进行数据预处理。首先,本文对评论文本进行格式统一化,去除评论中的表情包、无意义的符号等非文本内容,删除无用数据,如重复数据、带有明显广告性质的评论等;继而,将专有名词,如在线医疗平台的名称等词语添加到自定义字典中,结合相应的停用词表对文本数据进行清洗;运用python中的jieba分词对清洗后的数据进行分词处理;最后统计分词后的高频词,绘制出词云图(见图1)。
通过分析词云图可知,评论文本中最主要的词为“医生”、“软件”、“医院”、“平台”,以及一些评价性的词语,如“实用”、“详细”、“不错”、“喜欢”、“推荐”等积极性的词语,和少量如“垃圾”、“麻烦”、“不好”等负面词语。由词云图的结果可初步推测,用户使用在线医疗平台时关心的主要方面与“医生”“医院”“软件”“平台”有关,所涉及的内容有“专业”“实用”“问诊”“下载”“咨询”等。
4.2. TF-IDF算法
TF-IDF是一种评估一个字词在一个文件集,或者在一个语料库中的其中一份文件的重要程度的统计方法。一般情况下,我们认为,词语的词频越大,则词语在文本中的重要程度越高 [6] 。
首先,我们对分词后的高频词的词频进行归一化的处理:
(1)
其中,
是该词语在文本
中出现的次数,
则是文本
中所有词语出现的次数总和。
(2)
继而,衡量一个词语是否为常见词时,若该词语在日常使用中相对少见,但在文本中多次出现,则它很可能反映了文本的特性,可视为文本的关键词。基于该思路,我们采用逆文档频率分配高频词权重,即对于较常见的词语分配较小的权重;对于较少见的词语分配较大的权重。
为避免词语在文本中不存在而导致公式出错的情况,计算时一般使用
计算,即:
(3)
其中,
为所爬取评论的文件总数,
为包含词语
的文件数目。
(4)
由此,可计算出高频词的TF-IDF值:
(5)
词语的TF-IDF值与其在所有爬取的评论文本文档中出现的次数呈正相关,与其在语言使用中的次数呈负相关。
将文本中的词语转换为词频矩阵,其中,矩阵元素a[i][j] 表示j词在i类文本下的词频。对于每一个训练文本,只考虑每个词汇在该训练文本中出现的频率。将文本中的词语转换为词频矩阵后,计算各个词语出现的次数。继而,统计每个词语的TF-IDF权值。将文本转为词频矩阵并计算TF-IDF后,再将TF-IDF矩阵抽取出来,元素a[i][j]表示j词在i类文本中的TF-IDF权重。然后,输出词典以及文本向量。
由所得结果可知,每一行的数值的平方相加等于1,由该结果我们初步得到应给各个高频词语分配的权重数值。
4.3. 语义网络知识图谱
利用jieba库中的posseg对高频词进行词性标注,筛选出其中的名词并对其进行初步分类,将该分类作为后续高频词划分的参考。
语义网络知识图谱中,每一个数据模型可以看成是由节点和边构成的有向图。通常情况下,用实体表达图中的节点,用关系表达图中不同实体间的关系,即属性。
基于清晰文本后筛选出的高频词,绘制相应的语义网络图(见图2)。
Figure 2. High frequency word meaning network diagram
图2. 高频词语义网络图
语义网络图分析可知,“医生”“医院”“平台”“软件”处于网络图的中心位置,通常被称为语义网络中的“桥”,其他高频词主要通过这四个评论对象所连通,起到高频词之间连接的作用 [5] 。以“医生”作为中心词,主要与“看病”、“医疗”、“解答”、“提问”、“专家”、“好评”、“满意”、“体验”等词语相关联,表明用户关心医生的专业能力、医德医风和就医体验感等;以“医院”作为中心词,主要与“详细”、“三甲”、“检查”、“排队”等词语相关联,表明用户关心医院的等级和服务等;以“平台”作为中心词,主要与“医院”、“医生”、“服务”、“看病”等词语相关联;以“软件”作为中心词,主要与“看病”、“医疗”、“服务”、“咨询”等词语相关联,表明用户关心软件平台的服务、性能和软件所能够提供的资讯等。
通过分析,我们可初步猜测:专业度,医生医德,医生所属医院的等级一定程度上会影响用户对医生的满意程度;在线医疗平台的性能好坏,软件功能是否齐全,客服服务优劣等方面是影响用户选择软件的主要因素。
4.4. 层次聚类分析
利用TF-IDF算法得到的结果,运用层次聚类 [7] 进行进一步分析。筛选其中TF-IDF值排在前50的词语,将50个词语的TF-IDF矩阵转置,形成50个样本,计算不同词语之间的余弦相似度矩阵。
运用沃德方差最小化算法计算聚类簇之间的距离,样本点之间的距离计算选用欧氏距离,50个样本点聚类49次,返回49 * 4的矩阵,第一列和第二列代表类标签,第三列代表类之间的距离,第四列代表该层次类中含有的样本数。最后,将层次聚类结果可视化(见图3)。
通过聚类可视化结果,结合人工筛选划分,我们得到初步分类结果(见表1)。
对上述分类结果进行进一步分析,可认为第一高频词的可能主题为“医生”,认为第二类高频词的可能主题为“软件”。其中,第二类高频词又可细分为3个子类,与其相关的可能方面为“软件的性能”、“软件的有用性”和“软件的服务质量”。该聚类可视化结果可作为后期对文本高频词分类的参考。
Figure 3. Visualization of clustering results
图3. 聚类结果可视化
Table 1. Preliminary clustering results
表1. 初步聚类结果
4.5. LDA模型
LDA是一种包含词、主题和文档三层结构的文档主题生成模型,该模型是一种无监督的贝叶斯模型,经过推导可得一个链式关系:
(6)
某个词在同一主题中出现的概率,以及某个主题在同一文档中出现的概率,两者相乘,即可得到某篇文档出现某个词的概率。
我们通过多次的调试,根据困惑度变化情况,并观察抽取的各个主题的主题词的混淆情况来确定最优主题数目K值 [2] 。通过主题数目K依次取值3、4、5、8来训练模型时,发现当K值取4时,模型效果最为理想。
利用LDA主题模型对高频词进行聚类,得到的可视化结果(见图4):
Figure 4. Visualization of LDA model clustering results
图4. LDA模型聚类结果可视化
通过分析LDA模型的结果可知,主题1的高频词,即“问诊”“客服”“挂号”“医疗”等,主要体现出用户对平台方便性及其功能的关心;主题2的高频词,即“医生”“平台”“专业”“态度”等,主要体现用户对医生专业能力的重视;主题3的高频词,即“医生”“服务”“解决”“病情”等,主要体现用户对医生态度即能力的重视;主题4的高频词,即“软件”“医院”“资讯”“耐心”等,主要体现用户对软件平台咨询有效性和客服关怀的关注。
4.6. K-means算法聚类
自然语言理解转化为机器学习的第一步通常是将文本信息数学化。本文通过word2vec获得词语的低维实数向量,向量的每个维度都代表了该词的一个潜在特征,而该特征捕获了有用的句法及语义信息。通过word2vec模型得到筛选出的50个高频词的词向量。
文本特征聚类是数据挖掘领域的一个重要应用,它根据文本的相似性,将相似度高的文本划分为一个簇,各个簇之间关联程度较小,各个簇内部关联程度较大,因此可实现文本的快速检索,从而帮助检索者快速有效地检索出所需的文本信息。本文采用K-means算法对文本进行聚类。
K-means算法将数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。我们采用欧式距离作为相似度测度。
欧氏距离:n维欧式空间中的点X可表示为
,空间中的点A,B可分别表示
,
,则A,B间的欧氏距离为
(7)
算法采用误差平方和准则函数作为聚类准则函数。
误差平方和:
(8)
其中,d是欧氏空间中两个点的欧氏距离,k是簇的个数,x是数据点,ci是第i个簇的中心,Si表示第i个簇中数据点的集合。
算法的基本步骤 [8] 为:① 从N个文档中随机选取K个文档作为质心;② 对其余的每个文档,测量其到每个质心的距离,将其归并到距离最小的质心的类;③ 重新计算已得到的类的质心;④ 迭代②~③步直至新的质心与原质心相等或小于指定阈值,算法结束。
基于上述K-means算法步骤,结合词向量模型,我们利用之前选出的50个高频词,通过计算轮廓系数,确定最佳聚类个数。轮廓系数用于评价聚类效果的好坏,越接近1,则聚类效果越好 [9] (见图5)。
Figure 5. K-means algorithm contour coefficient
图5. K-means算法轮廓系数
观察上图可知,轮廓系数在聚类簇数为3或4时达到最大值,故分别选择聚类簇数为3和4对高频词进行聚类。通过对比发现,聚类簇数为4是聚类效果较理想。相应的可视化结果如下(见图6):
Figure 6. Visualization results of clustering cluster number = 4 by K-means algorithm
图6. K-means算法聚类簇数 = 4的可视化结果
分析上图可明显看出,图中左下角存在一离群点,故可考虑将50个高频词划分为三个类别。该结果可作为高频词分组的参考。
4.7. 层次分析法
层次分析法 [6] 是将与决策有关的元素分解成目标、准则、方案等层次,在此基础上进行定性和定量分析的决策方法。该方法将决策问题按总目标、各层子目标、评价准则、具体方案的顺序分解为不同的层次结构,继而求解判断矩阵特征向量,求出每一层次的各个元素对上一层次的某元素的优先权重,最后再运用加权和的方法,递阶归并各方案对总目标的最终权重,最终权重最大者的方案即为最优方案。
具体建模步骤如下:
① 建立层次结构模型。将决策的目标、决策准则、决策对象按照其相互关系分为最高层、中间层和最低层,绘出层次结构图。其中最高层为决策的目的,即要解决的问题;中间层为决策时的备选方案;最低层为决策的准则。
② 构建判断矩阵。层次分析法中构造判断矩阵的方法是一致矩阵法,即将所有因素两两相互比较。此时采用相对尺度(见表2),以求尽可能减少性质不同因素相互比较的困难,提高准确度。
Table 2. Determine the scale of matrix elements
表2. 判断矩阵元素标度
③ 层次单排序及其一致性检验。对于判断矩阵最大特征根λmax的特征向量,将向量中各元素进行归
一化处理后,将特征向量记为W。定义一致性指标
,CI = 0,有完全的一致性;CI接近于0,
有满意的一致性;CI越大,不一致越严重。为了衡量CI的大小,引入随机一致性指标RI (见表3)。
Table 3. Average random consistency index RI
表3. 平均随机一致性指标RI
定义一致性比率
,一般认为一致性比率CR < 0.1时,认为判断矩阵的不一致程度在容许范
围之内,通过一致性检验,可用其归一化特征向量W作为权向量。
④ 层次总排序及其一致性检验。计算某一层次所有因素对于最高层(总目标)相对重要性的权值,称为层次总排序。
层次总排序的一致性比率为
,当CR < 0.1时,认为层次总排序通过一
致性检验。
基于以上层次结构模型构造成对比较矩阵。对于各级指标,对该层下面的各方案进行成对比较,并按照相对的重要性量化评级。通过对同一准则下的方案层指标出现的频数大小差异进行对比,来衡量每个方案的相对重要性。每一个具有向下隶属关系的元素作为判断矩阵的第一个元素,位于左上角,隶属于它的各个元素依次排列在其后的第一行和第一列。
判断矩阵如下:
两个一级指标的判断矩阵:
“医生”维度判断矩阵:
“软件”维度判断矩阵:
层次单排序是指每一个判断矩阵各因素针对其准则的相对权重,所以本质上是计算权向量。在实际中要求判断矩阵满足大体上的一致性,需通过计算一致性比例CR,并根据平均随机一致性指标RI进行判断,进行一致性检验。
最终,分别利用算术平均法、几何平均法和特征值法计算权重,可以得到二级指标相对一级指标、一级指标相对于总的准则的权重(此处取算术平均法得到的权重,保留三位小数)。
其中,软件部分的各个二级指标具体含义为:
· 有用性:软件使用是否便捷,软件是否能提供附加服务如预约疫苗等,以及软件是否能提供有用的科普知识和文章等;
· 可靠性:软件是否能有效保护用户隐私,软件提供的服务是否值得信赖,软件是否值得用户推荐给他人使用等;
· 软件性能:软件下载是否流畅,软件画面是否美观,软件使用时网络是否流畅等;
· 费用:在软件上进行挂号、买药、资讯所需的费用是否合理;
· 客服关怀:软件客服回复态度是否良好,回复是否及时。
各指标权重如下图所示(见表4):
Table 4. Weights of primary and secondary indexes
表4. 一级指标、二级指标权重
由上表可知,影响用户满意度的最主要因素为医生的专业性及软件的有用性,相比较而言,软件的客服关怀及软件性能对用户满意度影响较低。因此,在线医疗平台在进一步升级APP时,可着重提高医生的专业性及软件的有用性。
4.8. 情感分析
由于用户评价中所包含的态度通常不是完全积极或完全消极,因此,为得到在线医疗平台的用户满意度评分,我们不能简单计算评分结果的均值。机器计算的结果是基于词语字面表达的态度(积极或消极)得来的,仅依据少量的文字表达难以得出理想的具体评判分值。为此,我们建立评价模型,该模型可以包容情感分析带来的文字到数值转化的误差。
4.8.1. 情感分组
对主流在线医疗平台的评论进行情感分析,首先需要对评论进行情感分组。人工评定情感分值后,利用机器学习对余下评论进行打分。通过构建情感词典的方式对在线评论文本数据进行情感分析,并将情感倾向性词语分为积极、中肯和消极倾向三类 [10] 。继而,我们计算三组评价数在中评价数中的占比,计算结果见表5。
Table 5. The proportion of positive, pertinent and negative comments on mainstream online medical platforms
表5. 主流在线医疗平台积极、中肯、消极评论数占比
相比于其他在线医疗平台,“快速问医生”的积极评论占比最大,其次是“春雨医生”;而差评比例最大的医疗平台是“平安健康”。该结果表明,“快速问医生”和“春雨医生”两个医疗平台用户满意度较高,而“平安健康”的用户满意度最低,需要继续完善平台服务。
4.8.2. 各在线医疗平台各二级指标情感分组
利用人工标记类别的评论训练模型,并用模型余下评论数进行分类。经整理后,得到每个在线医疗平台二级指标的评论数量及比例。下表为“丁香医生”各类的评论数量及比例(见表6):
Table 6. The proportion of positive, pertinent and negative comments on Lilac Doctor
表6. 丁香医生积极、中肯、消极评论数占比
下图7为本文所研究的7个主流在线医疗平台各类评论数目的条形图:
从条形图可知,“快速问医生”和“丁香医生”的评论数目最多且积极评论数目占比较大,“春雨医生”的积极评论数目占比也明显高于其中肯评论数和消极评论数;相比之下,“医鹿”和“好大夫在线”的积极评论数占比较低。
Figure 7. Bar chart of reviews of each type for each medical platform
图7. 各个医疗平台各类型评论数条形图
下图8为本文所研究的7个主流在线医疗平台各属性相关的评论数条形图:
Figure 8. Bar chart of the number of comments for each attribute of each medical platform
图8. 各个医疗平台各属性评论数条形图
从条形图可明显看出,关于软件有用性的评论数目在“平安医生”、“春雨医生”、“医鹿”、“丁香医生”中明显多于关于其他属性的评论数目;关于医生专业性的评论在各个在线平台的数目都比较多;关于患者满意度的评论在“医鹿”、“好大夫在线”、“快速问医生”和“丁香医生”中的数目较多;关于软件可靠性的评论是各个平台评论的重要组成;相比之下,各平台中关于其他属性的评论数较少。
给各组评论赋分,积极评价为5分,中肯评价为3分,消极评价为1分,计算各个属性的情感分值,得出结果(见表7):
Table 7. Emotional scores of each attribute of online medical platform
表7. 在线医疗平台各属性情感分值
4.8.3. 满意度的计算
依据已经得出的权值和特征词情感值,用户满意度计算公式为:
(9)
式中C代表用户满意度;
代表要素层的权重;
代表指标层的权重;
代表各个特征词的综合情感值。
根据上述公式,计算得到各个指标下的满意度,最终得到各个在线医疗平台的用户综合满意度评分(见表8)。
Table 8. Online medical platform scores and comprehensive scores of each index
表8. 在线医疗平台各评价指标的得分及综合得分
由表8的综合评分可看出,本文选取的在线医疗平台中,用户综合满意度评分,“快速问医生”>“丁香医生”>“京东健康”>“平安健康”>“医鹿”>“春雨医生”>“好大夫在线”,“快速问医生”的综合评分较高,主要是因为其医生专业性、软件有用性、软件可靠性的评分较高;“丁香医生”的综合评分同样较为理想,由表格看出,其医生专业性、医德医风、患者满意度、软件有用性的评分都比较高;而对于“好大夫在线”而言,其综合评分明显低于其他在线医疗平台的主要原因是它的医生专业性评分较低,同时其他方面的评分不占优势,从而导致其综合评分不理想。由此我们可知,“快速问医生”和“丁香医生”app的综合功能更全面,提供的服务更为周到,而“好大夫在线”则仍需进一步升级平台服务,尤其需要着重提高平台中提供医疗服务的医生的专业性。
5. 结论及建议
5.1. 结论
本文以后疫情时代为背景,利用文本分析处理技术从应用商店(如华为应用市场、360手机助手等)中获取主流在线医疗服务平台的用户评论文本信息,探究影响用户满意度的主要因素,并对各个平台进行满意度评分,为用户选择合适的在线医疗平台提供帮助。
本文首先对爬取的评论文本数据进行分词、去停用词、词性标注等预处理;然后利用TF-IDF算法提取特征词,并用特征词来构建评论文本语义网络;运用聚类算法、LDA算法、K-means算法聚类对高频词进行聚类分组,将影响用户服务满意度的因素分为两大类:“医生”、“软件”;其中影响对医生的满意度的因素有:医生专业性、医德医风、患者满意度;影响对软件的满意度的因素有:有用性、可靠性、性能、费用、客户关怀。运用层次分析法搭建在线医疗平台的用户满意度模型,结合情感分析得到用户对主流在线医疗平台的满意度评分。
研究结果表明,在各个满意度影响因素中,医生专业性和软件有用性所占比例较高,而软件的性能和客服关怀所占比例较低;在所研究的七个主流在线医疗平台中,“快速问医生”和“丁香医生”的综合评分较高,而“春雨医生”和“好大夫在线”的综合评分较低。
5.2. 建议
从研究所得的结论可看出,用户在评价在线医疗平台时,比较看重医生的专业性(即医生能否提供有建设性的专业建议)和软件的有用性(即软件使用是否便捷或是否能在软件中获取有用的科普知识等);相比较而言,软件的性能(即软件下载是否流畅、软件页面是够美观)和软件的客服关怀对用户评价在线医疗平台时的影响较小。因此,各在线医疗平台在进一步提升软件时,我们建议各平台可着重提升医生的专业性和软件的有用性等,如引入更有经验专业水平更高的医生为用户解答疑惑和提供就诊建议,以及在软件中提供更多便民服务。
鉴于各个医疗平台的综合得分情况,我们建议“春雨医生”和“好大夫在线”可进一步有针对性地提高平台的各项性能,为用户提供更优质的服务。同时,用户在选择医疗平台时,建议优先选择“快速问医生”和“丁香医生”。
基金项目
华北电力大学大学生创新创业训练项目(202209001)。