1. 引言
随着互联网飞速发展,个性化旅游推荐缓解了信息过载问题。传统推荐是从用户偏好视角出发,通过用户行为信息预测用户可能的偏好,其中用户行为包括评分、购买、浏览等用户留下的记录[1] [2]。以往的用户偏好客观地刻画了用户特征,但随着游客需求的不断变化,游客更加注重感知体验。个性化推荐的成功依赖于消费者的主观判断,消费者对提供的产品或服务的感知价值各不相同,感知价值不同将导致购买意愿和体验评价的差异[3]。传统推荐忽略了感知差异问题,在推荐中日益显现出不足。因此在个性化推荐过程中,从感知价值视角进行偏好建模更加符合消费者的决策过程。随着社交媒体和旅游平台的普及,公众意见的价值日渐凸显,旅客分享的真实反馈和感受形成了丰富信息,影响着旅游目的地和产品的选择。越来越多的消费者习惯上网查询相关资讯,参考公众消费体验来辅助决策。利用公众意见进行建模获取更真实准确的用户偏好,对个性化推荐具有重要意义。
针对公众意见背景下感知价值评估问题,传统的多属性决策方法暴露了不足。一是感知价值量化难,传统研究中通常将决策者的评分或情感倾向作为用户偏好,与真实感知价值存在偏差。前景理论能够衡量实际情况与心理预期比较而形成的心理价值差异,但以往研究中参照点多为问卷或调研等途径获取的已知值,有的学者将评价均值、中位数等作为参照点,对于评估感知价值不够准确,用户期望作为参照点更加贴合感知价值的评估。然而公众意见语言自由,存在未表达期望情况。二是意见表达不一致,不同平台上公众意见特点不同,比如小红书中多为正面的旅游体验和推荐,美团或大众点评中则含有中性和负面评价,因此不同平台中公众意见的语言表达、情绪分布情况存在差异,需要对意见进行抽取处理,统一公众意见的表示形式。三是评价存在缺失,在旅游领域中,用户发表内容通常只会对一个或几个方面进行评价,导致了评价矩阵的稀疏性,所以评估感知价值时需要考虑信息不完备问题。
因此,本文面向公众意见,从感知价值视角构建用户偏好模型,为个性化推荐提供参考。通过建立抽取规则挖掘文本中的期望信息,利用半监督学习方法预测未标注样本,获得用户期望信息。引入用户期望等特征进行群体聚类,集结获得群体期望,以便于群体推荐。通过概率语言统一表示公众意见,基于前景理论计算用户感知收益和损失,构建概率语言感知矩阵,进而利用TODIM方法集结大群体意见求解评估感知价值。
2. 相关工作
2.1. 感知价值
感知价值是消费者对产品质量、性能,购物过程的便利性、愉悦性,以及消费目标的总体评价[4],能够很好地解释与预测消费者偏好和购买行为[2]。感知价值概念源于消费者行为理论。1988年Zeithaml利用焦点小组和深入访谈探索了消费者感知价格、感知质量和感知价值之间的关系,将感知价值定义为消费者在考虑自身利得和利失的基础上,对产品或服务的总体评价[5]。在旅游领域,游客感知价值一般以营销领域的顾客感知价值为基础,结合旅游领域的特性,研究旅游目的地属性满足游客需要、达到游客目标使用结果的感知偏好和评价[6]。随着对感知价值的深入研究,有学者提出消费者感知价值受多个因素的影响,消费者对其购买的商品或服务的评价需要从多个角度、依据不同的标准来衡量,即使用多维度量表进行测量更加科学和全面[7]。在旅游研究领域中的感知价值测量,学者们也较多采用多维度量表进行测量。Sánchez等认为,游客感知价值可以划分为设施价值、专业价值、质量价值、价格感知、情感价值和社会价值6个维度[8]。黄颖华和黄福才将感知价值维度划分为感知质量、情感价值、社会价值、感知经济成本和感知非货币成本5个维度[9]。游客感知价值的研究呈现多维度的趋势,根据研究对象的不同具体的感知价值维度呈现差异化特征,针对旅游决策问题中的游客感知价值度量的研究仍显缺乏。当前多数研究采用问卷调研与深入访谈等传统方式,这在数据规模、获取时间上存在一定局限性。随着互联网时代大数据不断积累,如何有效地从大规模公众意见中有效识别并分析用户的感知价值维度日趋重要。
2.2. 基于前景理论的多属性决策方法
相关研究表明决策者的心理行为表现为对损失的风险规避和对收益的风险偏好。Kahneman和Tversky教授提出前景理论,指出决策者总是高估小概率事件而忽略正常事件,从而面对损失比面对收益更敏感,决策的价值取决于决策主体的感知[10]。前景理论在决策领域的应用非常广泛,基于前景理论的决策往往与实际的决策行为更为契合。目前已经有很多学者在解决多属性决策问题中考虑决策者的心理行为,并展开了相关研究。Fan等分别用区间数和清晰数表示了方案的属性值和决策者的期望水平,进而以决策者的期望水平为参照点,运用前景理论的价值函数确定方案的前景值,据此对方案进行排序[11]。赵辉等针对犹豫模糊数的多属性决策问题,确定中位数作为参照点来评估前景值,建立多目标优化模型确定属性权重[12]。多数研究利用已有值作为参照点,这与游客真实的感知过程存在偏差。大量学者将前景理论运用到多属性决策中,进行产品的评价和选优。王志平采用主客观结合的方式来求解权重,提出将前景理论与TOPSIS法相结合的多属性群决策方法,并将此方法运用到概率犹豫模糊环境中[13]。阎曼婷通过建立风险收益矩阵和风险损失矩阵,得到相应的前景矩阵,将区间数、语言数和三角模糊数转化为清晰数,计算备选方案的综合前景值并进行排序[14]。但将前景理论与概率语言结合运用在公众意见中的研究较少。
2.3. 概率语言术语集
在实际决策中,由于现实情况的不确定性和复杂性,用数字标度往往无法合理、精确地反映决策者的个人偏好。为更加恰当的表达管理者的主观判断,有研究者引进了语言模糊集方法[15],提出用语言变量表达的方法,如决策者可以用“好”、“一般”或“差”等语言来进行评价。基于语言评价信息的决策问题具有广泛的实际背景,在产品质量评估[16]等领域发挥了重要作用。为呈现语言术语的不同偏好程度,Pang等人基于HFLTS的概念,提出一种基于概率的语言术语集合(PLTS),它可以在不丢失原有的语言信息的前提下,通过加入概率来扩充犹豫模糊语言术语[17]。
定义2.1 假设一个语言术语集S为
,那么概率语言术语集(PLTS)可表示为:
(1)
其中,
表示决策评价的语言术语项
的,
表示术语项对应的概率值,
表示语言术语项的数量。
定义2.2 假设一个概率语言术语集为
,满足条件
,那么标准化的PLTS表示为:
(2)
其中,
。
定义2.3 假设两个概率语言术语集分别为
,
,且
,则
和
之间的距离为:
(3)
随着概率语言决策理论的发展,PLTS的多属性决策方法已经发展起来。多位学者将基于概率语言信息的决策问题与经典决策方法相结合,取得了一些重要研究成果。Liu等提出了一种新的Choquet积分算子,该算子考虑了属性之间的关系,能够有效避免评价信息的丢失[18]。Darko等人针对消费者评论通过无监督的情感算法计算情感得分,进而将其转换成概率语言元素[19]。国内也有许多学者对PLTS进行了拓展研究。周欢等人将情感分析与概率语言相结合,建立了概率语言决策矩阵,并将评论的情感转化为决策信息,对产品和服务进行了全面的评估[20]。高建伟等人利用power语言集结算子对概率语言术语信息集结,通过定义新的距离公式,基于集结后的概率语言术语信息构建前景矩阵[21]。概率语言术语能够准确细致地表达决策者的语言偏好信息,但随着决策者数量的增加,数据的规模指数也在不断增加。针对公众意见研究问题,如何确保量化结果的精确和全面,减少信息转化过程中的信息缺失是当前的一个难题。
3. 公众意见的感知价值评估
3.1. 问题描述
网络时代旅游业中,游客需求不断升级,对个性化推荐的要求不断提高。由于用户感知的不同,同一个产品对不同用户的效用价值不同,为消费者推荐效用更高的产品能够提高其购买意愿和满意度。因此本文想要解决的问题是,面向公众意见,基于前景理论评估用户感知价值,构建用户偏好模型,得到更加符合消费者决策的评价结果,为旅游推荐提供参考。
定义推荐的备选旅游景点集合
,对各个备选景点发表过意见的用户集合组成决策群体,决策者为
,意见记为
。
为感知价值评估维度,随着公众意见的内容变化而变化。前景理论通过设定参照点作为个体损失或者收益的依据,并建立价值函数得到前景效用。针对旅游领域感知价值评估问题,挖掘公众意见中的用户期望
作为前景理论的参照点。将用户意见用概率语言决策信息表示,以感知价值维度为属性构建概率语言决策矩阵D,作为前景理论中的评价值。从而通过改进前景理论的价值函数,构建用户感知价值矩阵V,表达用户感知偏好。
为属性权重向量,且
,集结公众用户的感知值衡量各个备选景点的综合感知值,进行排序作为景点推荐的参考。
3.2. 挖掘用户期望
本文将用户期望作为评估感知价值的参照点。网络时代公众意见语言自由,不同用户表达方式以及描述角度有所不同,可能没有直接表达期望信息或只对某一方面表示预期。个体期望较难获取,希望通过群体解决个体评估的缺陷,从而表示用户偏好。但面对公众群体,决策者人数众多,不同用户的判断水平和选择偏好等各不相同,用户感知具有差异性。传统的群体聚类方法大多是根据观点或情绪进行分类,未考虑到用户感知,可能导致群体内的感知价值偏差较大。因此,本文希望根据用户感知进行群体划分,由于用户期望是影响感知价值的重要因素,引入期望作为聚类特征,优化群体聚类效果,进而建立群体期望,合理定义用户的需求。
经过文献和问题研究,部分用户内容中存在着明显的用户期望表达,传统研究方法大多通过直接性指示词进行筛选,样本量较少,忽略了部分间接性的表达也能够体现用户期望,所以本文希望扩大期望信息的识别范围,挖掘出更多用户期望信息。除了期望指示词的用户表达,发现公众意见中对比性表达和建议性表达间接蕴含着用户的期望信息。对比性表达中通常会提及比较的对象和评价,进而能够推断用户期望。当用户期望与实际存在差距时,用户可能会提出建议,所以用户的建议性评价也会蕴含用户期望。通过对这两类用户内容的深入研究,研究间接期望信息的特点,根据词性和表达结构拓展新的规则挖掘间接的期望表达。针对含有指示性词语的公众意见,本文根据文献[22],抽取出如下体现使用反馈的能愿动词:想、想要、要、要想、希望、企图等,筛选出蕴含用户期望的用户表达,建立组合规则抽取信息。综上,通过期望抽取规则挖掘出显性期望信息,抽取结果为期望信息对<期望属性,期望程度>,抽取规则如表1。
Table 1. Expected extraction rules
表1. 期望抽取规则
期望类型 |
词性组合 |
示例 |
抽取结果 |
指示性词语 |
v + v/vi/vn + n |
希望/v开发/v更/d多/a设施/n |
设施–更多 |
指示性词语 |
v + n/v + a |
希望/v功能/n越来越/d多/a |
功能–越来越多 |
对比性表达 |
v + n + d + a |
相比于/v其他景点/n,这个价格/n较/d高/a |
价格–不高 |
建议性表达 |
n + d + a |
如果有讲解服务/n会更/d好/a |
服务–更好 |
建议性表达 |
v + n + v/a |
建议/v一些设施/n要更新/v一下 |
设施–更新 |
由于用户表达方式的不同,抽取出期望属性各不相同,同时用户通常会对产品的不同方面有不同的预期,所以为了后续感知价值的评估,需要对期望属性进行统一。本文利用LDA主题模型对在线评论进行主题识别,确定感知价值的构成维度,将期望属性与感知价值维度对应。此外,在旅游领域的表达中,消费者通常没有给出具体的数值型的期望信息,一般用模糊语言变量表达,如消费者提出“希望景色好”,本文通过情感分析用七粒度模糊语言信息进行标注,语言术语项S = {非常差,差,稍差,一般,稍好,好,非常好}。
通过属性对应和情感标注将期望信息规范化,构建具有期望标注的样本数据集。由于拓展抽取规则后,抽取出期望信息的样本量级仍然较少,还有大量样本没有期望信息。本文通过半监督学习方法解决大量未标注样本的期望预测问题。期望预测流程如图1。
Figure 1. Expectation forecasting flowchart
图1. 期望预测流程图
第一阶段需要识别出用户的期望属性。利用实体抽取方法的中BiLSTM-CRF模型,识别出评论中包含的感知评价维度。第二阶段需要针对各个期望属性预测出相应的期望值。本文利用DW-TCI (Double Word2Vec Three Classifier Integration)半监督文本分类方法,使用Word2Vec的两种模式,CBOW模式和Skip-gram模式,抽取不同空间的特征作为基分类器的输入,并使用基于分歧的半监督分类方法和集成学习的思想,将无监督共识结果样本引入模型训练,最终通过对分类器的集成得到分类结果。预测流程分为两轮:第一轮首先使用少量有标注样本训练基分类器组,利用训练好的基分类器组对大量无标注样本进行预测,对所有基分类器分类结果一致的共识样本自动标注上预测结果,并加入有标注样本中以提高训练集样本的数量。第二轮为优化迭代,使用补充过的有标注样本再次训练基分类器组,利用训练后的基分类器组对待分类样本进行分类,对分类结果一致的样本加入到样本集中,不断迭代直至所有样本达到标记标准,输出所有期望值预测结果。基于期望属性和期望值,得到所有评论的期望信息。
3.3. 构建群体期望
根据影响感知价值的多特征,利用K-means聚类算法对公众群体进行分类,引入用户期望信息提升聚类效果。聚类特征包括期望特征、语言风格特征、语义特征。
1) 用户期望
将用户期望信息转化为期望特征,用特征向量表示。
2) 语言风格特征
语言风格的差异会影响消费者的感知和决策,不同的语言风格会给人不一样的感觉和不同的理解。通过对公众意见中语言结构特征的统计可以得出语言风格的一致性或区别性特征,语言结构的分布数据变成体现语言风格的计量特征。在参考文献[11]提出的用于文本聚类的汉语计量特征后,选择了词长、句长、副词比例、名词比例、代词比例、助词比例、标点符号比例、陈述句比例、疑问句比例、感叹句比例等10个语言结构类型作为语言风格特征。
2) 语义特征
语义特征表达了用户的观点。传统的Word2vec方法无法解决一词多义等问题,影响提取特征的准确性。本文利用BERT模型将文本转化为词向量,获取语义特征向量,BERT模型能够考虑文本上下文语信息,解决一词多义问题,更准确地提取文本特征。
对于聚类类别数k的选取使用肘部法则确定,通过K-means聚类选择k值后,得到群体聚类集合Gk。
(4)
基于群体划分结果,将期望信息通过情感分析量化为期望值,集结个体期望得到群体期望值。
(5)
表示群体对属性j的期望值。
3.4. 概率语言感知矩阵
前景理论通过价值函数刻画用户对感知价值收益和损失的敏感程度。当评估值大于或者等于期望时,用户会认为方案在这一属性的表现达到了预期,视为收益,反之则为损失。需要从公众意见内容中获取用户评价值。面对海量的公众意见,用户通常只会对产品的一个或几个方面进行评价,直接将个体评价文本量化为评估值会导致评价矩阵不完整,影响推荐的效率和效果。所以本文用群体意见代替个体意见,弥补个体信息缺少问题,便于感知价值的评估。
首先,获取每个用户的决策意见。旅游领域的用户内容的长度不定,且结构复杂,语言表达丰富多样,获取意见较为困难。本文采用基于词嵌入和依赖解析的识别方法,避免评价特征的遗漏,完整获取决策者的评价观点。获得用户意见三元组由三个元素组成:评价特征、情绪词及其修饰符。以评论“这家酒店的服务非常差”为例,得到三元组:<服务,差,非常>。接着采用Word2vec词向量模型将用户评价意见与感知价值维度进行映射,得到用户的感值评价。完成映射后得到用户感知意见,如<维度,情感词,修饰词>。利用双向长短记忆网络模型(Bi-LSTM)进行情感分析,将用户文本意见量化为情感值,并划分为7个区间,用语言术语表示,细化决策用户间的情感差异,语言术语项S = {非常差,差,稍差,一般,稍好,好,非常好}。由此,通过意见抽取和情感分析,将用户内容转化为个体评价值。由于网络用户的水平参差不齐,通过用户意见的点赞数、回复数、关键词数量和不同评价属性数量指标衡量决策者的可信程度,建立决策者评价三元组<属性,评价值,权重>,进而构建三维的备选目标的概率语言决策信息矩阵
,以备选目标
为例。
(6)
表示备选目标
的决策信息矩阵。
表示在备选目标
的决策信息中,第k个决策者对第j个属性的评价结果,
即第k个决策用户的可信度。
基于群体划分结果,群体评价表示如下。
表示集结群体意见后的评价结果。
(7)
其中
,
。
结合概率语言术语集的特点,改进前景理论价值函数中的收益和损失计算。价值函数公式如下。
(8)
其中d表示两个概率语言术语集的偏差度,
为评价值,
为参照期望。参数
和
分别表示损益函数针对收益区域与损失区域的凹凸程度,描述消费者对收益与损失的感知变化。参数
表示消费者的损失规避程度。
基于用户期望和群体评价,依据价值函数将评价矩阵转化为用户感知价值矩阵
。
(9)
3.5. 计算综合感知值
基于群体感知价值矩阵,本文通过TODIM方法求解评估各个备选目标的综合感知效用值。TODIM方法是一种建立在前景理论基础上的交互式多属性决策方法,计算每个方案的多属性函数值进行排序与择优。求解模型的步骤如下:
1) 计算属性权重。针对影响用户感知价值的各个维度因素,采用信息熵计算属性权重,使评价结果更加合理和准确。属性
的权重为
,属性j的信息熵为
,其中
为评估值归一化后的值。
(10)
(11)
(12)
2) 计算属性的相对权重。
(13)
其中选择属性权重中的最大值作为参考权重,
。
3) 根据概率语言术语集的距离公式,计算得到各个属性下方案的相对优势度。假设
与
为两个备选方案,在属性
下,
相对于
的优势度为:
(14)
其中
表示
与
之间的距离。参数
(
)为衰退系数,与决策者的损失规避程度呈负相关,可根据决策者偏好来定。
集结各属性优势度,计算
相对于
的优势度为:
(15)
4) 计算方案的总体优势度。
总体优势度。
(16)
5) 基于总体优势度对备选方案进行排序,从而评估方案的感知价值。
4. 实验分析
4.1. 数据预处理
本文选取去哪儿网的上海市的景点作为决策方案,爬取其在线评论数据作为公众意见的示例进行实证分析。数据预处理后选取10个上海市旅游目的地,共5万条评论。具体符号含义见表2。
Table 2. Symbolic meaning
表2. 符号含义
符号 |
含义 |
备注 |
|
旅游景点 |
评价的备选目标 |
|
景点感知属性 |
|
prop |
提取的关键词 |
如:味道 |
adj |
提取的形容词 |
如:好 |
keywords |
提取的关键意见 |
如:味道好 |
构建感知价值评估维度。通过LDA主题模型得到特征词集合,对主题模型结果进行感知特征分析,归纳总结旅游景点感知价值的维度,构建感知价值与指标之间的映射关系。感知价值维度如表3。
Table 3. Perceived value dimension
表3. 感知价值维度
感知价值维度 |
指标 |
情感价值 |
开心、高兴、愉悦、感叹、喜欢、愉快、遗憾、惊喜等 |
成本价值 |
时间、门票、地铁、交通、排队、花费、性价比等 |
文化认知价值 |
历史、教育、文物、文化、宫观、知识、文艺、中国等 |
社会价值 |
朋友、家人、全家、建议、孩子、推荐、看到等 |
服务功能价值 |
设施、讲解、管理、服务、人员、预约、运营等 |
由此得到评估旅游景点的感知价值的五个维度和指标。情感价值体现愉悦、不满意等游客的情感。成本价值体现消费的性价比,包括票价、时间等。文化认知价值包含感受文化、了解历史等方面。社会价值包含增进家人感情、提供旅游建议等。服务功能价值包括景点服务、配套设施等方面。
4.2. 构建群体期望
4.2.1. 挖掘用户期望
基于期望抽取规则,抽取出评论数据中蕴含的直接和间接期望信息,并用模糊语言进行标注,构建具有期望标注的小样本数据集。(表4)
Table 4. Example of expected sample labelling
表4. 期望样本标注示例
评论 |
期望抽取 |
期望标注 |
全家人一起来玩,价格也很适中,建议园区的指示牌多点,有点转向 |
配套设施:多点 |
服务价值:稍好 |
刚开业期间要有优惠优势来吸引游客,本来就偏远又是新开张,坚决建议价格优惠,换取口碑和游客量的宣传 |
价格:优惠 |
成本价值:好 |
离市中心还是有一段路程的,地铁出来之后还需要坐短驳车,希望交通能够更便利一些 |
交通:便利一些 |
成本价值:稍好 |
根据结果可以看出,通过抽取规则能够有效抽取出期望信息。但期望标注的样本还是小部分,仍存在大量未标记期望的样本,基于半监督学习模型进行训练,预测其他样本的期望信息。通过准确率、精确率、召回率和F1值指标评估模型的分类效果。准确率指分类正确的样本数量与总样本数量的比值。精确率指预测为该类别且预测正确的样本数量与预测为该类别样本总数的比值。召回率指预测为该类别且预测正确的样本数与实际属于该类别样本总数的比值,F1值是准确率和召回率的调和平均数。
分析有标记样本集占比对模型效果的影响。将有期望标记样本数据集与无标记样本集占比分为五个实验组,分别为1%、5%、10%、15%、20%,按DW-TCI的分类流程进行分类,各组的分类结果如图2。可以看出,随着有标记样本集在总样本中所占比重的提高,算法的分类效果也在不断提升。当有标注样本占比从1%提升到10%,各项指标的涨幅较大,提升较为明显。而当有标注样本占比从10%提升到20%,各项评价指标的增幅非常有限。但是随着有标注数据占比的提高,数据标注消耗的时间成本、经济成本都成倍增长。所以针对本文的数据集,综合考虑准确率和标注成本,则将有标签样本占比重定位在10%。
Figure 2. Labelled sample set share classification results
图2. 标记样本集占比分类结果
为了验证模型的有效性,将本文模型与传统半监督分类模型进行比较。半监督分类模型的最优效果可以等价于分类效果无限逼近与之对应的使用全部有标签样本集训练的有监督分类模型。本文用准确度差值评估模型的效果,准确度差值是半监督分类模型的分类准确率与对应的有监督分类模型分类准确率的差值的绝对值。在有标记样本集占比为10%的条件下,将本文模型与其他基于分歧的半监督文本分类方法进行比较,如Co-training、Tri-training,以上模型根据对应参考文献中实现。各模型效果如图3。
Figure 3. Comparison of the effectiveness of various semi-supervised text classification models
图3. 各半监督文本分类模型效果比较
实验证明DW-TCI模型的分类精度高于对比的其他半监督分类模型。在PD指标上也优于其他半监督分类模型,说明DW-TCI模型更为接近半监督分类的最优结果,有效地证明了DW-TCI模型可以应用到标记样本少的期望分类任务中。
4.2.2. 群体聚类
利用K-means聚类算法划分感知相近子群,结合轮廓系数选择最佳聚类数目K = 9。为验证群体聚类方法的有效性,通过群体属性熵和群体偏差度指标对比传统子群构建方法,评估群体聚类效果,实验结果如表5。群体属性熵反映了子群评价信息的多样性,熵越大,信息越丰富。计算为所有属性熵的加和,其中
为属性
的评价中用户属于子群k的概率,
为子群k的评价矩阵包含的信息量。
(17)
定义群体偏差度为子群内部期望偏离整体的程度,值越低群体感知价值共识越高。其中
表示决策者u的感知值,
表示子群k的集体感知值,
表示子群
的成员数量。
(18)
Table 5. Comparison of group clustering results
表5. 群体聚类结果对比
聚类方法 |
群体属性熵 |
群体偏差度 |
基于评价相似性的聚类方法 |
38.30 |
81.92 |
引入期望信息的聚类方法 |
52.12 |
62.11 |
实验结果显示传统聚类方法群体感知价值偏差较大。引入用户期望的聚类方法的群体偏差度更小,群体内感知价值相似度更高。基于群体分类结果,将期望信息通过情感分析转化为情感值,集结个体期望得到群体期望。
4.3. 构建概率语言感知矩阵
4.3.1. 概率语言决策信息矩阵
获取用户评论观点。基于词嵌入和依赖解析方法,循环评论数据,识别每个评论的关键词对,并与感知价值维度映射。以图4为例,抽取结果为<感觉,开心>,<消费,贵>,<项目,好玩>,并得到决策用户的三个关键意见。
Figure 4. Examples of comments
图4. 评论示例
计算评价值。利用双向长短记忆网络模型(Bi-LSTM)方法,循环每个评论观点得到其相应的积极概率、消极概率、情感分类以及置信度。计算情感值和用户可信度,示例如表6。
Table 6. User-rated values and credibility results
表6. 用户评价值和可信度结果
keywords |
attribute |
positive |
negative |
confidence |
sen |
value |
uweight |
小吃不错 |
A4 |
0.930028 |
0.069971 |
0.844507 |
2 |
0.883 |
1.808 |
店面大 |
A3 |
0.930028 |
0.069971 |
0.844507 |
2 |
0.860 |
1.8088 |
味道好 |
A4 |
0.999408 |
0.000591 |
0.998685 |
2 |
0.998 |
1.8480 |
队伍长 |
A1 |
0.000672 |
0.999327 |
0.998505 |
0 |
-0.998 |
1.8480 |
构建每个景点的评价矩阵,包括所有决策用户对各个备选方案的评价值。基于群体聚类结果,得到群体评价矩阵。
4.3.2. 概率语言感知矩阵
通过前景理论计算用户感知价值,将概率语言决策矩阵转化为概率语言感知矩阵,集结大群体意见得到各个备选方案的感知值,见表7。
Table 7. Attractions multi-attribute perception results
表7. 景点多属性感知结果
|
A1 |
A2 |
A3 |
A4 |
A5 |
1 |
83.7955 |
84.0216 |
90.6280 |
81.4989 |
97.0792 |
2 |
82.5749 |
90.2943 |
84.0325 |
81.3832 |
87.8793 |
3 |
90.4806 |
85.3587 |
93.5860 |
81.7291 |
95.0078 |
4 |
93.2546 |
90.8858 |
98.9434 |
89.2500 |
87.5788 |
续表
5 |
93.0948 |
93.2149 |
78.4067 |
89.8023 |
94.2921 |
6 |
90.7408 |
80.7191 |
95.4743 |
71.2962 |
94.4391 |
7 |
97.1112 |
89.3866 |
99.6277 |
55.1451 |
87.0720 |
8 |
86.8757 |
79.4833 |
89.9134 |
82.9072 |
88.9016 |
9 |
79.5384 |
90.6130 |
92.3887 |
66.1699 |
79.9514 |
10 |
94.9992 |
93.3219 |
89.2636 |
92.2410 |
99.1479 |
通过熵权法计算得到属性的权重,
。计算相对权重为
。
利用TODIM方法求解各个备选方案的综合感知值,并根据感知值进行排序,见表8。
Table 8. Overall perceived value and ranking of attractions
表8. 景点综合感知值及排名
Tid |
综合感知值 |
排名 |
1 |
0.7619 |
6 |
2 |
0.6873 |
7 |
3 |
0.8454 |
3 |
4 |
1 |
1 |
5 |
0.7862 |
4 |
6 |
0.6236 |
8 |
7 |
0.4927 |
10 |
8 |
0.7636 |
5 |
9 |
0.5058 |
9 |
10 |
0.9852 |
2 |
实验结果显示景点4的综合感知值最高,排第1名,景点7最低。结合备选方案在各个属性上的感知结果能够看出,景点7在属性A4上感知值偏低,这可能是导致景点7排名最后的原因。同时属性A4感知值在不同方案间的波动较大,表明感知维度A4对景点感知排名的影响较大。排名靠前的景点感知值较为均衡,没有出现极端值,表明这些景点的用户感知体验较好。
4.4. 结果分析
通过上海市旅游景点为例,本文提出的方法能够有效抽取出评论文本中的期望信息,考虑到期望样本量较小,利用半监督学习模型预测未标注样本的期望。标记样本的占比会影响模型的训练效果,本文对比验证了不同占比情况下的模型分类结果,综合精度和成本选取最优占比值。关于期望预测,本文使用Word2Vec的两种模式改进基分类器的输入,实验结果显示比基础半监督方法精度更好,分类效果更好。群体聚类方法中划分群体的特征是影响聚类结果的重要因素,本文引入期望信息作为聚类算法的特征,比传统群体聚类方法的群体期望共识更高,更适合感知价值评估问题。将公众文本意见转化为评价值,用概率语言决策矩阵表示决策者评价意见,基于前景理论得到感知价值矩阵。TODIM法是在前景理论的基础上提出的,用TODIM法集结群体信息更符合实际。
5. 结论与展望
大数据时代,公众意见具有重要的参考价值,从用户感知视角进行产品评估推荐更加符合用户的决策过程。本文面向公众意见,将前景理论和多属性决策模型相结合,提出了用户感知价值评估方法。针对公众意见的期望获取困难,本文首先建立抽取规则充分挖掘文本中的期望表达,构建期望标注样本,引入半监督学习方法进行期望预测,得到更多期望信息。考虑到用户期望存在属性上的缺失,提出了群体划分新方法,将用户期望等影响感知价值的因素引入到聚类方法中,通过构建群体期望解决公众意见的期望表示问题。接着本文将公众意见用概率语言术语表示,构建概率语言决策矩阵以减少信息的损失。在前景理论的基础上,考虑概率语言术语的特点,改进前景理论的价值函数,将评价矩阵转化为感知价值矩阵,实现了感知价值的量化评估。最终基于模型,应用TODIM方法求解得到关于备选目的地的综合感知值和排序结果。
本文虽然本文对基于公众意见的用户感知价值评估问题进行了深入的研究,并解决了若干问题,但仍需要进一步改进和优化。一是用户可信度衡量的优化。本文在衡量用户的可信程度时,只选取了互动数据和内容数据的4个指标进行计算。决策者处在不同的社会网络中,其决策行为在不同程度上会受到与其有密切社会关系的人的影响,后面还可以考虑加入社交网络关系,使可信度计算更加准确,集结大群体信息更加真实。二是数据质量的优化。对于网络上的公众意见,本文仅进行了初步过滤,忽略了可能会出现水军等虚假评价,后续可以在模型构建前对数据进行虚假评价识别处理,优化数据质量,使模型数据集更加真实,模型最终结果更加准确。
NOTES
*通讯作者。