1. 引言
国内早期的民宿通常是家庭旅馆或农家乐,随着旅游业的发展,“民宿”概念逐渐广为人知。现在,民宿主要指利用闲置房屋或用地提供短期住宿,以个性化和家庭化为特色。民宿类似于家庭旅馆和农家乐,让游客体验当地风情和景色,但管理更规范,服务和卫生品质更高端,装修设计更独特。民宿早期研究主要借鉴国外成熟地区经验,如今研究逐渐丰富,包括乡村振兴下民宿发展[1]、设计改造[2]和共享民宿[3]等。从地理空间角度研究民宿分布特征有助于挖掘地区特色和发展趋势。本文以河北省民宿为例,进行空间分布特征分析。
近年来,学者为提升民宿顾客体验,利用情感分析法对顾客评论进行文本分析成为一项重要工具。梁开孟等[4]利用LDA主题分析模型对京东用户评论进行了挖掘,分析了正面、负面和潜在主题。王涛等[5]则结合Word2vec主题聚类和朴素贝叶斯分类算法进行了情感分析。李含宇等[6]则提出了一种综合方法,利用图文融合的方式,结合主题聚类和机器学习算法进行情感分析,并使用卷积神经网络处理图片情感信息,通过决策融合计算综合情感概率,判断情感的积极和消极。
Xu等[7]为实现中红外光谱对润滑油种类的分类,比较了PLS-DA、LDA、PCA-SVM和LDA-SVM这几种方法的分类效果,发现LDA-SVM模型优于其他三种模型。Mohsen等[8]对支持向量机和LSTM两种分类模型进行了对比,结果显示,LSTM分类器的分类性能优于支持向量机。李玲玉[9]在对民宿文本评论进行影响因素分析时认为,在深度学习中,LSTM模型比CNN模型效果更好。
基于以上文献,民宿评论文本情感分析研究包括主题分析、机器学习和深度学习,以及三者相结合,但国内较少探索主题分析与深度学习相结合的研究。因此,本文将LDA主题提取模型和LSTM神经网络模型相结合,简称LDA-LSTM模型[10],将时间序列下的民宿评论文本数据作为研究对象,对其进行主题分析,并对分析后的主题进行游客民宿主题满意度研究,对其进行分析并给出结论。
2. 河北省民宿空间分布特征
2.1. 数据来源与研究方法
2.1.1. 研究区域与数据来源
河北省位于华北平原,随着“周末游河北”的兴起,越来越多的游客来此体验燕赵之旅,民宿产业随之得到发展。因此,对河北省民宿的地理位置和情感分析至关重要。本文利用POI搜索工具收集了河北省11个市1428个民宿和277个3A及以上景点的经纬度坐标数据,该工具基于百度地图对坐标进行抓取,使用ArcGIS软件将民宿POI信息可视化呈现,形成河北省民宿的空间分布图,如图1所示。
注:该图基于自然资源部标准底图服务网站下载的审图号为GS(2020)4619号的标准地图制作,底图无修改。
Figure 1. Spatial distribution map of POI in homestays in Hebei Province
图1. 河北省民宿POI空间分布图
2.1.2. 研究方法
1) 最邻近分析
最近邻距离指数(NNI) [11]是最近邻分析的常用指标,用于判断民宿POI空间分布模式。该方法通过对研究区各点位要素的观测最邻近距离和理论最邻近距离的比值来决定对应的空间分布格局。其计算公式如公式(1)和(2)所示:
(1)
(2)
其中,A为研究区域面积,N表示研究区域民宿个数,
为研究区域民宿点间理论最邻近距离,
表示研究区域民宿点间实际观测最邻近距离。NNI > 1为离散模式,NNI = 1为随机模式,NNI < 1为聚集模式。
2) 核密度分析
核密度分析法[12]能够直观地展现研究区内民宿位置在各个部分的相对集中程度,它通过一定的函数计算研究区内民宿点在其周围邻域中的密度,其计算公式如公式(3)所示:
(3)
其中,
为空间中任意一点i的核密度,
为研究对象j的权重且距离中心点近的数据点被赋予较高的权重,
为i与j间距离(
< 0),R为选定规则区域的带宽,n为带宽R的范围内研究对象j的数量。
3) 缓冲区分析
缓冲区分析[13]通过建立不同半径的多边形来分析空间对象的影响范围,其中,缓冲区是围绕空间对象的特定距离圈层。本文用此法展示民宿与3A级以上景区的邻近度,计算公式如公式(4)所示:
(4)
其中,B为一定距离的范围缓冲区;d表示x到O之间的欧氏距离;L为缓冲距,常取的值为5 km、10 km和20 km。
2.2. 结果与分析
2.2.1. 河北省民宿空间分布模式
利用最近邻分析来了解河北省民宿的空间分布模式,使用ArcGIS软件得到了民宿POI的最邻近分析结果,如图2和表1所示。
Figure 2. Nearest neighbor analysis results of POI distribution in homestays in Hebei Province
图2. 河北省民宿POI分布的最邻近分析结果
Table 1. Nearest distance index value
表1. 最邻近距离指数值
最邻近指数 |
观测最邻近指数 |
理论最邻近指数 |
Z得分 |
P值 |
0.226237 |
1812.5032 |
8011.5376 |
−55.898328 |
0.00000 |
由表1可知,最邻近指数为0.226237 < 1,Z得分为−55.898328,远小于临界值−2.58,P值小于0.0001,说明民宿POI聚集程度通过了0.01显著性检验,由此可见,河北省民宿POI空间分布呈现显著聚集模式。
2.2.2. 河北省民宿空间分布聚集特征
利用核密度分析深入研究了河北省民宿的空间分布聚集特征,通过ArcGIS软件绘制了各市民宿的核密度分布图,如图3所示,其中,浅色表示密度较低,民宿分布较稀疏;深色表示密度较高,民宿分布较密集。
注:该图基于自然资源部标准底图服务网站下载的审图号为GS(2020)4619号的标准地图制作,底图无修改。
Figure 3. Kernel density distribution map of POI in homestays in Hebei Province
图3. 河北省民宿POI的核密度分布图
从图3可以看出,石家庄和秦皇岛的密度最大,尤其是市区更为密集。石家庄作为省会城市,经济发达,民宿聚集;而秦皇岛沿海旅游业兴盛,民宿聚集更为明显。
2.2.3. 河北省民宿空间分布的影响因素研究
通过调研文献[14]可知,民宿呈现出在名胜风景区聚集的特征,其分布与景区分布密切相关。本研究以河北省3A级以上景区为对象,筛选出277个景区并获取其POI数据,运用ArcGIS探讨景区与民宿空间分布的联系,由于5 km的缓冲区过小,20 km的缓冲区过大,10 km的缓冲区对本文更为合适,结果见图4,可以看出,距离景区较近的范围内民宿占比较高且密集分布,在远离景区的区域民宿数量较少且呈现随机分散状态。
注:该图基于自然资源部标准底图服务网站下载的审图号为GS(2020)4619号的标准地图制作,底图无修改。
Figure 4. Buffer zones with radii of 10 km
图4. 半径为10 km的缓冲区
3. 基于LDA-LSTM模型对民宿评论情感满意度的分析研究
3.1. 数据来源及预处理
本研究聚焦河北省民宿,使用八爪鱼采集器对POI搜索工具收集到的11个市民宿在携程网上的评论数据进行爬取,共收集16,303条评论,涵盖用户id、入住时间、评分、出行类型、评论内容等信息。在分析之前,需要对数据进行数据预处理,以便于后续情感分析工作的进行。对用户评论内容的处理包括数据清洗、文本去重、中文分词以及去停用词。数据预处理后剩下有效评论12,138条,其中包括入住时间、出游类型、用户评分以及评论内容等主要特征内容。
3.2. 数据可视化
3.2.1. 基于词云图的特征可视化分析
本文通过Python对已经处理过的评论内容进行词云图可视化展示,如图5所示。
由图5可以更直观地看出,“干净”、“房间”、“老板”等词比较大,词频比较高,住户对民宿的环境、卫生以及经营者的服务态度等方面比较关注。
3.2.2. 词频可视化
利用Python对经过数据预处理的评论进行词频统计,选取了前30个高频词进行分析,结果见表2。从中可以看出,“干净”、“房间”、“不错”、“老板”、“环境”、“服务”、“卫生”等词频均在2000次以上,显示了用户对这些方面的关注。在后续民宿分析中,可从这些方面展开深入研究。
Figure 5. Word cloud image of comments on homestays
图5. 民宿评论词云图
Table 2. Word frequency statistics table (top 30 high-frequency words)
表2. 词频统计表(前30个高频词)
序号 |
高频词 |
词频 |
序号 |
高频词 |
词频 |
序号 |
高频词 |
词频 |
1 |
干净 |
4578 |
11 |
推荐 |
1379 |
21 |
感觉 |
879 |
2 |
房间 |
4541 |
12 |
入住 |
1313 |
22 |
晚上 |
879 |
3 |
不错 |
3314 |
13 |
设施 |
1268 |
23 |
舒适 |
864 |
4 |
老板 |
3110 |
14 |
整洁 |
1194 |
24 |
体验 |
863 |
5 |
环境 |
2906 |
15 |
下次 |
1168 |
25 |
满意 |
826 |
6 |
服务 |
2410 |
16 |
早餐 |
1146 |
26 |
好吃 |
826 |
7 |
卫生 |
2115 |
17 |
位置 |
1029 |
27 |
真的 |
793 |
8 |
特别 |
1985 |
18 |
孩子 |
948 |
28 |
齐全 |
675 |
9 |
热情 |
1978 |
19 |
老板娘 |
919 |
29 |
喜欢 |
668 |
10 |
民宿 |
1855 |
20 |
舒服 |
896 |
30 |
这家 |
646 |
根据表2词频统计结果,可以看出:住宿房间是否干净是住户非常关注的因素,民宿经营者需要重视卫生问题;“老板”、“服务”和“热情”等词的高频出现表明民宿区别于酒店的特点就是能体现当地风土人情及良好主客互动,老板的态度和特色服务至关重要;“推荐”和“下次”表明住户愿意推荐给他人并有重游的意愿。综合来看,这些高频词反映了游客对河北省民宿总体上的认可。
3.2.3. 基于语义网络的特征关联分析
通过高频词提取和词云图分析,发现了住户对民宿的关注焦点,但未能揭示词汇之间的联系。借助社会语义网络分析这一工具,可直观反映各词汇之间的关联关系。基于共词分析的思想,以ROSTCM6软件为工具,将已经分词、去除停用词后的评论文本导入到软件当中,然后生成高频词共现矩阵(见表3)以及共现语义网络图(见图6)。
Table 3. Homestay high-frequency vocabulary co-occurrence matrix (partial)
表3. 民宿高频词汇共现矩阵(部分)
|
房间 |
干净 |
环境 |
服务 |
老板 |
热情 |
卫生 |
民宿 |
房间 |
4541 |
2149 |
764 |
999 |
1065 |
971 |
720 |
558 |
干净 |
2149 |
4578 |
1011 |
1098 |
1230 |
1104 |
1384 |
538 |
续表
环境 |
764 |
1011 |
2906 |
1110 |
607 |
655 |
771 |
327 |
服务 |
999 |
1098 |
1110 |
2410 |
601 |
855 |
788 |
338 |
老板 |
1065 |
1230 |
607 |
601 |
3110 |
1110 |
463 |
478 |
热情 |
971 |
1104 |
655 |
855 |
1110 |
1978 |
482 |
365 |
卫生 |
720 |
1384 |
771 |
788 |
463 |
482 |
2115 |
|
民宿 |
558 |
538 |
327 |
338 |
478 |
365 |
|
1855 |
表3的共现矩阵显示,“房间”、“干净”、“服务”、“卫生”、“老板”、“环境”等词汇共现频率高,如“房间”与“干净”共现2149次,“老板”与“热情”共现1110次。
Figure 6. User comment social semantic network diagram
图6. 用户评论社会语义网络图
图6的语义网络图表明,“干净”、“房间”、“老板”是核心特征词,与其他词语关系紧密,出现次数多,与共现矩阵分析一致。此外,“服务”、“环境”、“热情”、“设施”和“卫生”等也是重要的核心词汇,它们在语义网络中处于中心位置,不仅连接整个网络,也反映了用户评价中关注的重要方面。
3.3. LDA-LSTM主题模型
民宿与传统酒店不同,能够展现当地风土人情和良好的主客互动。民宿评论涉及多个主题,并且不同住户对主题的关注和情感倾向也不同。为了解大多数人关注的主题情感倾向,可以使用LDA-LSTM模型[15]对民宿评论进行分析。选用LDA主题分析模型对民宿评论进行主题挖掘,再结合LSTM神经网络模型,对挖掘出来的主题进行情感分析,最终得出每个主题的情感倾向。
3.3.1. 基于LDA的评论主题挖掘
LDA主题模型[16]能够快速高效地挖掘文本主题,但通常更注重高频词和主题之间的联系,而忽视与主题相关但词频较低的关键词。为解决这一问题,本文在LDA主题提取基础上进行了二次提取[17]。采用了融合主题词嵌入和网络结构分析的方法。首先使用LDA模型初步提取主题关键词,然后通过Word2Vec训练词向量,再通过向量相似度传递建立关键词网络,并通过网络结构分析实现对主题词的二次抽取。
本文使用Gensim工具建立LDA主题模型,将经过数据预处理的民宿评论文本导入模型中,进行主题分析。经过多次测试,发现当主题数为6,每个主题下的主题词个数为10时,效果最佳。表4展示了通过LDA主题分析得到的主题及其特性词。
Table 4. LDA theme analysis results
表4. LDA主题分析结果
主题1 |
主题2 |
主题3 |
主题4 |
主题5 |
主题6 |
老板 |
环境 |
酒店 |
孩子 |
民宿 |
房间 |
热情 |
服务 |
服务 |
院子 |
房间 |
房东 |
房间 |
房间 |
早餐 |
老板 |
体验 |
房子 |
老板娘 |
设施 |
环境 |
房间 |
设施 |
感觉 |
景区 |
交通 |
餐厅 |
草原 |
小院 |
空调 |
环境 |
服务态度 |
前台 |
民宿 |
马桶 |
整体 |
饭菜 |
热情 |
房间 |
味道 |
风格 |
态度 |
客栈 |
性价比 |
地方 |
店家 |
感觉 |
隔音 |
朋友 |
价格 |
服务员 |
烤羊 |
设计 |
风格 |
免费 |
环境优美 |
热情 |
早餐 |
卫生间 |
小区 |
观察表4可发现,LDA主题模型挖掘出的主题词多数来自高频词表,因此,对主题词进行二次筛选。首先,将LDA提取的主题关键词导入Word2Vec词向量模型中,利用余弦相似度计算词与词之间的相似度,设定阈值过滤权重较低的词,然后利用TextRank算法进行迭代,输出TR值最高的10个词作为主题下的关键词。TextRank算法基于PageRank,用于文本排名,TR值代表TextRank算法计算的关键词权重。经过融合主题词嵌入和网络结构分析得到的主题及其特性词如表5所示。
Table 5. Improved theme analysis results
表5. 改进后的主题分析结果
主题1 |
主题2 |
主题3 |
主题4 |
主题5 |
主题6 |
老板 |
特色 |
条件 |
景色 |
细节 |
投影 |
客栈 |
性价比 |
工作人员 |
蒙古包 |
小院 |
屋子 |
饭店 |
环境优美 |
服务员 |
风景 |
用心 |
隔音 |
热心 |
服务态度 |
菜品 |
篝火 |
房间 |
被子 |
地方 |
住宿 |
水果 |
店家 |
设计 |
洗衣机 |
景点 |
感觉 |
前台 |
感觉 |
氛围 |
阳台 |
优惠 |
态度 |
客房 |
味道 |
感觉 |
冰箱 |
续表
旅游 |
五星 |
感觉 |
地方 |
布置 |
房子 |
味道 |
整体 |
餐厅 |
烤羊 |
卫生间 |
电视 |
早餐 |
环境 |
早餐 |
特色 |
热水 |
异味 |
根据表5中的特征词分析,民宿评论文本可以分为以下六个主题:民宿周围设施、民宿居住体验、服务态度、民宿的特色、民宿的环境和民宿房间内的条件。
主题1涉及民宿周围设施,评论中提到了“饭店”、“景点”等词语,说明民宿地理位置便利,靠近景区和餐饮设施。
主题2关注民宿的居住体验,出现了“性价比”、“环境优美”等词语,反映住户对民宿居住体验的满意程度较高,给予五星评价。
主题3关注民宿内工作人员的服务态度,出现了诸如“服务员”、“前台”等词,凸显了住户对服务态度的关注和重视。
主题4涉及民宿的特色,如“蒙古包”、“篝火”等词突显了民宿所具有的地方特色和文化元素,区别于传统酒店。
主题5讨论民宿的环境,如“小院”、“设计”等词强调了环境的舒适和温馨,使住户感受到家的氛围。
主题6关注民宿房间内的条件,涉及“被子”、“洗衣机”等词,强调了对房间设施的需求和期待,同时“异味”一词提及了住户对卫生的关注,对民宿内部卫生要求高。
3.3.2. 基于LDA的主题关注度时间序列变化
对六类主题进行主题关注度的计算,将计算好的主题关注度按照时间顺序进行排列,得到六个主题从2020年到2023年随时间的演化趋势图,如图7所示。
(a) 主题1随时间的演化趋势图 (b) 主题2随时间的演化趋势图
(c) 主题3随时间的演化趋势图 (d) 主题4随时间的演化趋势图
(e) 主题5随时间的演化趋势图 (f) 主题6随时间的演化趋势图
Figure 7. Time evolution trend maps of attention to homestay review topics
图7. 民宿评论主题关注度时间演化趋势图
在2020年到2023年期间,民宿评论主题关注度主要集中在主题6,即民宿房间内条件和卫生问题,明显高于其他主题的关注度,且呈上升趋势。其次是主题1,主要涉及民宿周围设施是否便利,如餐饮和交通,虽略有下降但仍较高。主题2和主题3是关于民宿的居住体验以及民宿内工作人员的服务态度的主题,在2020年到2023年期间,对其关注度呈现整体上升趋势,说明人们对住宿的要求不再局限于外在房间条件的要求,更在乎居住体验和服务态度方面是否让自己达到了内在欢愉。主题4和主题5在2020年到2023年期间呈现出略下降的趋势,虽然有下降的趋势,但是关注度占比也很高。
3.3.3. 基于LDA-LSTM的民宿住户情感满意度
LSTM [18]是一种针对序列数据和时序数据的循环神经网络,通过门控机制实现长时记忆。它包括输入门、遗忘门、输出门和记忆单元,能够捕捉句子中的有用信息。在情感二分类任务中,LSTM模型由嵌入层、LSTM层和全连接层组成,将单词映射为嵌入矢量,处理评论文本数据。
由于民宿评论文本数据中的每个样本都是一句话,无法作为LSTM模型的输入文本,于是构建词汇表并将句子转换为数字序列,不足部分用0填充以统一维度。接着,使用分类交叉熵损失函数和Adam优化器训练模型对文本评论数据进行情感二分类处理,将数据集分为8:2的训练集和测试集。该模型在训练集上达到95.4%的准确率,损失值为18.6%。
经过LSTM模型对民宿住户的评论进行情感分类分析,可以得到每条评论的情感分类结果,将得到的结果按照每个主题进行汇总,按照如公式(5)所示的主题满意度计算公式,可以得出每个主题的主题满意度随时间的变化图,如图8所示。
(5)
利用式(5)对经过LSTM模型进行情感分类后的民宿评论进行主题满意度计算,将计算好的主题满意度按照时间顺序进行排列,得到六个主题从2020年到2023年随时间的演化趋势图,如图8所示。
由图8可以看出,主题1、主题2和主题6在2020年到2023年期间基本处于稳定的趋势,即民宿评论中住户对于民宿周围设施、民宿的居住体验以及民宿内的房间条件的满意度在2020年到2023年基本稳定并且分别达到了96.3%~97.0%、98.5%~100.0%和96.7%~98.5%的高值。
主题3和主题4都是在2020年到2022年处于下降的趋势,2022年到2023年才开始处于上升的趋势。说明2020年到2022年期间,民宿的住户对服务态度和民宿的特色的满意度有所下降,可能是由于疫情的原因导致民宿产业受到了影响,但是2022年到2023年对其满意度又呈现出了上升的状态。
(a) 主题1随时间的演化趋势图 (b) 主题2随时间的演化趋势图
(c) 主题3随时间的演化趋势图 (d) 主题4随时间的演化趋势图
(e) 主题5随时间的演化趋势图 (f) 主题6随时间的演化趋势图
Figure 8. Time evolution trend maps of satisfaction with homestay review topics
图8. 民宿评论主题满意度时间演化趋势图
主题5在2020年到2023年期间处于先下降再上升然后又下降的趋势,即对于民宿的环境设计和布置方面,民宿住户的评论起伏变化较大,民宿经营者应当引起重视。
4. 结论
本文分别从地理空间和情感满意度两个角度对河北省民宿进行了研究,并得出相应结论。
从地理空间角度,本文通过POI搜索工具收集了河北省11个市的民宿和景区的经纬度坐标,共收集到1428条民宿POI数据和277条3A及以上景区的POI数据。利用ArcGIS软件进行了最邻近分析、核密度分析和缓冲区分析,结果显示,河北省的民宿分布呈现显著的聚集模式,特别是在景区附近。
从情感满意度角度,本文利用八爪鱼采集器对POI搜索工具收集到的河北省11个市的民宿在携程网上的民宿评论进行爬取,得到有效评论12,138条,利用LDA-LSTM模型对其进行情感满意度分析,发现影响住户满意度的因素为民宿周围设施、民宿居住体验、民宿内工作人员的服务态度、民宿特色、民宿环境设计和布置以及民宿房间内的设施条件等六个方面,并进行主题满意度计算,结果表明:住户对于民宿周围设施、民宿居住体验以及民宿房间内的设施条件满意度基本稳定且满意度很高,对于民宿内工作人员的服务态度以及民宿特色方面满意度有所下降,对于民宿环境设计和布置方面满意度起伏变化较大,因此,民宿经营者应重点改进服务态度和特色,提高住户满意度。
基金项目
邯郸市科学技术研究与发展计划项目(21422304303)。
NOTES
*通讯作者。