1. 引言
随着互联网时代的不断发展,各类网络平台应运而生,从而产生的大量用户生成内容(UGC)为各行业的消费者行为分析与预测提供了更加精准的依据。在大数据背景下,应用计算机与人工智能技术对旅游网站与平台中的用户生成内容进行分析,能够更充分地理解游客对于旅游目的地的选择动机与形象感知,从而提升旅游目的地的吸引力,并建立良好的旅游口碑。
大连是一座位于我国东北地区的海滨城市,拥有丰富的自然资源和独特的海洋风光。大连的海岸线被誉为中国最美丽的海岸线之一,拥有优美的沙滩、清澈的海水和壮观的海景。金石滩、棒棰岛和星海湾等滨海景区,吸引着无数游客前来度假和观光。除了海滨风光,大连新兴的景点也丰富了城市旅游的新内涵,如大连威尼斯水城等,值得国内外游客关注。
本文运用LDA模型,从OTA平台抓取用户评论,从认知和情感两方面分析大连市的最新旅游感知形象,对于大连市旅游产业后续的新媒体宣传和推广具有提升作用,也为其他城市的旅游推广提供借鉴与参考。
2. 旅游目的地形象感知研究综述
旅游目的地形象理论自提出以来,一直是国内外研究的热点,内涵也不断丰富。在早期研究中,对于旅游目的地的感知集中于旅游者的认知与评价,随着研究的扩展与深入,旅游者的情感研究逐渐得到了重视,目前获得较多认可的旅游目的地的形象感知模型基于心理学中的“认知–情感”理论 [1] ,指游客对于旅游目的地的认知与情感不断协调,最终共同构成了对于该旅游目的地的整体形象感知 [2] 。
认知形象主要指游客在旅游时体验到的对于旅行目的地各方面属性的感知,而在此基础上,游客所产生的心理反馈则称为情感形象 [3] ,正面的情感形象有助于提升游客对于旅游目的地的整体满意度,加强再次旅行的意愿,反之,负面的情感形象则对于旅游目的地的品牌与口碑产生负面影响 [4] 。
随着互联网的发展和在线旅游平台的兴起,对于旅游目的地形象感知模型的研究数据由传统的问卷收集逐渐转换为大数据采集,从而提升了数据的真实性、全面性和科学性 [5] 。一方面,互联网旅行游记或评论从游客视角出发,为旅游目的地形象的评价提供了真实的反馈,有助于了解旅游业中的热点与现存问题 [6] ;另一方面,潜在游客在旅行前进行目的地选择时,通过浏览互联网旅行游记或评论,可以建立对于目的地的旅游认知,产生情感倾向,从而综合各种因素建立对于目的地的整体形象感知,并做出旅行决定 [7] 。已有较多研究通过网络文本挖掘获取旅游数据,对于各个旅游目的地的形象进行深入研究,并扩展了相关理论,如李凤娇等对比了京津冀和长三角城市群的旅游形象感知 [8] ;张鹏杨和郑婷以昆明市为例,分析了旅游地官方投射形象与游客感知形象 [9] ;江进林和陈梦分析了入境游客对于单个景点(颐和园)的形象感知 [10] 。
与此同时,对于旅游目的地形象感知的研究方法和工具也在不断更迭。大数据与人工智能的发展为研究提供了新兴的技术手段,能够处理的数据数量得到了极大的扩充,从而扩展了研究的视野。自然语言处理(NLP)在目前人工智能领域中得到了广泛的应用,而Python中的NLP工具为分析海量文本数据提供了更便捷高效的手段,在旅游目的地的选择与传播研究中得到了越来越广泛的应用。随着网红旅游城市的兴起,游客日新月异的旅游需求和评价表现为大量互联网文本的涌现,有待于进一步深入探究 [11] 。
3. 研究设计与数据来源
3.1. 研究方法
本研究主要采用文本分析法,理由如下:第一,互联网的兴起对旅游业的发展产生了深远的影响,旅游平台上生成的大量UGC已成为重要的数据资源;第二,旅游类UGC往往包含游客的真实体验和感受,对旅游类UGC进行文本分析有助于了解游客对于旅行目的地的感知和行为偏好,从而为旅游行业的产品设计、营销策略和服务提升提供有力支持 [12] 。
文本分析指从文本中抽取特征词并进行量化,根据研究需求构建相应模型,分析步骤一般包括数据采集与存储、分词、剔除停止词、构建词频矩阵和模型构建。本文的研究思路是先从知名度高、UGC丰富的旅游平台上收集研究数据,然后根据旅游目的地形象感知理论,基于网络文本数据分析游客对于大连市旅游形象的总体认知和情感倾向,并根据分析结果为大连市旅游业的进一步发展与提升建言献策。在研究游客认知时,研究模型主要为LDA主题挖掘,而在研究游客情感倾向时,研究模型为SnowNLP模型。
LDA (Latent Dirichlet Allocation)是一种常用的文本分析主题模型,用于从文本数据中挖掘潜在的主题结构。LDA主题挖掘可以帮助研究者发现文本数据中隐藏的主题信息,对于分析大量文本数据和理解文本内容具有重要意义 [13] 。作为无监督学习算法,LDA主题挖掘在旅游研究中得到了较为广泛的应用,涉及到的研究内容主要包含旅游形象感知、旅游动机和酒店服务关键维度 [14] 。
SnowNLP来源于自然语言处理(NLP),由于目前多数NLP的数据处理库均针对英文文本设计,在进行中文文本分析时难免不够准确和方便,因此针对于中文文本处理的SnowNLP应运而生。SnowNLP基于贝叶斯模型,提取文本中的情感特征并根据语句关联关系判断其情感倾向,从而能够将文本的情感进行正负向区分 [15] 。SnowNLP模型在旅游相关研究中逐步被采用,研究内容集中于景区情感分析、酒店客户服务等。
在具备便捷、迅速的优点同时,由于本身的训练语料库基于电子商务评论文本,因此未进行研究主题预训练的SnowNLP模型在情感区分时不够精准,文本判断容易失误。在本研究中,SnowNLP模型将进行旅游文本预训练,确保情感分析的结果能够准确描述游客对于大连市旅游的情感感知。
3.2. 研究步骤
步骤一:识别大连市旅游相关的热门用户生成内容,对其进行数据挖掘,建立信息数据库,为数据分析做准备。然后运用Python进行数据预处理,经过同义词替换、去除停用词和分词后,统计词频并绘制词云。
步骤二:根据旅游目的地形象感知理论,运用LDA模型,将信息数据库内的数据进行聚类与分析,提取LDA主题。不同主题的热度和内容反映用户对于旅游目的地的认知。
步骤三:根据旅游目的地形象感知理论,运用SnowNLP模型进行情感分析,量化用户对于旅游目的地的情感倾向。
步骤四:综合用户对于旅游目的地的认知与情感倾向,建立用户对于旅游目的地的综合形象感知,并在深入分析的基础上提出大连市的旅游形象提升策略。
3.3. 数据来源
在前期调研中发现,大多数旅行者选择携程、马蜂窝等网站浏览目的地信息,参考景点评分与评论,因此选取携程与马蜂窝收集旅游目的地的热门景点评论。本研究在以上网站搜索“大连市”,根据网站显示的热度选取前10个热门景点(老虎滩、大连森林动物园、圣亚海洋世界、发现王国主题乐园、金石滩旅游度假中心、棒棰岛风景区、星海广场、滨海路和大连东港景区),对每个热门景点近两年的评论进行数据挖掘,然后对抓取的15,221条数据进行筛选,剔除重复、不相关和无意义的文本后,共获得10,041条有效数据,将其整理后建立信息数据库。
4. 研究过程与结果
4.1. 词频分析
词频分析是文本分析的重要步骤,高频词能够体现文本的关键信息。本文运用Python中的Jieba分词模块,将数据库内的评论进行分词处理,去除副词、无意义词语、合并同类词后,得到的词频统计如下表1所示,并以此绘制词云图。由图1、表1可见,排名前二十的词频主要集中于各类景点和游玩体验,其中“孩子”一词居于榜首,说明亲子旅游是游客前往大连旅游的重要旅行类型,在后续的旅游管理中需要格外关注,从而让此类游客获得更优质的旅行体验,进一步提升旅游口碑。

Table 1. High-frequency words statistics
表1. 高频词统计

Figure 1. Hot word cloud distribution of Dalian tourism
图1. 大连市旅游热词词云分布
4.2. LDA主题挖掘与可视化分析
运用Python进行LDA主题挖掘,通过pyLDAvis对数据库内的语料进行可视化,以确定LDA主题的最优数量,即最优k值。如图2所示,圆圈代表LDA聚类得出的主题,圆圈的面积表示主题的重要性,圆圈之间的距离则体现了各个主题之间的差异性。在进行多次不同k值的模拟可视化之后,当k值为4时,困惑值相对较小,且各主题之间重叠程度最低,各主题之间的差异性较大,能够有效地概括总体。因此,在LDA主题模型的各项分析后,将大连市的旅游形象认知分为四种主题类型较为合理。

Figure 2. Visualisation results based on LDA model
图2. LDA主题模型可视化结果
总体而言,在各类主题中,“海洋公园”和“亲子”类词汇出现的次数都较多,成为游客来大连旅游的主要诉求。大连作为美丽的海滨城市,海洋相关景点在游客的认知中具有极大的吸引力,成为大连市旅游的标签。而海滨景点凭借怡人的风景与舒适的度假体验,也成为家庭出行的首选。
第一类主题主要与家庭出游相关,在主题内排名前二十的词汇主要有“孩子”、“动物”、“环境”、“风景”、“服务”、“老人”、“度假区”等。该主题的出行类别主要为家庭旅游,游客涉及老人与小孩,因此对于景区的整体服务比较重视。此类游客的旅行动机主要为度假,为了获得较为轻松舒适的旅行体验,更关注景区美丽的风景、便利的旅游设施以及周到的服务体验。因此,将该主题概况为家庭度假类。
第二类主题比较关注各个景点的游玩项目与体验,涉及到众多具体景点元素的旅行信息。该主题排名前二十的词汇中,景点名字和游玩元素如“极地馆”、“鸟语林”、“珊瑚”、“海洋公园”、“剧场”、“海狮”和“企鹅”等词汇出现频率较多,说明该主题内的游客对于景点比较熟悉,体验比较丰富,在旅行时比较重视各景点的具体攻略和细节,在旅行后也乐于分享各类攻略信息。由于该主题的数据包含细节信息较多,体验较深入,因此概括为深度探索类。
第三类主题比较关注景点和游乐项目的趣味性与性价比。该主题排名前二十的词汇中,与价格相关的词汇,如“性价比”、“收费”、“价格”、“门票”、“免费”和“买票”等词汇词频较大,体现了游客对于价格相关因素的关注。在注重价格的同时,该主题的评论也集中于游玩的体验,“景色”、“项目”、“公园”、“主题公园”、“趣味”、“娱乐”等高频景点词汇体现出了游客对于景点趣味性的追求,且在景点选择方面,除了海滨景点,游客更关注主题公园等新奇与刺激的体验。除此之外,部分高频词汇则聚焦于具体的游玩体验,例如,“排队”体现出游客对于景点内耗费体力与时间的关注,“鱿鱼”则体现出游客对于景点内美食的关注。因此,将该主题概况为游乐体验类。
第四类主题集中于更具浪漫与时尚体验的观光旅行。大连曾被誉为“浪漫之都”,美丽的山景与海景为城市观光增添了浪漫的气息,成为游客选择旅游目的地的重要因素。该主题内排名前二十的词汇中,“水城”、“喷泉”、“跨海大桥”、“音乐”和“观光车”等词汇与大连市内新兴景点联系紧密,其中位于东港的大连东方威尼斯水城于2016年正式竣工,各项配套游乐设施逐步建立,东港的音乐喷泉定期进行免费表演,在夜幕中将水、乐、光景融为一体,吸引了众多追求浪漫体验的游客,成为大连市极具人气的新兴旅游名片。由此,将该主题概括为浪漫观光类。
综上,将LDA主题类别及其高频词整理为下表2所示。

Table 2. Topic categories and feature words based on LDA model
表2. LDA模型主题类别与特征词
4.3. 情感分析
运用SnowNLP模型进行情感分析,为使结果能够准确分析旅游相关文本,先对原有的SnowNLP模型进行训练。本研究抓取了同类旅游网站的UGC,通过人工分类,将抓取的UGC文本分为积极文本与消极文本,每种文本类型各1000条。然后,将两类文本迭代入SnowNLP模型进行训练。训练完成后,从本研究的信息数据库内随机提取部分文本作为测试数据来检测模型训练后的准确程度,得到准确率为87.66%,可以运用训练后的SnowNLP模型进行情感分析。
通过SnowNLP模型得出各条文本数据的情感倾向分值。SnowNLP模型的情感倾向分值范围为0~1,数值越接近1,表明情感越偏于正向;反之,数值越接近0,则代表情感越偏于负向。大连市旅游评论的总体情感得分为0.70384,高于中性得分0.5,其中积极评论占比75.09%,消极评论占比24.91%,游客对于大连市旅游的情感倾向总体为正向。
将积极评论和消极评论分别进行词频统计,以分析不同情感类型的游客评论动机与心理,从而发掘大连市旅游的优势和不足。如下表3所示,从总体上看,无论是积极评论还是消极评价,由双方共有的高频词“孩子”可见,大连市出游类型主要为亲子类旅行,由于海滨风景秀丽,基础设施比较完善,家庭共同游玩在大连市旅游中占据了独特的地位。也正因人数众多,正向与负向的情感都容易被放大,对于大连市的旅游情感形象具有重要影响,需在后续的旅游业发展中给予重视。

Table 3. High frequency words statistics for positive and negative comments
表3. 积极评论与消极评论高频词统计
关于积极情感评论,从词频频率最高的前15个词来看,首先,高频词主要与景点和风景本身相关,例如“广场”、“景色”、“海洋公园”、和“动物园”等。大连市风光秀丽的滨海风情对于游客有着极大的吸引力,可观赏性较强,为游客留下了深刻的印象,而大连市独具一格的广场和公园建设则为自然风光添砖加瓦,得到了游客的好评。其次,游客对于景区和景点的趣味性和可玩性情感较为正向,高频词“游玩”、“感觉”和“趣味”等词体现出游客对于景区和景点较为主观的体验评价。各类海洋公园和大连市森林动物园游玩体验比较舒适,由于景区引入了众多新奇的旅游项目,游客感觉趣味性较强。例如,大连老虎滩海洋公园引进了大型沉浸式互动逃脱体验剧《老虎滩极地馆首富》,让观众亲身参与到众多新奇有趣的主线和支线中,在剧情体验中了解极地动物的生活环境,受到了游客的好评。
关于消极情感评论,从词频频率最高的前15个词来看,与积极情感评论相比,高频词依然比较集中于景点与景区,但对于景点与景区的具体项目与设施、旅游体验等方面提出了负面评价,具体问题与分析如下。第一,“排队”一词出现频率较高,且与高频词“时间”相联系,说明排队时游客消耗的精神成本和时间成本不尽如人意,冗长的队伍和高峰时期缺乏秩序的队形让游客产生了负向情感。第二,“门票”和“收费”等高频词体现出游客对于景区和景点游览性价比的负向质疑。游客的不满首先体现在“项目”和“体验”等关键词,认为景区的体验不足以支撑高昂的门票和园内的其他收费;其次,部分景点由于竣工时间较早,设施比较老旧,项目不够新颖,同时收费又较高,因此引起了部分游客的负面评价。
运用SnowNLP对于LDA主题模型生成的四类主题进行情感分析,得到各主题的情感倾向如表4所示。四类主题情感得分相差较小,均为0.7左右,其中主题四得分稍高(0.7373),主题二得分最低(0.6654),说明游客对于浪漫的观光旅游体验较好,但对于深度探索类项目评价较为一般。

Table 4. Emotional disposition of each LDA topic
表4. 各LDA主题情感倾向
5. 提升策略与建议
5.1. 提升游客的感知价值,打造旅游营销新热点
游客的感知价值是游客在旅行中所能感知到的利益与其所付出成本的权衡与评价,对于旅游目的地的总体评价至关重要。游客的感知价值受到多种因素的影响,包括旅行目的地的吸引力、旅行产品和服务的质量、旅行体验的个人需求和偏好等。在旅行中,游客感知到的利益包括美丽的风景、丰富的文化体验、新奇的风土人情等,付出的成本主要包括交通费用、门票费用、时间和体力成本等。当游客感知到的利益超过了付出的成本时,对于目的地抱有正向情感,并可能会推荐给他人,提升旅游目的地的口碑;反之,游客可能会感到失望,对旅行目的地或旅行产品产生负面评价,甚至通过互联网评论将负面体验传递给潜在游客。因此,大连市旅游需要进一步提升给予游客的旅游价值,同时降低游客在旅行中的隐形成本。
在提升价值方面,第一,大连市需进一步挖掘和开发其丰富的自然风光和人文景观,包括海滨风光、温泉资源、历史文化遗迹等,提供更多吸引游客的产品和活动。旅顺作为大连市旅游的组成部分,人文和自然景观都较为丰富,但旅游热度较低,OTA平台评论较少。旅顺炮台、日俄监狱等景点与博物馆具有重要的爱国主义教育意义,能够帮助游客牢记革命历史,弘扬革命精神,值得进一步推广,提升对于游客的吸引力。第二,通过各类旅游活动,如海滨音乐节、文化艺术展览等,吸引游客参与,增加旅游的吸引力和乐趣。第三,针对各类景区开发符合时代发展与游客需求的创新型旅游项目与产品,打造精品旅游路线。趣味体验是大连旅游的主要认知之一,趣味性的打造需要各景点不断推陈出新。目前大连市已有多个景点开始推广新奇旅游项目,向游客提供沉浸式演出等新形式,提高景点的传播热度。
在降低游客成本方面,隐形成本的降低能够有效地改善游客的旅行体验。从情感分析可见,游客的负面评价集中于景区设施、排队体验等,应着重改善。首先,对于开放较久的景点设施及时盘点,确保设施的安全性与吸引力;其次,通过加强工作人员引导、推出快速通道等方式提升游客排队效率,或设置游园活动让游客的排队时间不再枯燥,为游客提供更好的旅游体验。
5.2. 发展四季旅游,提升城市旅游品牌影响力
大连市地处东北地区的最南端,四季分明,游客在不同季节能够享受到不同的旅游体验。目前,大连市旅游主要集中于滨海风光,传统旅游旺季为夏季,旅游资源开发较为充分,其他季节受到的关注较少,旅游资源有待开发。因此,将大连市打造成四季皆宜的旅游目的地,深度细化四季旅游产品体系,对于促进旅游业的发展和经济增长具有重要意义。
除了夏季传统的海滨度假和消夏避暑,大连市春季和秋季气候宜人,适宜推广赏花、赏枫和采摘等休闲旅游产品;冬季则可开发冰雪旅游与温泉康养等旅游产品,吸引喜爱冬季运动的游客。大连拥有希拉穆仁、万达等多个滑雪场,适合各个级别的滑雪爱好者。为使冰雪旅游更具特色和吸引力,大连可通过举办各种冰雪节庆活动,如冰雪嘉年华、冰雪运动比赛、冰雪灯会等,为游客提供丰富多彩的冰雪旅游体验。通过充分利用冰雪资源,大连市可以打造冰雪旅游品牌,吸引更多游客前来体验冰雪乐趣,促进冰雪旅游业的发展。同时,也需要加强冰雪旅游基础设施建设和安全保障,确保游客能够在冰雪旅游中享受到安全、舒适的体验。
5.3. 建立数字化旅行推广体系
通过建立全方位的数字化推广体系,游客将获得更加便捷、高效、智能的旅游服务,从而推动旅游业的发展和转型升级。具体推广思路如下:
第一,通过各类社交媒体平台,积极宣传旅游资源和特色,提升旅游热度。各单位与景区可建立官方账号,打造个性鲜明的账号人设,增加与粉丝的互动,并在热点话题上借势营销,从而提升宣传热度,吸引潜在游客。第二,推广数字化旅游产品,包括虚拟旅游、AR/VR体验、在线导游、一站式规划等,将数字化融入景点,为游客提供个性化的旅游体验。例如,通过大数据估算高峰期游客排队时间,可以为其提供有效的出行建议和路线规划,减少排队造成的负面影响。第三,景区合作打造一体化电子平台,提供在线预订和购买服务,包括景点门票、酒店预订、旅游团购等,也可与OTA平台合作,打通景点之间的壁垒,创造更丰富的游客体验。同时,通过数据分析及时了解游客的热点需求和负面情感倾向,有助于进一步完善旅游服务。
基金项目
本文系大连市社科联重大(重点)课题大数据背景下大连市全季旅游热点研究(2022dlskzd364)成果。