基于机器学习和百度搜索指数的客流量预测
Passenger Traffic Forecast Based on Machine Learning and Baidu Search Index
摘要: 随着互联网的迅速发展和旅游业的兴起,以百度搜索指数为基础的客流量预测可以帮助景区通过某些关键词的搜索量来判断游客的需求与关注度,及时做出改进与对策,从而高效而准确地服务游客。文章以预测九寨沟的日游客量为目标,通过初选、拓展,最后利用皮尔逊相关系数及时差相关法筛选出与九寨沟客流量紧密相关的关键词。接着将这些数据进行对数变换,利用随机森林、支持向量机回归、BP神经网络三种机器学习方法分别来预测九寨沟客流量。以决定系数R2和均方误差ME为评价指标并对比三个模型的结果值,择出最优预测模型。结果表明:BP神经网络的ME为0.019986,R2为0.83669,相较于另外两种预测模型而言,对九寨沟客流量的预测效果最好,可以帮助景区做好资源规划和应急准备。
Abstract: With the rapid development of the Internet and the rise of tourism, the passenger flow prediction based on Baidu search index index can help scenic spots to judge the needs and attention of tourists through the search volume of some keywords, and make timely improvements and countermeasures, so as to serve tourists efficiently and accurately. The article aims to predict the daily number of tourists in Jiuzhaigou, and through the primary selection and expansion, it finally selects the key words closely related to the passenger flow of Jiuzhaigou by means of Pearson’s correlation coefficient. Then the data were log-transformed, and three machine learning methods of random forest, support vector machine regression and BP neural network were used to predict the passenger flow in Jiuzhaigou respectively. Using the determination coefficient R2 and the mean squared error ME as the evaluation indexes and comparing the result values of the three models to select the optimal prediction models. The results show that the ME of BP neural network is 0.019986 and R2 is 0.83669. Compared with the other two prediction models, the prediction effect of Jiuzhaigou passenger flow is the best, which can help the scenic spot to make resource planning and emergency preparedness.
文章引用:李晓楠, 史尚涵, 施雪姣. 基于机器学习和百度搜索指数的客流量预测[J]. 运筹与模糊学, 2024, 14(6): 963-973. https://doi.org/10.12677/orf.2024.146593

1. 引言

随着我国经济的持续发展,居民对旅游的需求随之持续上升。旅游高峰期,游客爆满可能会使游客旅游体验感变差甚至导致严重的拥挤踩踏等安全事故。更加精确、及时地预测客流量可以帮助旅游景区做好资源规划与调配,避免资源闲置或短缺,提高游客体验感,保障服务质量。同时,管理者可以提前做好交通疏导和应急准备,保障游客的人身安全。

游客通过网络搜索旅游景区的相关信息来制作旅游计划,而与之对应产生的网络搜索数据逐渐形成了一个庞大的数据库,其中百度指数通过某一关键词的搜素指数直观、准确地反映出某个确定的时间段内对其感兴趣的用户人数。殷杰等[1]证实网络关注度和旅游人数存在长期均衡关系和Granger因果关系刘悦等[2]验证了网络关注度数据用于冰雪景区实时客流量预测的可行性。Tihomir S [3]建立了相似相关模型、多元回归的最小二乘法模型来预测Croatia的游客量。胡勇等[4]通过建立旅游定量、时间序列、多元回归及BP神经网络模型对陆地赴港的游客量进行分析,结果表明:BP神经网络模型的预测效果更为准确。

为了提高预测的精度和有效性,对关键词进行筛选、拓展后利用能够自动化学习和预测精度更高的三种机器学习方法来对九寨沟客流量进行预测,比较三种模型选择出最优预测模型,时间粒度选为每日,增强预测的时效性和可行性。

2. 关键词筛选

本文利用八爪鱼软件爬取的九寨沟官网所发布的游客量数据,为后续模型的实现,本文截取一段连续不间断的时间段的数据,具体时间为2023年2月15日至2024年4月16日。

2.1. 关键词的初选

因为检索用户的特殊性,各个用户针对一个事件的关注点不同,使得检索内容也是多样化的,所以内容也必须涵盖和目标内容相关的各个方面。结合Li [5]等和Yang [6]等的研究,根据游客在九寨沟旅游规划时考虑的相关因素,本文选择了十个关键词:“九寨沟攻略”、“九寨沟旅游”、“九寨沟黄龙机场”、“九寨沟地图”、“九寨沟住宿”、“九寨沟酒店”、“九寨沟天气”、“九寨沟天气预报”、“九寨沟景点”、“九寨沟五花海”。

2.2. 初选关键词的剖析与拓展

本文利用百度指数中的“需求图谱”功能对初选关键词进行拓展。在百度指数界面搜索初选关键词如“九寨沟攻略”进入需求图谱页面,选择出与之相关性较高的关键词,按照每月的统计结果,选择相关性较高的关键词作为拓展关键词。最后拓展出的三十三个关键词,见表1

Table 1. Expand the key words

1. 拓展关键词

九寨沟适合几月份去

九寨沟地址

叠溪海子

九寨沟酒店

九寨沟海拔

九寨沟

九寨沟门票多少钱

九寨沟诺日朗瀑布

黄龙景区

九寨沟地图

九寨沟天气

黄龙机场

九寨沟景区

九寨沟瀑布

珍珠滩瀑布

九寨沟旅游攻略

九寨沟镜海

五彩池

九寨沟旅游价格

九寨沟五花海

诺日朗瀑布

成都到九寨沟机票价格

九寨沟神仙池

四川九寨沟

九寨沟天堂洲际大饭店

九寨沟民宿价格

九寨沟天气预报

九寨沟最佳旅游时间

九寨沟火花海

黄龙天气预报

九寨沟天堂酒店

黄龙天气

2.3. 最终关键词的筛选

本文利用python编写爬虫程序从百度搜索引擎获取2022年2月15日至2024年4月16日间各个关键词的搜索指数,通过计算其皮尔逊相关系数以及结合时差相关法选取能预测客流量的指标。

2.3.1. 皮尔逊相关系数

皮尔逊相关系数用于度量两个变量x和y之间的线性关系,其值介于−1与1之间。结合其他文献相关内容及拓展关键词筛选出八个关键词,见表2

Table 2. Pearson correlation coefficient screening keywords

2. 皮尔逊相关系数筛选关键词

关键词

相关系数

关键词

相关系数

五彩池

0.421

九寨沟地图

0.869

九寨沟门票

0.767

九寨沟天气

0.547

黄龙天气预报

0.732

九寨沟天气预报

0.751

九寨沟住宿

0.140

九寨沟旅游攻略

0.079

表2可以看出,除了“九寨沟住宿”、“九寨沟旅游攻略”,其余关键词的相关系数都大于0.4,呈较强相关性。

2.3.2. 时差相关法

该方法用于计算两个指标的时序关系,在本文中,研究剩余6个关键词搜索指数与九寨沟客流量之间的时间是同步、相对领先还是相对滞后的问题。公式原理如下:

r l = t=1 n ( x tl x ¯ )( y t y ¯ ) t=1 n ( x tl x ¯ ) 2 ( y t y ¯ ) 2 (1)

xy分别是两个时间序列,y为基准指标,l为超前或滞后期,被称为时差或延迟数(l = 0时表示同步,l < 0表示超前,l > 0表示滞后),取不同的l值,分别代表不同的时差,并计算时差相关系数rl,取绝对值最大的rl作为时差相关系数。其计算结果如表3

Table 3. Key period and rl of tourist

3. 关键词对游客量的提前期数与rl

指标名称

同步

提前1期

提前2期

提前3期

提前4期

提前5期

提前期

rl

五彩池

0.4213

0.4223

0.4187

0.4048

0.4006

0.3993

1

0.4223

九寨沟门票

0.7674

0.7836

0.7917

0.7759

0.7651

0.7509

2

0.7917

黄龙天气预报

0.7323

0.7361

0.7437

0.7363

0.7122

0.6947

2

0.7437

九寨沟地图

0.8691

0.8410

0.7945

0.7495

0.7495

0.7051

0

0.8691

九寨沟天气预报

0.7511

0.7818

0.8106

0.8168

0.8060

0.7937

3

0.8168

九寨沟天气

0.5467

0.5764

0.5944

0.6027

0.5989

0.5939

3

0.6027

根据计算结果,发现各关键词的提前期数都在三期以内。

综上,最终确定的关键词为“五彩池”、“九寨沟门票”、“黄龙天气预报”、“九寨沟地图”、“九寨沟天气预报”、“九寨沟天气”。为方便后续模型实现,根据指标名称的提前期,将指标名称的百度搜索指数与客流量进行错位统一。例如,“五彩池”的提前期为一期,因此,2024年1月1日“五彩池”的百度搜索指数对应2024年1月2日九寨沟的客流量。

3. 人工智能学习与模型预测

3.1. 数据检验与客流量预测

本文使用SPSS对各个关键词进行正态性检验,计算各个关键词的显著性,发现本文中各个指标的夏皮洛–威尔克检验的显著性均小于0.005,呈非正态分布,则需要进行数据变换。以“五彩池”为例,其百度搜索指数的显著性检验,如图1

本文对“五彩池”百度搜索指数作对数变换,“五彩池”百度搜索指数作对数变换前后的Q-Q图,如图2图3

图3可知,对数变换后,五彩池的百度搜索指数近似遵循正态分布。因此,本文对于其他5个关键词分别进行对数变换并得出数据结果,该结果将用于后续模型训练。

在进行机器学习之前,对九寨沟2023年2月至2024年4月客流量进行描述性分析,绘制折线图,粗略预测九寨沟客流量趋势,如图4

Figure 1. The Shapiro-Wilke test of the “multicolored pool”

1. “五彩池”的夏皮洛–威尔克检验

Figure 2. Baidu index distribution of multicolored pool before log transformation

2. 对数变换前五彩池百度指数分布

图4可知,九寨沟客流量具有季节性。2月起游客量上升,8月达峰值,表明游客多在春夏季出游。8月后客流量下降,12月达最小,显示冬季游客少。因此,九寨沟景区应做好宣传计划和推出优惠政策吸引游客。

Figure 3. The index distribution of multicolor pool Baidu after log transformation

3. 对数变换后五彩池百度指数分布

Figure 4. Trend of passenger flow in Jiuzhaigou

4. 九寨沟客流量趋势

3.2. 预测模型的实现及优化

被解释变量为2023年2月15日至2024年2月15日九寨沟的每日游客量本量共421。将样本打乱,按8:2比例划分为训练集337条和测试集84条。

3.2.1. 随机森林预测的实现

对于随机森林模型,需调节树的数量和节点数这两个重要参数,以选最优参数优化模型,更准确预测客流量。

(1) 树的数量选择

在节点数为5时,用Matlab计算0到1000范围上决策树的数目,观察误差情况以确定使误差最小的参数,如图5

图5可知,树的棵数超200时,模型误差随树的数量增长波动不明显并趋于稳定,树为760时误差最小,之后缓慢增长,故确定树的棵数为760。

Figure 5. Number of selection of trees

5. 树的数量选择

(2) 树的节点数

Figure 6. adjusts the number of nodes of the tree

6. 树的节点数调参

在树的数量为760时,利用matlab对1至10个节点分别计算训练集与测试集的平均绝对误差,得到每个节点对应的MSE结果如图6所示。

根据图6,在节点数为4时,训练集和测试集的MSE都表现得很小,故确定节点数为4。

(3) 客流量预测

将确定的树的数量和节点数代入模型进行预测,为直观展示效果,作出模型预测值与真实情况的比较图,如图7

Figure 7. Random forest prediction implementation

7. 随机森林预测实现

随机森林模型预测的R2为0.68285,ME为0.04979。由图7可见,模型对客流量预测表现较好,虽峰值不重合,但预测值曲线走势与实际值接近,整体曲线偏离程度小。

3.2.2. 支持向量机回归预测的实现

Figure 8. SVM regression prediction implementation

8. 支持向量机回归预测实现

支持向量机的重要参数有核函数、惩罚因子与核参数,为了更加准确地预测客流量需要调到最优参数。本文SVR模型默认使用rbf核,再利用粒子群算法确定惩罚因子C和核参数 Γ 的最佳参数。

经计算得,最优参数C = 0.77及 Γ = 0.28,代入数据预测得比较图图8。支持向量机回归计算的R2为0.77808,ME为0.01190。从图8中也可以看出预测值曲线与真实值曲线重合度较高,说明支持向量机回归模型对数据的预测较稳定。

3.2.3. BP神经网络预测的实现

BP神经网络中隐藏节点数和最优迭代次数这两个参数重要,其设置影响模型结果,本文对其调参,将误差最小的参数代入模型预测九寨沟游客量。

(1) 隐藏节点数

通过查阅文献,隐藏节点数通常由公式n + m + a确定,其中n为输入层节点数,m为输出层节点数,a为范围在[1, 10]的常数,本文隐藏节点数范围为[3, 13],在Matlab中调参,得到各隐藏节点数对应的MSE值,如图9

Figure 9. Selection of the number of hidden nodes

9. 隐藏节点数的选择

图9可以得出,当隐藏节点数在9的时候,MSE最小,故确定隐藏节点数为9。

(2) 最优迭代次数

Figure 10. training cycle

10. 训练周期

迭代次数的范围任取,则本文考虑训练周期为1到1000,来观察MSE随迭代次数增加的变化情况,如图10

图10可知,当迭代次数大于10时训练集的平均绝对误差趋于平稳,当迭代次数为500的时候测试集的MSE达到最小,所以确定最优迭代次数为500。

(3) 客流量预测

将上述确定的最优参数代入最终模型进行预测,得到预测值与真实值的对比情况如图11

得出ME为0.019986,R2为0.83669。由图11可知,相比随机森林和支持向量机回归,BP神经网络模型预测的客流量与真实值相近,预测值曲线与真实值曲线几乎重合。

Figure 11. The BP neural network prediction implementation

11. BP神经网络预测实现

3.3. 模型预测结果分析

本文三种预测模型均计算出ME值,见表4

Table 4. ME reduced property

4. ME对比值

随机森林回归

支持向量机回归

BP神经网络回归

ME

0.049785

0.01190

0.019986

排名

3

1

2

ME值越接近0时,预测值与真实值误差越小。由表4可见,支持向量机回归和BP神经网络回归的ME值都很接近0,二者预测表现与随机森林回归相比较为突出,所以接下来要比较三个模型的R2,见表5

Table 5. R2 for the ratio

5. R2对比值

随机森林回归

支持向量机回归

BP神经网络回归

R2

0.50297

0.73763

0.83669

排名

3

2

1

R2值越接近1时,表示模型拟合数据越完美,即预测值和真实值越接近。由表5可见,BP神经网络回归的决定系数与其他两个模型相比最高,所以BP神经网络回归对于客流量的预测效果最好。综合精准度和拟合效果可知,BP神经网络回归的整体效果最好,可以作为最终的九寨沟客流量预测模型。

4. 结论与建议

本文基于人工智能的机器学习和百度搜索指数预测九寨沟客流量,先确定10个初始关键词并通过数据挖掘拓展至33个,通过数据检验最终确定了6个最终关键词并验证了其对客流量的预测作用,利用随机森林、支持向量机回归、BP神经网络三种机器学习方法分别来预测九寨沟每日客流量。对比三种预测模型,BP神经网络预测效果最佳,决定系数接近1,拟合好,ME也比较接近0,误差较小。由于统计局统计数据的发布存在滞后期,不能及时对客流量进行预测,并且相较于目前大多数客流量预测的研究以月为研究维度,本文选取以日为时间粒度,利用BP神经网络及时预测近日的客流量。景区通过预测客流量,做好分流工作,避免人满为患或者资源浪费。同时,还可以监测游客对景区的实时关注度,帮助景区制定合理的宣传策略,具有很强的现实意义,可以进一步推广研究。

参考文献

[1] 殷杰, 郑向敏, 董斌彬. 基于VECM模型的景区网络关注度与旅游人数的关系研究——以鼓浪屿为例[J]. 福建农林大学学报(哲学社会科学版), 2015, 18(5): 68-75.
[2] 刘悦, 吕兴洋, 周晓丽. 冰雪旅游景区网络关注度和实际客流量之间的关系研究——以成都西岭雪山景区为例[J]. 山西师范大学学报(自然科学版), 2021, 35(4): 96-102.
[3] Tihomir, S. (2002) A Comparison of Two Econometric Models (OLS and SUR) for Forecasting Croatian Tourism Arrivals. Working Papers 8, Croatian National Bank, Zagreb.
[4] 胡勇, 黄磊. 中国大陆赴香港旅游预测模型[J]. 国际经贸探索, 2008(5): 41-44.
[5] Li, X., Pan, B., Huang, X.K. (2017) Forecasting Tourism Demand with Composite Search Index. Tourism Management, 59, 57-66.
https://doi.org/10.1016/j.tourman.2016.07.005
[6] Yang, X., Pan, B., Lv, B.F. (2015) Forecasting Chinese Tourist Volume with Search Engine Data. Tourism Management, 46, 386-397.
https://doi.org/10.1016/j.tourman.2014.07.019