1. 引言
随着我国对众多国家实施144小时过境免签政策,来中国旅游的国外游客数量持续增长。如何依据这些游客多样化的旅行需求,精心设计合理的旅行路线,成为了亟待关注的重要问题。本文以2024年第五届“华数杯”全国大学生数学建模竞赛C题为背景,借助Excel工具整合了相关数据,并通过预设潜在的旅行需求,深入探索了多种旅行规划方案。在此过程中,我们运用了线性加权模型、熵权法以及贪心算法等多种方法,对不同的旅行问题进行了深入探讨。
2. 数据预处理
2.1. 数据收集与整合
2.1.1. 数据来源
数据来源于2024年第五届“华数杯”全国大学生数学建模竞赛C题附件。
2.1.2. 数据格式
包括352个城市的CSV文件。
2.2. 数据清洗
我们利用EXCEL的VBA工具将352个城市的数据全部汇总到一个表格中。我们发现并不是所有城市都有100个景点,于是我们利用EXCEL的高级筛选功能对数据进行了处理,去掉了重复景点,以保证不重复计入数据避免造成更大误差。接着为了更直观地看到去掉重复数据之后各城市之间的差异,我们用堆积柱状图展示了每个城市所含不重复景点的数量,如下图1所示。其中x轴表示352个城市,y轴表示每个城市所含景点数量。
Figure 1. Stacked bar chart of the number of attractions contained
图1. 所含景点数量的堆积柱状图
2.3. 数据统计分析
为了制定吸引外国游客到各个城市旅游的方案,我们需要找到城市的潜在吸引力。于是我们根据评分列表筛选得到了整理后的拥有最高评分的景点。部分整理后的数据如下(表1):
Table 1. Some of the highest-rated attractions
表1. 部分最高评分景点
城市 |
名字 |
…… |
评分 |
…… |
七台河 |
勃利森林公园 |
…… |
5 |
…… |
七台河 |
亿达广场 |
…… |
5 |
…… |
万宁 |
神州半岛灯塔 |
…… |
5 |
…… |
万宁 |
青云塔 |
…… |
5 |
…… |
万宁 |
南燕湾高尔夫球会 |
…… |
5 |
…… |
万宁 |
日月湾海岛教堂 |
…… |
5 |
…… |
万宁 |
太阳河景观大桥 |
…… |
5 |
…… |
万宁 |
燕子洞景区 |
…… |
5 |
…… |
我们使用EXCEL的统计方法获得了2353个最高评分的景点以及这些景点分布的城市,接着我们根据每个城市所含最高评分景点的数量,对城市进行排序并筛选出了前10个城市(表2)。此分析可以为后续相关问题的研究提供可靠的理论依据。
由结果可知,通过研究各个景点的类型及分布,我们可以量化城市旅游资源的多样性。景点的评分则能够直观反映游客对这些资源的喜爱程度和吸引力。高评分的景点往往意味着更高的游客满意度和更强的吸引力还间接体现了游客的需求和期望,从而进一步证明城市旅游资源的丰富性以及为城市旅游发展规划部门更加精准地优化资源配置提供实际考量。
Table 2. The top 10 cities with the most highest-rated attractions
表2. 获最高评分景点数最多的前10个城市
序号 |
城市 |
获最高评分(5.00)的景点数 |
1 |
益阳 |
20 |
2 |
玉溪 |
19 |
3 |
大兴安岭 |
18 |
4 |
潍坊 |
18 |
5 |
烟台 |
18 |
6 |
邢台 |
16 |
7 |
周口 |
16 |
8 |
自贡 |
16 |
9 |
保定 |
15 |
10 |
东营 |
14 |
内江、宁德、庆阳、沈阳、万宁、武威、雅安跟东营获最高评分(5.00)的景点数相同,此表中不再列出。
3. 问题一:考虑气候等因素的景点与城市评价
我们研究对这352个城市进行综合评价,以选出“最令外国游客向往的50个城市”,为游客能达到最佳旅行体验提供参考和建议。由于不同的自然景观和人文风光会吸引不同的游客,促进文化交流[1],在这里我们评价标准结合城市规模、环境环保、人文底蕴、交通便利性,以及气候、美食等因素。为了高效解决这一问题,我们采用基于熵权法的线性加权模型。该模型简洁明了,只需确定各个属性的权重和相应的数值,便能迅速计算出每个城市的综合评分,再使用线性加权综合评价算法,这样,我们就能计算出每个城市的综合评分,从而达到目的。
3.1. 数据基础
结合题目要求从各网站和官方渠道收集所需评价指标的数据,构建能够反映最令人向往特征的指标,并进行清洗和标准化处理,以消除数据噪声和量纲差异。部分收集到的原始数据如下(表3):
Table 3. Choosing evaluation indicators
表3. 评价指标选取
城市 |
空气质量指数 |
绿化覆盖率(%) |
…… |
美食活动频次 |
阿坝 |
50 |
36 |
…… |
14 |
阿克苏 |
45 |
34 |
…… |
14 |
阿拉尔 |
49 |
33 |
…… |
15 |
阿拉善盟 |
60 |
40 |
…… |
10 |
阿勒泰 |
50 |
36 |
…… |
14 |
阿里 |
48 |
37 |
…… |
15 |
安康 |
46 |
35 |
…… |
16 |
安庆 |
42 |
38 |
…… |
25 |
安顺 |
45 |
34 |
…… |
14 |
安阳 |
49 |
33 |
…… |
15 |
3.2. 建立基于熵权法的综合评价模型
线性加权模型是一种常用的多属性决策方法,用于对具有多个属性(或指标)的选项进行评估和排序。这种模型特别适用于需要考虑多种因素时的情况,正适合解决该问题。在解决此问题时,线性加权模型可以通过给定各个属性的权重,然后计算出每个选项的综合评分。
对于权重的确定以及综合评分的求解,我们使用熵权法:
熵权法是物理学名词,按照信息论基本原理的解释,信息是系统有序程度的一个度量,熵是系统无序程度的一个度量,用熵权法给指标赋权能避免各评价指标权重的人为影响因素干扰[2];根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大,该指标对综合评价的影响(即权重)就越大。熵权法的操作步骤:
(1) 数据标准化处理
由于各项指标的量纲和量级可能不同,为了消除这些差异对计算结果的影响,需要对原始数据进行标准化处理[3]。标准化处理的方法有多种,常见的有极差标准化(也称为线性比例变换法)和Z-score标准化等。在这里我们使用极差标准化,极差标准化是将原始数据线性变换到[0, 1]区间内,其公式为:
其中,
是第i个评价对象在第j个指标上的原始数据,
是标准化后的数据,
和
分别是第j个指标在所有评价对象中的最小值和最大值。
(2) 计算比重
计算第j个指标下第i个评价对象的数值比重
,其公式为:
其中,n是评价对象的数量。
(3) 计算熵值
计算第j个指标的熵值
,其公式为:
其中,k是一个常数,通常取
,以保证
。如果
,则定义
。
(4) 计算变异指数(变异系数)
变异指数
用于衡量第j个指标的变异程度,其公式为:
变异指数越大,说明该指标在评价对象之间的差异越大,对综合评价的影响也越大。
(5) 计算熵权
根据变异指数计算第j个指标的权重
,其公式为:
其中,U是指标的数量。
(6) 综合评分
最后,根据各指标的权重和标准化后的数据,计算每个评价对象的综合评价值
,其公式为:
或者,由于
已经通过
体现在权重计算中,因此也可以直接用
进行加权求和:
通过以上步骤,可以得到每个评价对象的综合评价值,进而进行排名或比较。熵权法作为一种客观赋权方法,能够避免主观因素对权重分配的影响,使得评价结果更加客观和科学。
3.3. 各指标的计算结果
利用熵权法算出城市空气质量指数、绿化覆盖率、废水处理率等20个指标所占比重,其中熵值越大,代表该因素的变异程度越小,信息量越少;差异系数越大,代表该因素的变异程度越大,信息量越多[4]。而权重越大表明该指标对评价对象的重要程度越大。
从表4中可得,博物馆数量所占权重最大,说明外国游客偏向寻求深度文化体验,希望通过参观博物馆来更深入地了解目的地的文化背景和历史传承,也表明一个城市如果拥有众多高质量的博物馆,往往会被视为文化底蕴深厚、艺术氛围浓厚的代表。
Table 4. The calculation results of each indicator
表4. 各指标的计算结果
指标 |
熵值 |
变异系数 |
权重 |
空气质量指数(AQI) |
0.9961 |
0.0039 |
0.0089 |
绿化覆盖率(%) |
0.9883 |
0.0117 |
0.0268 |
废水处理率(%) |
0.9976 |
0.0024 |
0.0056 |
废气处理率(%) |
0.9963 |
0.0037 |
0.0086 |
垃圾分类处理率(%) |
0.9368 |
0.0632 |
0.1447 |
历史遗迹数量 |
0.9507 |
0.0493 |
0.1129 |
博物馆数量 |
0.9062 |
0.0938 |
0.2147 |
文化活动频次 |
0.9881 |
0.0119 |
0.0272 |
文化设施数量 |
0.9668 |
0.0332 |
0.0760 |
公共交通覆盖率(%) |
0.9959 |
0.0041 |
0.0094 |
线路密度(km/km2) |
0.9200 |
0.0800 |
0.1830 |
高速公路里程(km) |
0.9930 |
0.0070 |
0.0160 |
机场航班数量 |
0.9941 |
0.0059 |
0.0134 |
年平均气温(℃) |
0.9902 |
0.0098 |
0.0225 |
年降水量(mm) |
0.9944 |
0.0056 |
0.0129 |
适宜旅游天数 |
0.9966 |
0.0034 |
0.0077 |
空气湿度(%) |
0.9932 |
0.0068 |
0.0156 |
餐馆数量 |
0.9834 |
0.0166 |
0.0380 |
特色美食数量 |
0.9930 |
0.0070 |
0.0159 |
美食活动频次 |
0.9823 |
0.0177 |
0.0405 |
3.4. 模型求解
线性加权综合评价算法是一种常用的多属性决策方法,用于评估和比较具有多个属性(或指标)的选项。这种算法特别适用于需要考虑多种因素的情况,例如在本题中评估不同城市的可持续发展水平和旅游吸引力。在此问题中,我们需要通过线性加权综合评价算法将城市规模、环境环保等因素纳入考量。这样,我们就能计算出每个城市的综合评分,进而筛选出“最令外国游客向往的50个城市”。
最令外国游客向往的50个城市如表5所示。
Table 5. The solution of problem 2
表5. 问题二的求解结果
城市序号 |
名称 |
城市序号 |
名称 |
1 |
福州 |
2 |
汕尾 |
3 |
安庆 |
4 |
北京 |
5 |
常德 |
6 |
成都 |
7 |
楚雄州 |
8 |
儋州 |
9 |
定西 |
10 |
恩施 |
11 |
贵阳 |
12 |
杭州 |
13 |
贺州 |
14 |
呼和浩特 |
15 |
惠州 |
16 |
济源 |
17 |
嘉峪关 |
18 |
晋城 |
19 |
可克达拉 |
20 |
丽江 |
21 |
临高 |
22 |
泸州 |
23 |
南充 |
24 |
攀枝花 |
25 |
潜江 |
26 |
琼海 |
27 |
三亚 |
28 |
邵阳 |
29 |
朔州 |
30 |
台州 |
31 |
通化 |
32 |
潍坊 |
33 |
五家 |
34 |
咸宁 |
35 |
雄安新区 |
36 |
扬州 |
37 |
大理 |
38 |
重庆 |
39 |
中山 |
40 |
长沙 |
41 |
包头 |
42 |
博尔塔拉 |
43 |
阜新 |
44 |
宝鸡 |
45 |
忻州 |
46 |
唐山 |
47 |
白城 |
48 |
凉山 |
49 |
肇庆 |
50 |
珠海 |
4. 问题二:特定需求下的旅游路线规划
一般情况下,旅行者在旅行时,不同的人在使用旅游地的空间行为选择上有很大差异[5],这就要求我们设计出一条在144小时免签时间内最大程度满足游客出行体验的旅游路线。因此我们可以假设游客的一些出行需求并设计出合理路线来为应对实际状况打好基础。
在这里我们假设可以外国游客从广州入境并且他想在144小时以内通过乘坐高铁游玩尽可能多的城市,每个城市只选择一个评分最高的景点游玩,同时要求门票和交通的总费用尽可能的少。通过求解该问题,我们可以为后续的相关研究提供有用的数据支持。
4.1. 需求分析与模型构建
4.1.1. 需求分析
我们需要先快速整理游客需求,此游客想要游玩尽可能多的城市同时每个城市只选择一个景点游玩,并且出行方式只选择高铁,在此基础上,我们还要使得门票和交通的总费用尽可能的少。为此,我们可以建立Haversine公式和局部最优选择模型并利用贪心算法来求解。
4.1.2. 模型构建
基于Haversine公式和局部最优选择模型我们可以建立目标函数:
假设当前城市为
,剩余城市集合为R,已经访问的城市集合为V,由于游客希望游玩尽可能多的城市,所以我们可以令目标是至少访问K个城市。
(1) 初始化:
(2) 迭代过程:
while
and
:
(3) 计算总距离:
假设两点的地理坐标分别为
和
,其中
表示纬度,
表示经度。地球的平均半径r约为6371千米。
(4) 将纬度和经度从度数转换为弧度:
,
,
(5) 计算中间变量a:
(6) 计算中间变量b:
(7) 计算两点之间的大圆距离d:
4.2. 路线设计与评估
4.2.1. 数据整理
我们在数据预处理中已经利用VBA编译器,通过VBA代码把所有csv文件合并到一个表格中并去掉重复景点,这么做有利于我们更直观的观察和筛选数据。由于该游客在城市之间出行都选择高铁,所以通过搜集资料,我们得知在352城市之间只有257个城市有高铁站,部分满足条件的城市如下(表6)。
Table 6. Some cities with high-speed train stations
表6. 部分有高铁站的城市
城市 |
是否有高铁站 |
城市 |
是否有高铁站 |
安康 |
有 |
安庆 |
有 |
安顺 |
有 |
安阳 |
有 |
鞍山 |
有 |
巴中 |
有 |
…… |
…… |
…… |
…… |
另外,我们还需要知道这些城市的经纬度信息以便计算城市之间的距离,通过上网查询,我们得到了这257个城市的经纬度。部分展示如下(表7)。
Table 7. City longitude and latitude
表7. 城市经度和纬度
城市名称 |
经度 |
纬度 |
安康 |
109.035347˚E |
32.683846˚N |
安庆 |
117.053333˚E |
30.553333˚N |
安顺 |
105.933333˚E |
26.233333˚N |
…… |
…… |
…… |
4.2.2. 贪心算法
贪心算法是一种在每个步骤中都选择局部最优解,从而希望最终得到全局最优解的算法。这种算法的特点是在每一步选择中都采取当前状态下最优的选择[6],而不考虑未来的后果,在这里主要用于解决旅行商问题(TSP),即从一个起始城市出发,尽可能短地访问多个城市。我们可以将此转换为寻找有限时间以内的最短路径问题。
具体过程如下:
(1) 读取数据。
(2) 初始化:选择一个起始城市(例如“广州”),将其加入已访问城市列表。
(3) 循环:在剩余城市中选择距离当前城市最近的城市,将其加入已访问城市列表,并更新当前城市。
(4) 停止循环:更新总距离、总交通费用和时间。
通过上网查询我们得知高铁公里均价约为0.71元,高铁时速约为275公里,接着利用代码求解,我们得到了各城市之间的距离、交通所需费用以及交通所需时间。部分展示如下(表8~10):
Table 8. Distances between cities
表8. 各城市之间的距离
距离(km) |
安康 |
安庆 |
安顺 |
…… |
北海 |
…… |
安康 |
0 |
795.0641 |
777.4806 |
…… |
1245.5 |
…… |
安庆 |
795.0641 |
0 |
1188.3 |
…… |
1282.1 |
…… |
安顺 |
777.4806 |
1188.3 |
0 |
…… |
619.4084 |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
北海 |
1245.5 |
1282.1 |
619.4084 |
…… |
0 |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
Table 9. Transportation costs between cities
表9. 各城市之间交通所需费用
交通费用(元) |
安康 |
安庆 |
安顺 |
…… |
北海 |
…… |
安康 |
0 |
564.4955 |
552.0112 |
…… |
884.2809 |
…… |
安庆 |
564.4955 |
0 |
843.6872 |
…… |
910.2606 |
…… |
安顺 |
552.0112 |
843.6872 |
0 |
…… |
439.78 |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
北海 |
884.2809 |
910.2606 |
439.78 |
…… |
0 |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
Table 10. Travel time between cities
表10. 各城市之间交通所需时间
交通时间(h) |
安康 |
安庆 |
安顺 |
…… |
北海 |
…… |
安康 |
0 |
2.8911 |
2.8272 |
…… |
4.529 |
…… |
安庆 |
2.8911 |
0 |
4.3211 |
…… |
4.662 |
…… |
安顺 |
2.8272 |
4.3211 |
0 |
…… |
2.2524 |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
北海 |
4.529 |
4.662 |
2.2524 |
…… |
0 |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
利用这三个矩阵,MATLAB代码成功计算出了所访问城市的总距离、总交通费用和时间,结果如下:
访问的城市:
广州→佛山→江门→中山→珠海→深圳→东莞→惠州→河源→汕尾→揭阳→潮州→汕头→梅州→龙岩→漳州→厦门→泉州→莆田→福州。
总距离:1328.59千米;
总交通时间:63.68小时。
由于该游客在每个城市只选择一个评分最高的景点游玩,还希望门票的费用尽可能的少,考虑到游客免签只有144小时,所以我们除去城市间交通时间以外综合考虑游客在每个城市的停留时间,经过计算得知游客在每个城市平均最多停留4小时,为了旅行过程中的体验,使游客放松的旅行,我们令每个城市的停留时间为3.5小时,所以我们通过查询已整理好的csv文件的表格和网上公开资料得知信息如下(表11)。
Table 11. City and scenic spot information
表11. 城市和景点信息
城市 |
景点名称 |
评分 |
在此城市停留时间 |
门票 |
广州 |
薰衣草森林世界 |
5 |
3.5 h |
65元 |
佛山 |
高基街 |
5 |
3.5 h |
免费 |
江门 |
迎龙楼 |
5 |
3.5 h |
免费 |
中山 |
莺歌咀水文公园 |
5 |
3.5 h |
免费 |
珠海 |
伶仃洋 |
5 |
3.5 h |
120元 |
深圳 |
南澳旅游海滨中心 |
5 |
3.5 h |
免费 |
东莞 |
扶屋水 |
5 |
3.5 h |
免费 |
惠州 |
蓝小鸭萌宠乐园 |
5 |
3.5 h |
49.9元 |
河源 |
客家文化博物馆 |
5 |
3.5 h |
免费 |
汕尾 |
天子山农业公园 |
5 |
3.5 h |
20元 |
揭阳 |
利泰飞鹅岭农业公园 |
5 |
3.5 h |
免费 |
潮州 |
石壁山 |
5 |
3.5 h |
免费 |
汕头 |
南澳后花园村 |
5 |
3.5 h |
免费 |
梅州 |
丘逢甲故居 |
5 |
3.5 h |
7元 |
龙岩 |
古田镇 |
5 |
3.5 h |
62元 |
漳州 |
漳州战备大桥 |
5 |
3.5 h |
免费 |
厦门 |
内厝澳路 |
5 |
3.5 h |
免费 |
泉州 |
石狮市博物馆 |
5 |
3.5 h |
免费 |
莆田 |
塔斗山与望海塔 |
5 |
3.5 h |
免费 |
福州 |
东庠岛 |
5 |
3.5 h |
免费 |
通过计算城市间通过高铁出行时间和每个城市的停留时间,我们得知从广州到福州,加上交通和门票等,游客共花费133.68小时,共需花费1267.1952元。
4.3. 结果解释
以游客的旅行需求为基准,我们研究了最大程度满足游客旅行体验的旅行路线规划,贴合实际给出了具体可行的旅行方案,为后续进一步研究提供了宝贵的思路,有助于在实际生活中遇到类似情况时旅行路线的具体规划与实施。
5. 模型的评价与优化
5.1. 模型的优点
问题1使用线性加权综合评价算法,考虑了多种因素的情况,有效评估了不同城市的可持续发展水平和旅游吸引力。问题2主要运用了Haversine公式和贪心算法,Haversine公式考虑了地球的球形特性,因此适用于大多数地理坐标系统的距离计算。由于每次选择城市都是基于当前信息做出的,不需要回溯之前的决策,所以贪心算法通常运行速度较快,消耗的计算资源较少。
5.2. 模型的缺点
对于本论文建立的旅行优化模型,未考虑过拟合现象、某些综合评价相关因素之间的影响以及问题空间具有复杂依赖关系的可能,这些问题有待后续进一步探讨。
6. 结论
游客的旅游路线规划深受多元因素影响,诸如景点的评分、当地气候条件等,这些复杂变量共同塑造了游客对于旅行目的地的向往与选择。鉴于每位游客的个性化需求与偏好各异,设计既贴合需求又充满吸引力的旅行路线成为了一项关键任务。为此,通过构建具备高度鲁棒性的数学模型,科学地为影响城市评价的各项关键因素分配合理权重,成为减少规划误差、提升满意度的有效策略。在充分汲取前人研究成果精髓的基础上,本研究创新性地融入了时间窗旅游线路规划理念,深入剖析了多样化的旅行推荐方案,并据此构建了一套数学模型体系。该模型运用线性加权综合评价算法等先进方法,对模型进行精确求解,为游客提供了既实际可行的旅游路线规划方案。此外,本文还对所采用模型的优势与局限性进行了全面剖析,旨在进一步提升模型的适用性与准确性。总体而言,本文所呈现的旅行规划方案具有良好的参考价值,为相关领域问题的解决提供了范例与启示。