基于数据驱动的最优旅行策略设计
Design of Data-Driven Optimal Travel Strategies
摘要: 随着我国过境免签政策的落实,越来越多外国游客来到中国,如何为不同游客规划出适合他们的旅行路线和旅行城市变得尤为重要。本研究通过分析景点评分、交通便利性、美食等多维度因素,建立了统计分析模型和优化模型等来科学评估各城市和景点对旅游选择的影响。针对外国游客的需求,我们特别关注如何通过这些因素的综合评价,选出“最高评分景点最多的城市”和“最令外国游客向往的50个城市”。此外,本研究还考虑了如何为游客设计最优旅行路线,即如何在144小时的时间限制内,通过高铁等交通工具,最大化城市数量、同时保证综合游玩体验最好。针对具体的旅行规划问题,我们采用了贪心算法、线性加权综合评价算法等方法,以找到满足时间和成本效益的最优解。通过对这些问题的深入分析和求解,本研究有助于为外国游客提供优质的旅游体验,也有助于促进中国旅游业的发展。
Abstract: With the implementation of China’s visa-free transit policy, an increasing number of foreign tourists are flocking to the country. Consequently, planning suitable travel routes and selecting appropriate cities for these visitors has become a matter of utmost importance. This study aims to scientifically assess the impact of various cities and attractions on tourism choices by analyzing multidimensional factors such as attraction ratings, transportation convenience, and culinary offerings. Through the establishment of statistical analysis models and optimization models, we have conducted comprehensive evaluations. In response to the specific needs of foreign tourists, we have paid particular attention to selecting “cities with the highest number of top-rated attractions” and “the 50 most desirable cities for foreign tourists” based on a comprehensive evaluation of these factors. Additionally, this study has also considered how to design optimal travel routes for tourists, specifically addressing the challenge of maximizing the number of cities visited within a 144-hour time limit while ensuring the best overall travel experience through the use of transportation modes such as high-speed rail. To tackle the specific challenges of travel planning, we have employed methods such as the greedy algorithm and linear weighted comprehensive evaluation algorithm to find optimal solutions that meet both time and cost-effectiveness criteria. Through in-depth analysis and solving of these issues, this study aims to provide high-quality travel experiences for foreign tourists and further promote the development of China's tourism industry.
文章引用:张艺涵. 基于数据驱动的最优旅行策略设计[J]. 应用数学进展, 2025, 14(1): 41-53. https://doi.org/10.12677/aam.2025.141007

1. 引言

随着我国对众多国家实施144小时过境免签政策,来中国旅游的国外游客数量持续增长。如何依据这些游客多样化的旅行需求,精心设计合理的旅行路线,成为了亟待关注的重要问题。本文以2024年第五届“华数杯”全国大学生数学建模竞赛C题为背景,借助Excel工具整合了相关数据,并通过预设潜在的旅行需求,深入探索了多种旅行规划方案。在此过程中,我们运用了线性加权模型、熵权法以及贪心算法等多种方法,对不同的旅行问题进行了深入探讨。

2. 数据预处理

2.1. 数据收集与整合

2.1.1. 数据来源

数据来源于2024年第五届“华数杯”全国大学生数学建模竞赛C题附件。

2.1.2. 数据格式

包括352个城市的CSV文件。

2.2. 数据清洗

我们利用EXCEL的VBA工具将352个城市的数据全部汇总到一个表格中。我们发现并不是所有城市都有100个景点,于是我们利用EXCEL的高级筛选功能对数据进行了处理,去掉了重复景点,以保证不重复计入数据避免造成更大误差。接着为了更直观地看到去掉重复数据之后各城市之间的差异,我们用堆积柱状图展示了每个城市所含不重复景点的数量,如下图1所示。其中x轴表示352个城市,y轴表示每个城市所含景点数量。

Figure 1. Stacked bar chart of the number of attractions contained

1. 所含景点数量的堆积柱状图

2.3. 数据统计分析

为了制定吸引外国游客到各个城市旅游的方案,我们需要找到城市的潜在吸引力。于是我们根据评分列表筛选得到了整理后的拥有最高评分的景点。部分整理后的数据如下(表1):

Table 1. Some of the highest-rated attractions

1. 部分最高评分景点

城市

名字

……

评分

……

七台河

勃利森林公园

……

5

……

七台河

亿达广场

……

5

……

万宁

神州半岛灯塔

……

5

……

万宁

青云塔

……

5

……

万宁

南燕湾高尔夫球会

……

5

……

万宁

日月湾海岛教堂

……

5

……

万宁

太阳河景观大桥

……

5

……

万宁

燕子洞景区

……

5

……

我们使用EXCEL的统计方法获得了2353个最高评分的景点以及这些景点分布的城市,接着我们根据每个城市所含最高评分景点的数量,对城市进行排序并筛选出了前10个城市(表2)。此分析可以为后续相关问题的研究提供可靠的理论依据。

由结果可知,通过研究各个景点的类型及分布,我们可以量化城市旅游资源的多样性。景点的评分则能够直观反映游客对这些资源的喜爱程度和吸引力。高评分的景点往往意味着更高的游客满意度和更强的吸引力还间接体现了游客的需求和期望,从而进一步证明城市旅游资源的丰富性以及为城市旅游发展规划部门更加精准地优化资源配置提供实际考量。

Table 2. The top 10 cities with the most highest-rated attractions

2. 获最高评分景点数最多的前10个城市

序号

城市

获最高评分(5.00)的景点数

1

益阳

20

2

玉溪

19

3

大兴安岭

18

4

潍坊

18

5

烟台

18

6

邢台

16

7

周口

16

8

自贡

16

9

保定

15

10

东营

14

内江、宁德、庆阳、沈阳、万宁、武威、雅安跟东营获最高评分(5.00)的景点数相同,此表中不再列出。

3. 问题一:考虑气候等因素的景点与城市评价

我们研究对这352个城市进行综合评价,以选出“最令外国游客向往的50个城市”,为游客能达到最佳旅行体验提供参考和建议。由于不同的自然景观和人文风光会吸引不同的游客,促进文化交流[1],在这里我们评价标准结合城市规模、环境环保、人文底蕴、交通便利性,以及气候、美食等因素。为了高效解决这一问题,我们采用基于熵权法的线性加权模型。该模型简洁明了,只需确定各个属性的权重和相应的数值,便能迅速计算出每个城市的综合评分,再使用线性加权综合评价算法,这样,我们就能计算出每个城市的综合评分,从而达到目的。

3.1. 数据基础

结合题目要求从各网站和官方渠道收集所需评价指标的数据,构建能够反映最令人向往特征的指标,并进行清洗和标准化处理,以消除数据噪声和量纲差异。部分收集到的原始数据如下(表3):

Table 3. Choosing evaluation indicators

3. 评价指标选取

城市

空气质量指数

绿化覆盖率(%)

……

美食活动频次

阿坝

50

36

……

14

阿克苏

45

34

……

14

阿拉尔

49

33

……

15

阿拉善盟

60

40

……

10

阿勒泰

50

36

……

14

阿里

48

37

……

15

安康

46

35

……

16

安庆

42

38

……

25

安顺

45

34

……

14

安阳

49

33

……

15

3.2. 建立基于熵权法的综合评价模型

线性加权模型是一种常用的多属性决策方法,用于对具有多个属性(或指标)的选项进行评估和排序。这种模型特别适用于需要考虑多种因素时的情况,正适合解决该问题。在解决此问题时,线性加权模型可以通过给定各个属性的权重,然后计算出每个选项的综合评分。

对于权重的确定以及综合评分的求解,我们使用熵权法:

熵权法是物理学名词,按照信息论基本原理的解释,信息是系统有序程度的一个度量,熵是系统无序程度的一个度量,用熵权法给指标赋权能避免各评价指标权重的人为影响因素干扰[2];根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大,该指标对综合评价的影响(即权重)就越大。熵权法的操作步骤:

(1) 数据标准化处理

由于各项指标的量纲和量级可能不同,为了消除这些差异对计算结果的影响,需要对原始数据进行标准化处理[3]。标准化处理的方法有多种,常见的有极差标准化(也称为线性比例变换法)和Z-score标准化等。在这里我们使用极差标准化,极差标准化是将原始数据线性变换到[0, 1]区间内,其公式为:

C ij = C ij min( C j ) max( C j )min( C j )

其中, C ij 是第i个评价对象在第j个指标上的原始数据, C ij 是标准化后的数据, min( C j ) max( C j ) 分别是第j个指标在所有评价对象中的最小值和最大值。

(2) 计算比重

计算第j个指标下第i个评价对象的数值比重 L ij ,其公式为:

L ij = C ij i=1 n C ij

其中,n是评价对象的数量。

(3) 计算熵值

计算第j个指标的熵值 G j ,其公式为:

G j =k i=1 n L ij ln( L ij )

其中,k是一个常数,通常取 k= 1 ln( n ) ,以保证 0 G j 1 。如果 L ij =0 ,则定义 ln( L ij )=0

(4) 计算变异指数(变异系数)

变异指数 h j 用于衡量第j个指标的变异程度,其公式为:

h j =1 G j

变异指数越大,说明该指标在评价对象之间的差异越大,对综合评价的影响也越大。

(5) 计算熵权

根据变异指数计算第j个指标的权重 w j ,其公式为:

w j = h j j=1 U h j

其中,U是指标的数量。

(6) 综合评分

最后,根据各指标的权重和标准化后的数据,计算每个评价对象的综合评价值 E i ,其公式为:

E i = j=1 U w j C ij

或者,由于 C ij 已经通过 L ij 体现在权重计算中,因此也可以直接用 L ij 进行加权求和:

E i = j=1 U w j L ij

通过以上步骤,可以得到每个评价对象的综合评价值,进而进行排名或比较。熵权法作为一种客观赋权方法,能够避免主观因素对权重分配的影响,使得评价结果更加客观和科学。

3.3. 各指标的计算结果

利用熵权法算出城市空气质量指数、绿化覆盖率、废水处理率等20个指标所占比重,其中熵值越大,代表该因素的变异程度越小,信息量越少;差异系数越大,代表该因素的变异程度越大,信息量越多[4]。而权重越大表明该指标对评价对象的重要程度越大。

表4中可得,博物馆数量所占权重最大,说明外国游客偏向寻求深度文化体验,希望通过参观博物馆来更深入地了解目的地的文化背景和历史传承,也表明一个城市如果拥有众多高质量的博物馆,往往会被视为文化底蕴深厚、艺术氛围浓厚的代表。

Table 4. The calculation results of each indicator

4. 各指标的计算结果

指标

熵值

变异系数

权重

空气质量指数(AQI)

0.9961

0.0039

0.0089

绿化覆盖率(%)

0.9883

0.0117

0.0268

废水处理率(%)

0.9976

0.0024

0.0056

废气处理率(%)

0.9963

0.0037

0.0086

垃圾分类处理率(%)

0.9368

0.0632

0.1447

历史遗迹数量

0.9507

0.0493

0.1129

博物馆数量

0.9062

0.0938

0.2147

文化活动频次

0.9881

0.0119

0.0272

文化设施数量

0.9668

0.0332

0.0760

公共交通覆盖率(%)

0.9959

0.0041

0.0094

线路密度(km/km2)

0.9200

0.0800

0.1830

高速公路里程(km)

0.9930

0.0070

0.0160

机场航班数量

0.9941

0.0059

0.0134

年平均气温(℃)

0.9902

0.0098

0.0225

年降水量(mm)

0.9944

0.0056

0.0129

适宜旅游天数

0.9966

0.0034

0.0077

空气湿度(%)

0.9932

0.0068

0.0156

餐馆数量

0.9834

0.0166

0.0380

特色美食数量

0.9930

0.0070

0.0159

美食活动频次

0.9823

0.0177

0.0405

3.4. 模型求解

线性加权综合评价算法是一种常用的多属性决策方法,用于评估和比较具有多个属性(或指标)的选项。这种算法特别适用于需要考虑多种因素的情况,例如在本题中评估不同城市的可持续发展水平和旅游吸引力。在此问题中,我们需要通过线性加权综合评价算法将城市规模、环境环保等因素纳入考量。这样,我们就能计算出每个城市的综合评分,进而筛选出“最令外国游客向往的50个城市”。

最令外国游客向往的50个城市如表5所示。

Table 5. The solution of problem 2

5. 问题二的求解结果

城市序号

名称

城市序号

名称

1

福州

2

汕尾

3

安庆

4

北京

5

常德

6

成都

7

楚雄州

8

儋州

9

定西

10

恩施

11

贵阳

12

杭州

13

贺州

14

呼和浩特

15

惠州

16

济源

17

嘉峪关

18

晋城

19

可克达拉

20

丽江

21

临高

22

泸州

23

南充

24

攀枝花

25

潜江

26

琼海

27

三亚

28

邵阳

29

朔州

30

台州

31

通化

32

潍坊

33

五家

34

咸宁

35

雄安新区

36

扬州

37

大理

38

重庆

39

中山

40

长沙

41

包头

42

博尔塔拉

43

阜新

44

宝鸡

45

忻州

46

唐山

47

白城

48

凉山

49

肇庆

50

珠海

4. 问题二:特定需求下的旅游路线规划

一般情况下,旅行者在旅行时,不同的人在使用旅游地的空间行为选择上有很大差异[5],这就要求我们设计出一条在144小时免签时间内最大程度满足游客出行体验的旅游路线。因此我们可以假设游客的一些出行需求并设计出合理路线来为应对实际状况打好基础。

在这里我们假设可以外国游客从广州入境并且他想在144小时以内通过乘坐高铁游玩尽可能多的城市,每个城市只选择一个评分最高的景点游玩,同时要求门票和交通的总费用尽可能的少。通过求解该问题,我们可以为后续的相关研究提供有用的数据支持。

4.1. 需求分析与模型构建

4.1.1. 需求分析

我们需要先快速整理游客需求,此游客想要游玩尽可能多的城市同时每个城市只选择一个景点游玩,并且出行方式只选择高铁,在此基础上,我们还要使得门票和交通的总费用尽可能的少。为此,我们可以建立Haversine公式和局部最优选择模型并利用贪心算法来求解。

4.1.2. 模型构建

基于Haversine公式和局部最优选择模型我们可以建立目标函数:

假设当前城市为 Q i ,剩余城市集合为R,已经访问的城市集合为V,由于游客希望游玩尽可能多的城市,所以我们可以令目标是至少访问K个城市。

(1) 初始化:

Q = 1 startCity,V={ Q 1 },R=allowedCities\{ Q 1 }

(2) 迭代过程:

while | V |<K and R0 :

nextCity=arg min Q j R distance( Q i , Q j )

V=V{ Q j }

(3) 计算总距离:

totalDistance= i=1 k1 distance( Q i , Q i+1 )

假设两点的地理坐标分别为 ( la t 1 ,lo n 1 ) ( la t 2 ,lo n 2 ) ,其中 lat 表示纬度, lon 表示经度。地球的平均半径r约为6371千米。

(4) 将纬度和经度从度数转换为弧度:

ϕ 1 =deg2rad( la t 1 ) ϕ 2 =deg2rad( la t 2 )

Δϕ=deg2rad( la t 2 la t 1 ) Δλ=deg2rad( lo n 2 lo n 1 )

(5) 计算中间变量a

a= sin 2 ( Δϕ 2 )+cos( ϕ 1 )cos( ϕ 2 ) sin 2 ( Δλ 2 )

(6) 计算中间变量b

b=2arctan2( a , 1a )

(7) 计算两点之间的大圆距离d

d=rb

4.2. 路线设计与评估

4.2.1. 数据整理

我们在数据预处理中已经利用VBA编译器,通过VBA代码把所有csv文件合并到一个表格中并去掉重复景点,这么做有利于我们更直观的观察和筛选数据。由于该游客在城市之间出行都选择高铁,所以通过搜集资料,我们得知在352城市之间只有257个城市有高铁站,部分满足条件的城市如下(表6)。

Table 6. Some cities with high-speed train stations

6. 部分有高铁站的城市

城市

是否有高铁站

城市

是否有高铁站

安康

安庆

安顺

安阳

鞍山

巴中

……

……

……

……

另外,我们还需要知道这些城市的经纬度信息以便计算城市之间的距离,通过上网查询,我们得到了这257个城市的经纬度。部分展示如下(表7)。

Table 7. City longitude and latitude

7. 城市经度和纬度

城市名称

经度

纬度

安康

109.035347˚E

32.683846˚N

安庆

117.053333˚E

30.553333˚N

安顺

105.933333˚E

26.233333˚N

……

……

……

4.2.2. 贪心算法

贪心算法是一种在每个步骤中都选择局部最优解,从而希望最终得到全局最优解的算法。这种算法的特点是在每一步选择中都采取当前状态下最优的选择[6],而不考虑未来的后果,在这里主要用于解决旅行商问题(TSP),即从一个起始城市出发,尽可能短地访问多个城市。我们可以将此转换为寻找有限时间以内的最短路径问题。

具体过程如下:

(1) 读取数据。

(2) 初始化:选择一个起始城市(例如“广州”),将其加入已访问城市列表。

(3) 循环:在剩余城市中选择距离当前城市最近的城市,将其加入已访问城市列表,并更新当前城市。

(4) 停止循环:更新总距离、总交通费用和时间。

通过上网查询我们得知高铁公里均价约为0.71元,高铁时速约为275公里,接着利用代码求解,我们得到了各城市之间的距离、交通所需费用以及交通所需时间。部分展示如下(表8~10):

Table 8. Distances between cities

8. 各城市之间的距离

距离(km)

安康

安庆

安顺

……

北海

……

安康

0

795.0641

777.4806

……

1245.5

……

安庆

795.0641

0

1188.3

……

1282.1

……

安顺

777.4806

1188.3

0

……

619.4084

……

……

……

……

……

……

……

……

北海

1245.5

1282.1

619.4084

……

0

……

……

……

……

……

……

……

……

Table 9. Transportation costs between cities

9. 各城市之间交通所需费用

交通费用(元)

安康

安庆

安顺

……

北海

……

安康

0

564.4955

552.0112

……

884.2809

……

安庆

564.4955

0

843.6872

……

910.2606

……

安顺

552.0112

843.6872

0

……

439.78

……

……

……

……

……

……

……

……

北海

884.2809

910.2606

439.78

……

0

……

……

……

……

……

……

……

……

Table 10. Travel time between cities

10. 各城市之间交通所需时间

交通时间(h)

安康

安庆

安顺

……

北海

……

安康

0

2.8911

2.8272

……

4.529

……

安庆

2.8911

0

4.3211

……

4.662

……

安顺

2.8272

4.3211

0

……

2.2524

……

……

……

……

……

……

……

……

北海

4.529

4.662

2.2524

……

0

……

……

……

……

……

……

……

……

利用这三个矩阵,MATLAB代码成功计算出了所访问城市的总距离、总交通费用和时间,结果如下:

访问的城市:

广州→佛山→江门→中山→珠海→深圳→东莞→惠州→河源→汕尾→揭阳→潮州→汕头→梅州→龙岩→漳州→厦门→泉州→莆田→福州。

总距离:1328.59千米;

总交通时间:63.68小时。

由于该游客在每个城市只选择一个评分最高的景点游玩,还希望门票的费用尽可能的少,考虑到游客免签只有144小时,所以我们除去城市间交通时间以外综合考虑游客在每个城市的停留时间,经过计算得知游客在每个城市平均最多停留4小时,为了旅行过程中的体验,使游客放松的旅行,我们令每个城市的停留时间为3.5小时,所以我们通过查询已整理好的csv文件的表格和网上公开资料得知信息如下(表11)。

Table 11. City and scenic spot information

11. 城市和景点信息

城市

景点名称

评分

在此城市停留时间

门票

广州

薰衣草森林世界

5

3.5 h

65元

佛山

高基街

5

3.5 h

免费

江门

迎龙楼

5

3.5 h

免费

中山

莺歌咀水文公园

5

3.5 h

免费

珠海

伶仃洋

5

3.5 h

120元

深圳

南澳旅游海滨中心

5

3.5 h

免费

东莞

扶屋水

5

3.5 h

免费

惠州

蓝小鸭萌宠乐园

5

3.5 h

49.9元

河源

客家文化博物馆

5

3.5 h

免费

汕尾

天子山农业公园

5

3.5 h

20元

揭阳

利泰飞鹅岭农业公园

5

3.5 h

免费

潮州

石壁山

5

3.5 h

免费

汕头

南澳后花园村

5

3.5 h

免费

梅州

丘逢甲故居

5

3.5 h

7元

龙岩

古田镇

5

3.5 h

62元

漳州

漳州战备大桥

5

3.5 h

免费

厦门

内厝澳路

5

3.5 h

免费

泉州

石狮市博物馆

5

3.5 h

免费

莆田

塔斗山与望海塔

5

3.5 h

免费

福州

东庠岛

5

3.5 h

免费

通过计算城市间通过高铁出行时间和每个城市的停留时间,我们得知从广州到福州,加上交通和门票等,游客共花费133.68小时,共需花费1267.1952元。

4.3. 结果解释

以游客的旅行需求为基准,我们研究了最大程度满足游客旅行体验的旅行路线规划,贴合实际给出了具体可行的旅行方案,为后续进一步研究提供了宝贵的思路,有助于在实际生活中遇到类似情况时旅行路线的具体规划与实施。

5. 模型的评价与优化

5.1. 模型的优点

问题1使用线性加权综合评价算法,考虑了多种因素的情况,有效评估了不同城市的可持续发展水平和旅游吸引力。问题2主要运用了Haversine公式和贪心算法,Haversine公式考虑了地球的球形特性,因此适用于大多数地理坐标系统的距离计算。由于每次选择城市都是基于当前信息做出的,不需要回溯之前的决策,所以贪心算法通常运行速度较快,消耗的计算资源较少。

5.2. 模型的缺点

对于本论文建立的旅行优化模型,未考虑过拟合现象、某些综合评价相关因素之间的影响以及问题空间具有复杂依赖关系的可能,这些问题有待后续进一步探讨。

6. 结论

游客的旅游路线规划深受多元因素影响,诸如景点的评分、当地气候条件等,这些复杂变量共同塑造了游客对于旅行目的地的向往与选择。鉴于每位游客的个性化需求与偏好各异,设计既贴合需求又充满吸引力的旅行路线成为了一项关键任务。为此,通过构建具备高度鲁棒性的数学模型,科学地为影响城市评价的各项关键因素分配合理权重,成为减少规划误差、提升满意度的有效策略。在充分汲取前人研究成果精髓的基础上,本研究创新性地融入了时间窗旅游线路规划理念,深入剖析了多样化的旅行推荐方案,并据此构建了一套数学模型体系。该模型运用线性加权综合评价算法等先进方法,对模型进行精确求解,为游客提供了既实际可行的旅游路线规划方案。此外,本文还对所采用模型的优势与局限性进行了全面剖析,旨在进一步提升模型的适用性与准确性。总体而言,本文所呈现的旅行规划方案具有良好的参考价值,为相关领域问题的解决提供了范例与启示。

参考文献

[1] 李珍, 王雯, 马悠然. 旅行类慢综艺节目的创新策略研究——以《花儿与少年∙丝路季》为例[J]. 记者摇篮, 2024(11): 60-62.
[2] 章穗, 张梅, 迟国泰. 基于熵权法的科学技术评价模型及其实证研究[J]. 管理学报, 2010, 7(1): 34-42.
[3] 马立平. 统计数据标准化——无量纲化方法——现代统计分析方法的学与用(三) [J]. 北京统计, 2000(3): 34-35.
[4] 邹志红, 孙靖南, 任广平. 模糊评价因子的熵权法赋权及其在水质评价中的应用[J]. 环境科学学报, 2005(4): 552-556.
[5] 杨新军, 牛栋, 吴必虎. 旅游行为空间模式及其评价[J]. 经济地理, 2000(4): 105-108+117.
[6] 常友渠, 肖贵元, 曾敏. 贪心算法的探讨与研究[J]. 重庆电力高等专科学校学报, 2008(3): 40-42+47.