基于岭回归和LASSO回归的济南市旅游收入影响因素分析
Analysis of the Influencing Factors of Tourism Income in Jinan Based on Ridge Re-gression and LASSO Regression
摘要: 本文研究了影响济南市旅游业发展的因素,选取了济南市2005~2019年间的旅游指标数据,通过建立多元线性回归模型得出结论,在研究方法上面对常用的回归方法——最小二乘回归,岭回归和Lasso回归进行比较研究,最终选择最合适本文数据的Lasso回归并利用R语言进行变量筛选和选择建立模型。最后研究结果表明,影响济南市旅游业发展的重要因素是济南市社会消费品零售总额和济南市绿地面积,根据研究结果分析并提出相应的建议。
Abstract: This paper studies the factors affecting the development of tourism in Jinan. In this paper, we select the tourism index data of Jinan city from 2005 to 2019, and conclude by establishing a multiple linear regression model. Above the study methods, least squares regression, ridge regression and Lasso regression were compared. Finally, the Lasso regression is the most suitable model in this paper. Finally, the research results show that the important factors affecting the development of tourism in Jinan are the total retail sales of social consumer goods in Jinan city and the green space area in Jinan city. Analysis and corresponding suggestions are put forward according to the research results.
文章引用:申小桐, 牟唯嫣, 王欣. 基于岭回归和LASSO回归的济南市旅游收入影响因素分析[J]. 应用数学进展, 2022, 11(8): 5702-5714. https://doi.org/10.12677/AAM.2022.118602

1. 引言

随着我国社会的不断发展和全面小康社会的到来,人民生活质量以及生活幸福感不断提升,我国人民在吃饱穿暖的条件下更加追求生活的质量,更加追求精神文化带给我们的熏陶。因此,旅游业的发展是当今时代发展较快的行业,旅游业也越来越成为一个城市乃至一个国家发展的重要力量。“敢领改革风气之先,勇立开放时代潮头。”这是人民网对当今社会旅游业地位的中肯评价,可见旅游业对于我国改革开放以及社会发展具有及其重要的意义。

山东省是中华文明发祥地之一,历史文化底蕴深厚,是名副其实的文化大省,拥有丰富的民间文化和大好河山。济南作为山东省的省会,历史悠久,拥有众多名胜古迹。济南因泉水众多,拥有“七十二名泉”,素有“四面荷花三面柳,一城山色半城湖”的美誉,因此别称泉城。近年来,济南市经济不断发展,基础设施不断完善,城市风貌不断增强,因此吸引了大批国内外游客前来旅游,进而使得近年来旅游业的收入不断提高,城市发展越来越好,旅游业也逐渐成为济南市发展的重要行业,因此研究影响济南市旅游业的发展因素是至关重要的。

本文结合选择岭回归和LASSO回归解决实际问题常出现的多重共线性并根据统计学知识建立多元线性回归模型,选取济南市2005年至2019年七个影响指标的数据,并根据研究结果提出相关建议。

2. 变量指标和数据的选取

2.1. 变量指标选取

选取解释变量x以及被解释变量y

本文利用R语言和统计知识,选取了影响旅游业发展的常见指标,建立多元回归模型。本文选取的解释变量有:济南市生产总值(亿元),国内游客数量(万),社会消费品零售总额(亿),全国人均可支配收入(元),举办会展数,市绿地面积(公顷),济南市CPI。被解释变量为济南市旅游总收入(亿元)。

2.2. 数据的选取

本文选取的数据是2005~2019年十五年内被解释变量为济南市旅游总收入(亿元),解释变量为济南市生产总值(亿元),国内游客数量(万),社会消费品零售总额(亿元),全国人均可支配收入(元),举办会展数,市绿地面积(公顷),济南市CPI。数据的来源为《济南市统计年鉴2006~2020》,《中国统计年鉴2006~2020》,《济南市国民经济和社会发展公报2005~2019》,济南市政府网以及济南市文化和旅游局官网。指标体系见表1,2005~2019年济南市旅游总收入以及相关影响因素数据见表2

Table 1. Indicator system

表1. 指标体系

Table 2. Data on total tourism revenue and related influencing factors from 2005 to 2019

表2. 2005~2019年济南市旅游总收入以及相关影响因素数据

3. 模型建立与研究

3.1. 多元线性回归模型

模型设定 [1]

含有 p 1 个自变量的多元线性回归模型的一般形式为:

Y = β 0 + β 1 X 1 + β 2 X 2 + + β P 1 X P 1 + e (1)

本文选取了7个影响因素作为解释变量,即本文设定的线性回归模型为:

Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + β 6 X 6 + β 7 X 7 + e (2)

其中Y为被解释变量——旅游总收入(亿元), β 0 为常数变量, β 1 , β 2 , β 3 , β 4 , β 5 , β 6 , β 7 为回归系数,X1为解释变量——市生产总值(亿元),X2为解释变量——国内游客数量(万),X3为解释变量——入境游客数量(万),X4为解释变量——市A级景区数量,X5为解释变量——全国人均可支配收入(元),X6为解释变量——公路通车里程数(公里),X7为解释变量——社会消费品零售总额(亿元),e为其他因素产生的不可控的误差。

3.2. 最小二乘回归,岭回归和LASSO回归

3.2.1. 最小二乘回归 [1]

最小二乘估计也就是最小化残差平方和,使得真实值和估计值之间的残差最小。

对于线性模型

y = X β + e , E ( e ) = 0 , C o v ( e ) = σ 2 I (3)

y是观测向量, β 是系数矩阵,e随机误差使得 Q ( β ) = e 2 = y X β 2 = ( y X β ) ( y X β ) 达到最小,得出回归系数 β 最小二乘估计:

β ^ = ( X T X ) 1 X T y (4)

最小二乘估计是目前性质最好,广泛使用的估计。但是使用最小二乘回归的方法需要有两个条件:一是数据自变量之间不存在多重共线性;二是满足线性回归假设。

1) 多重共线性 [2]

多重共线性是指自变量之间存在着相关性,会对模型提供重复的信息,使设计阵X呈“病态”。多重共线性会导致的问题:a) 模型不稳定,使回归得到错误的结果。b) 会对回归系数的估计值的正负号产生影响,使之与实际不符。处理多重共线性的方法有逐步回归,岭回归和Lasso回归等。

逐步回归适用于样本量较大的数据,而且致力于将显著不高的自变量进行剔除,理论上对多重共线性的消除不敌岭回归和lasso回归。在实际问题的处理当中,数据往往没有理论知识上那么理想,往往是“病态”的数据,此时最小二乘估计的性质不好甚至很坏。岭回归和Lasso回归的提出就是对LS模型加惩罚项进行优化调整。

2) 线性回归假设

误差满足零均值、同方差且互不相关,那么最小二乘估计(OLS)得到的估计参数是最佳的以及无偏的,即满足高斯马尔科夫假设。除此之外还需服从随机误差项服从正态分布和解释变量与随机误差项互不相关的假设。

3.2.2. 岭回归

岭回归是最小化残差平方和加带惩罚项的系数,即求解 [3]

β ^ r i d g e = arg min { i = 1 N ( y i β 0 j = 1 P x i j β j ) 2 + λ j = 1 P β j 2 } (5)

这里, λ 0 ,因为这里加的惩罚项 λ j = 1 P β j 2 = λ β 2 2 ,所以称为L2正则化。

表达岭回归的一个等价方法:

β ^ r i d g e = arg min i = 1 N ( y i β 0 j = 1 P x i j β j ) 2 (6)

受限于 j = 1 P β j 2 s

这里清楚地表达了参数上的量约束。这里式的参数 λ 和式的s之间存在着一一对应的关系。当线性回归模型中有多个变量存在相关性即多重共线性时,一个变量上很大的正系数可能被其相关变量差不多大小的负系数抵消。通过上式在系数上施加一个量的约束,可以避免这种现象发生。

将式写成矩阵的形式:

R S S ( λ ) = ( y X β ) T ( y X β ) + λ β T β (7)

得出岭回归的解为:

β ^ r i d g e = ( X T X + λ I ) 1 X T y (8)

与最小二乘估计的解相比,岭估计是把 X X 换成了 X T X + λ I 。因为当X呈病态时, X X 的特征值至少有一个接近于0,岭估计的解就是将接近于0的程度进行改善。从而打破原来设计阵的多重共线性。但是岭估计虽然可以改善多重共线性和减少了模型的复杂度,但是也存在着缺点,岭估计没有办法将变量进行选择,最后的结果将包含所有的变量。

3.2.3. Lasso回归 [3]

Lasso回归和岭回归相似,但是在惩罚项上加的是L1正则化,即

β ^ l a s s o = arg min { i = 1 N ( y i β 0 j = 1 P x i j β j ) 2 + λ j = 1 P | β j | } (9)

Lasso回归具有如下等价形式:

β ^ l a s s o = arg min i = 1 N ( y i β 0 j = 1 P x i j β j ) 2 (10)

受限于

j = 1 P | β j | t (11)

Lasso回归的约束是的解在 y i 上是非线性的,由于约束的特性,使得t充分小将导致某些系数恰好为0,从而Lasso回归对变量进行了选择。

3.3. 公式

3.3.1. 将数据标准化

因为选取指标之间的单位互不相同,因此为了消除不同变量之间因单位量纲的不同带来的影响,将数据进行标准化,标准化后的数据如表3所示。

Table 3. Standardized data

表3. 标准化后的数据

3.3.2. 用最小二乘法建立多元回归模型

图1建立多元回归初始模型为:

y = 6.92 × 10 6 0.853 x 1 0.1762 x 2 0.006241 x 3 + 1.696 x 4 0.1182 x 5 + 0.4808 x 6 0.01967 x 7 (12)

Figure 1. Least-squares estimation results

图1. 最小二乘估计结果

判定系数R2为0.9965,调整后的判定系数为0.993,说明该回归方程拟合程度较高。F检验P值小于默认的0.05,F检验通过说明该LS建立的回归方程整体是显著的,即至少存在一个解释变量对被解释变量由显著的影响,被解释变量至少依赖其中一个解释变量。但是结果显示了一个非常严重的问题:1) 多个自变量回归系数的正负号与实际预期不符合。2) 7个解释变量只有两个通过了t检验,即只有两个自变量是显著的。所以我们考虑以下会导致该情况发生的问题:

a) 我们所选用的实际数据不符合最小二乘估计所需要满足的假设。

b) 数据中自变量之间存在着严重的多重共线性

3.3.3. 检验是否符合线性回归假设

1) 正态性

图2可知可以看到所有的点都在直线附近,并几乎都落在置信区间内,这表明符合正态性假设。

Figure 2. Least-squares estimation results

图2. 最小二乘估计结果

2) 独立性

图3可知,p值为0.24,通过独立性检验。

Figure 3. Independence test results

图3. 独立性检验结果

3) 线性假设

图4可知,成分残差图可以看出,线性模型对于本文的数据问题是合适的。

4) 同方差性

图5可知P值为0.92486大于0.05,说明误差方差是恒定的。

以上可以看出该模型符合所有线性回归的假设,接下来继续检验是否存在多重共线性。

Figure 4. Linear hypothesis results

图4. 线性假设结果

Figure 5. Results of the homoscedasticity test

图5. 同方差性检验结果

3.3.4. 检验是否存在多重共线性

1) 相关系数矩阵

图6可看出相关系数矩阵能看出,自变量之间存在着很强的相关性,大多数的相关系数达到了0.9将近1。

Figure 6. Correlation matrix

图6. 相关系数矩阵

2) 方差膨胀因子(Vif)

经验判断方法表明:当 0 < VIF < 10 ,不存在多重共线性;当 10 VIF < 100 ,存在较强的多重共线性;当 VIF 100 ,存在严重多重共线性。

Figure 7. VIF

图7. 方差膨胀因子(VIF)

由上图7结果可知,该数据的自变量直接的确存在很严重的多重共线性。

3.3.5. 岭回归和LASSO回归建立模型

由上文做的检验已知,本文所研究的数据自变量之间存在着严重的多重共线性,下面本文将用岭回归和lasso回归消除多重共线性进而进而建立模型研究问题。

1) 选取岭参数做岭回归 [4]

本文选择了0~150的岭参数 λ ,由图8岭迹图可以看出,靠近0处不稳定,只要不接近于0,岭迹图显示的就很稳定。所以对于岭参数的选择不是那么苛刻了,只要不是0都可以。

Figure 8. Ridge map

图8. 岭迹图

下面R语言自动选择岭参数做岭回归估计。

图9可知,自动选择的岭参数为0.01442034,由图10可以看出,与最小二乘估计相比,回归系数的正负号与实际预期相符情况有所改善但仍有不符合的现象,回归系数的显著性也有所改善,但仍旧存在较多不显著的回归系数,这里就暴漏了岭回归的缺点:虽然对于多重共线性的问题有所改善,但是因为岭回归无法进行变量选择,仍然饱含所有自变量,导致多重共线仍然存在,所以下面本文使用Lasso回归来弥补这个缺陷。

Figure 9. Ridge estimates results 2

图9. 岭估计结果2

Figure 10. Ridge estimates results 1

图10. 岭估计结果1

2) Lasso回归

a) 依次选择变量

Figure 11. Lasso regression selection

图11. Lasso回归变量选择

Figure 12. Variable selection under the Lasso regression method

图12. Lasso回归方法下的变量选择

图12表示横轴表示模型回归系数比,右侧纵轴数据表示对应的自变量,左侧纵轴数据表示标准化参数;虚线代表变量,竖线表示惩罚值 [5]。由图11图12结果可知,Lasso回归依次选择的变量为x3、x6、x7、x4、x5、x1、x2,判定系数R2为0.997,拟合程度非常好。

3) Cp值最小原则

图13表示的是Cp值,其值越小越好,图14可以看出,Cp值达到最小是第二步6.5131,用R得出Cp值最小的步数。

Figure 13. Cp price

图13. Cp值

Figure 14. Number of steps selected for the maximum Cp value

图14. Cp值最小时所选取的步数

4) 得出LASSO回归下的变量选择以及回归系数

图15图16得知,变量筛选最后选择出了x3和x6,其对应的回归系数分别为0.8857454和0.1012379,截距为14.80475,由此可得本文研究的多元线性回归模型:

y = 14.80475 + 0.8857454 x 3 + 0.1012379 x 6 (13)

y——旅游总收入,x3为社会消费品零售总额,x6为市绿地面积。

Figure 15. The regression coefficients corresponding to each step of the lasso regression

图15. Lasso回归每一步所对应的回归系数

Figure 16. Calculate the intercept

图16. 计算截距

4. 结论

综合上文所研究可得结论,济南市旅游总收入主要是受社会消费品零售总额和城市绿地面积的影响。针对本文研究和济南市地域特色提出以下建议。

提高社会消费品零售总额。要使济南市社会消费品零售总额提高,就必须提高各行各业的产品和服务质量。和旅游业关系最大的社会消费品就是各景区出售的纪念品,所以加强对景区纪念品的质量把握是非常重要的。近年来,济南市文创产品吸引了很多游客购买,比如在大明湖景区和趵突泉景区等济南市著名景区有售卖济南市特色建筑的雪糕和奶茶,有彰显济南市特色文化的盲盒和纪念品徽章明信片等,这些文创产品做的惟妙惟肖,十分精致和用心,吸引了大批游客购买济南市特色文创产品。在山东博物馆和山东美术馆等,我们还能看到济南传统优美文化与现代相结合,比如传统文化与咖啡文化相碰撞等。济南的历史文化悠久,身处齐鲁大地,是黄河流域的唯一省会,拥有许多物质文化内涵,这为发展文化创意产业奠定了良好的基础。利用这些济南市的特色优势去发展文创产业,这样不仅向更多外地游客传播了济南市的文化底蕴,也提高了社会消费品零售总额,从而拉动济南市旅游业的发展。

增大城市绿地面积,提高城市风貌。城市绿地面积彰显了一个城市的绿化和风景园林的面积,增大城市绿地面积是提高城市生态质量和居民生活质量重要举措,也是使得城市环境和气候等方面提高的重要因素。一个城市的环境与该旅游业息息相关,环境是旅游业的基础,城市风貌提高自然会吸引更多的游客来旅游观光。近年来济南市践行“金山银山就是绿水青山”的绿色发展理念,城市绿地面积有明显的提高,公园数量和街头小花园明显增多,比如济南市主干路经十路的道路周围的绿化和种植的郁金香,每年都有大批人来拍照打卡。不仅如此,济南市夜景的建设也有明显的提高,提升了“一湖一环”主干道、特色街区周边夜景亮化效果,凸显历下名胜之美、建筑之美、人文之美,营造和谐靓丽的泉城夜景氛围。济南市不断治理和改造使得城市环境和空气质量不断提高,提高居民生活质量的同时,彰显了泉城特色,拉动了旅游业的发展。所以继续加强对城市环境的改善,使得城市绿地面积“只增不减”,才能提高济南市的城市风貌,发展和发扬济南市城市文化。

综上所述,城市只有加强自身的建设,推动城市文化旅游高质量,才能促进城市旅游业的发展。除了以上建议,济南市还需要加强城市文化的宣传,利用好当前科技网络的进步,将济南市自身优势发扬出去,所以这就更需要加强景区的建设和服务质量。坚持以人民为中心的发展思想,开启多元化的旅游产业,使得济南这座具有深厚历史文化底蕴的城市被更多国内外游客所喜爱。

参考文献

参考文献

[1] 王松桂, 史建红, 尹素菊. 线性模型理论[M]. 北京: 科学出版社, 2004: 147-183.
[2] 贾俊平. 统计学[M]. 北京: 中国人民大学出版社, 2018: 274-277.
[3] Friedman, J., Hastie, T. and Tibshirani, R. (2009) The Elements of Statisti-cal Learning Data Mining, Inference and Prediction. Springer, New York, 29-53.
[4] 吴喜之. 应用回归及分类——基于R[M]. 北京: 中国人民大学出版社, 2016: 48-54.
[5] 朱海龙, 李萍萍. 基于岭回归和LASSO回归的安徽省财政收入影响因素分析[J]. 江西理工大学学报, 2022, 43(1): 59-65.