部分线性模型在贵州地区旅游外汇收入分析与预测中的应用
Application of Partial Linear Model in the Analysis and Forecast of Tourism Foreign Exchange Income in Guizhou
摘要: 部分线性模型既具有参数模型的灵活性,又能避免维数灾难问题,因此本文考虑用部分线性模型研究贵州地区旅游外汇收入。首先对贵州省2006~2019年旅游外汇收入数据用主成分分析进行降维,用处理后的数据拟合部分线性模型,用拟合后的模型和多元线性回归模型分别对贵州2020年旅游外汇收入值进行预测并分别计算预测值与真实值间的绝对预测误差。部分线性模型所得的绝对预测误差为1.5%,而逐步线性回归方法的绝对预测误差为13.8%。结果表明,本文所用方法优于多元线性回归模型。
Abstract: Partially linear model not only has the flexibility of parameter model, but also can avoid dimen-sional disaster problem. Therefore, this paper considers using partially linear model to study the foreign exchange income of tourism in Guizhou. Firstly, the dimensionality of tourism foreign ex-change income data of Guizhou Province from 2006 to 2019 is reduced by principal component analysis. The processed data are used to fit a partial linear model. The fitted model and multiple linear regression model are used to predict the tourism foreign exchange income of Guizhou Prov-ince in 2020, and the absolute prediction error between the predicted value and the real value is calculated. The absolute prediction error of partially linear model is 1.5%, while the absolute pre-diction error of stepwise linear regression method is 13.8%. The results show that the method is superior to the multiple linear regression model.
文章引用:柏庭引. 部分线性模型在贵州地区旅游外汇收入分析与预测中的应用[J]. 应用数学进展, 2022, 11(10): 6889-6896. https://doi.org/10.12677/AAM.2022.1110730

1. 引言

部分线性模型自Engle [1] 研究天气与电力的关系时提出后,该模型收到大量学者的关注。相关理论文献特别多,如Shi和Lau [2] 研究了部分线性模型的经验似然估计。Holland [3] 在部分线性模型的背景下提出了一种惩罚B样条估计,建立了模型中参数和非参数分量估计的渐近分布。Florens等 [4] 在协变量是内生变量时,在工具变量存在下提出识别参数的充要条件。Ma等 [5] 在研究超高维函数部分线性模型的分位数回归时提出具有两个非凸惩罚的双惩罚函数分位数目标函数,并且通过两步法选择所涉及的最优调谐参数。Bazrafkan等 [6] 在基于重尾和不对称分布下,在模拟仿真中证明所提的EM型算法在部分线性模型中的有效性。同样,部分线性模型在应用上也特别多,孙志华等 [7] 在研究税收时引入部分线性模型。王琳琳等 [8] 则是研究该模型在贵州省公路货运量预测的应用。主成分分析是一种多变量分析方法,通过降维将原来较多变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要选出几个较少的综合变量,并尽可能多地反映原来变量的信息 [9]。而主成分分析方法的应用也有很多,如虞颖和孟彦菊 [10] 在研究城市空气质量中用主成分对数据进行降维处理。赖志明等 [11] 利用主成分分析法对不同产地的凉粉草中总黄酮、总酚酸、总糖、紫云英苷、迷迭香酸、咖啡酸含量进行评价,验证其含量测定方法。近年来,旅游业作为带动经济发展的重要产业部门,被确定为国民经济的主要增长点之一。在旅游功能占主导地位的旅游城市,旅游业已经成为经济发展的主导产业。其中,入境旅游业作为旅游业的重要组成部分,其所发挥的作用是不可忽视的。入境旅游业的发展既创造了大量外汇收入,提供了更多的就业机会,拉动了产业发展,又体现了区域的竞争力和对外开放程度,因而其也是衡量一个国家或地区旅游业综合实力的关键指标 [12]。吕欣 [13] 和丁丹迪 [14] 在研究影响旅游外汇收入的因素时都采用了多元线性模型,而王佳慧 [15] 利用灰色系统模型去分析山西省旅游服务贸易影响因素。

由于部分线性模型既具有参数模型的灵活性,又具有非参数模型的优点,即能避免维数灾难问题。而且通过分析可以发现通过主成分降维后所得的主成分,旅游外汇收入与其中一个主成分是非线性关系,显然再考虑参数模型对旅游外汇收入就显得不合理。且目前还未有相关文献应用部分线性模型对旅游外汇收入进行研究,因此,本文考虑利用部分线性模型分析贵州旅游外汇收入影响因素。

2. 部分线性模型的估计

部分线性模型的表达形式如下:

Y = X T β + g ( T ) + ε (1)

其中 X , T 是协变量, β 是未知参数向量, g ( ) 是未知的光滑函数,模型误差 ε 满足 E ( ε | X , T ) = 0

在给定T时,对式(1)两边同时取期望得到

E ( Y | T ) = E ( X | T ) T β + g ( T ) (2)

然后由(1)~(2),整理得

( Y E ( Y | T ) ) = ( X E ( X | T ) ) T β + ε

Y ˜ = Y E ( Y | T ) X ˜ = X E ( X | T ) ,则可以得到:

Y ˜ = X ˜ T β + ε (3)

可由最小二乘方法得到参数 β 的估计,而 E ( Y | T ) E ( X | T ) 都是未知的,为了能估计出参数 β ,分别用它们的核估计 m ^ y ( T ) = i = 1 n Y i K ( T i T h ) j = 1 n K ( T j T h ) m ^ x ( T ) = i = 1 n X i K ( T i T h ) j = 1 n K ( T j T h ) 代替。其中 K ( ) 是一核函数,取为高斯核即 K ( u ) = 1 2 π e u 2 / 2 ,带宽 h = 1.06 s d ( T ) n 1 / 5 。则参数 β 的最小二乘估计为:

β ^ = ( X ˜ T X ˜ ) 1 X ˜ T Y ˜

进一步得到函数 g ( T ) 的估计如下:

g ^ ( T ) = m ^ y ( T ) m ^ x T ( T ) β .

3. 部分线性模型的应用

3.1. 数据的选取

本文选取的数据来自贵州统计年鉴。由下列指标组成外汇收入来源:长途交通 X 1 ,游览 X 2 ,住宿 X 3 ,餐饮 X 4 ,商品销售 X 5 ,娱乐 X 6 ,邮电通讯 X 7 ,市内交通 X 8 ,其他服务 X 9 。旅游外汇总收入为 Y ,单位为万美元。

Table 1. Main indicators of foreign exchange income of tourism in Guizhou during 2006~2019

表1. 2006~2019年贵州旅游外汇收入主要指标

3.2. 主成分分析

利用2006~2019年贵州省旅游外汇收入指标 X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 ,单位万美元,数据见表1,基于协方差矩阵进行主成分分析。由表2,可得前三个主成分的累积贡献率为 0.9107 以及图1主成分碎石图,从而选取前3个主成分进行分析。

Table 2. Principal component variance contribution rate

表2. 主成分方差贡献率

Figure 1. Lithotripsy diagram of principal component analysis

图1. 主成分分析碎石图

Table 3. Eigenvector matrix

表3. 特征向量矩阵

根据表3特征向量矩阵知所选取的3个主成分分别为:

prin 1 = 0.4398 X 1 0.0536 X 2 0.4636 X 3 0.4522 X 4 + 0.0784 X 5 0.3341 X 6 + 0.2226 X 7 0.4449 X 8 0.1378 X 9

prin 2 = 0.1144 X 1 + 0.5087 X 2 0.0457 X 3 0.0373 X 4 + 0.5433 X 5 + 0.1572 X 6 + 0.4666 X 7 + 0.1159 X 8 + 0.4166 X 9

prin 3 = 0.0817 X 1 0.1984 X 2 + 0.1016 X 3 + 0.1521 X 4 0.1318 X 5 0.7575 X 6 + 0.1119 X 7 + 0.0633 X 8 + 0.5593 X 9

进而,我们可以得到2006~2019年贵州旅游外汇收入的三个主成分的值。

3.3. 模型应用

分别做旅游外汇收入值与3个主成分的散点图,见图2~4。

Figure 2. Scatter plot of tourism foreign exchange income and the first principal component

图2. 旅游外汇收入与第1个主成分的散点图

Figure 3. Scatter plot of tourism foreign exchange income and the second principal component

图3. 旅游外汇收入与第2个主成分的散点图

Figure 4. Scatter plot of tourism foreign exchange income and the third principal component

图4. 旅游外汇收入与第3个主成分的散点图

图2~4可以看出:响应变量与第1个主成分和第2个主成分有着明显的线性关系,而与第3个主成分有明显的非线性关系。所以,可以将第1个主成分和第2个主成分做线性部分的协变量,而把第3个主成分作为非参数部分的协变量.具体的模型形式如下:

Y = X 1 β 1 + X 2 β 2 + g ( T ) + ε , E ( ε | X , T ) = 0.

其中:Y表示旅游外汇收入总值; X 1 表示第一个主成分; X 2 表示第二个主成分; T 表示第三个主成分; β 1 β 2 表示回归系数; g ( ) 表示未知函数; ε 为模型误差。根据本文方法得到参数 β 1 β 2 的估计分别为 2.0074 , 0.9495 ,进而可得到函数 g ( T ) 的估计为: g ^ ( T ) = m ^ y ( T ) m ^ x T β ,其中 β = ( 2.0074 , 0.9495 )

所以旅游外汇收入值的预测方程为:

Y ^ = 2.730 X 1 + 0.9495 X 2 g ^ ( T )

2020年旅游外汇收入的有关数据如下:长途交通 X 1 为 ,游览 X 2 为 ,住宿 X 3 为 ,餐饮 X 4 为368.54,商品销售 X 5 为415.83,娱乐 X 6 为66.91,邮电通讯 X 7 为26.3815,市内交通 X 8 为134.25,其他服务 X 9 为38.21,单位为万美元。根据,可以算出第1主成分为−669.70,第2主成分为323.20,第3主成分为62.61。所以可求得2020年贵州旅游外汇收入的预测值为2227.05万美元,而贵州2020年旅游外汇收入为2110.8万美元,绝对预测误差为1.5%。而利用逐步线性回归方法进行预测,得到2020年贵州旅游外汇收入预测值为2402.826,绝对预测误差为13.8%。因此,在此数据集下,部分线性模型的预测效果由于线性模型。

4. 结束语

本文利用主成分分析方法和部分线性模型对贵州省旅游外汇收入进行研究。主成分分析可以很好地进行降维,从而避免维数灾难的出现,而部分线性模型同时具有参数模型和非参数模型的优点。用拟合后的模型和多元线性回归模型分别对贵州2020年旅游外汇收入值进行预测并分别计算预测值与真实值间的绝对预测误差。部分线性模型所得的绝对预测误差为1.5%,而逐步线性回归方法的绝对预测误差为13.8%。结果表明在此数据集上,部分线性模型效果优于多元线性回归模型的效果。

参考文献

[1] Engle, R.F., Granger, C.W.J., Rice, J. and Weiss, A. (1986) Semiparametric Estimates of the Relation between Weather and Electricity Sales. Journal of the American statistical Association, 81, 310-320.
https://doi.org/10.1080/01621459.1986.10478274
[2] Shi, J. and Lau, T.S. (2000) Empirical Likelihood for Par-tially Linear Models. Journal of Multivariate Analysis, 72, 132-148.
https://doi.org/10.1006/jmva.1999.1866
[3] Holland, A.D. (2017) Penalized Spline Estimation in the Partially Linear Model. Journal of Multivariate Analysis, 153, 211-235.
https://doi.org/10.1016/j.jmva.2016.10.001
[4] Florens, J.P., Johannes, J. and Van Bellegem, S. (2012) Instru-mental Regression in Partially Linear Models. The Econometrics Journal, 15, 304-324.
https://doi.org/10.1111/j.1368-423X.2011.00358.x
[5] Ma, H., Li, T., Zhu, H. and Zhu, Z. (2019) Quantile Re-gression for Functional Partially Linear Model in Ultra-High Dimensions. Computational Statistics & Data Analysis, 129, 135-147.
https://doi.org/10.1016/j.csda.2018.06.005
[6] Bazrafkan, M., Zare, K., Maleki, M. and Khodadi, Z. (2022) Partially Linear Models Based on Heavy-Tailed and Asymmetrical Distributions. Stochastic Environmental Re-search and Risk Assessment, 36, 1243-1253.
https://doi.org/10.1007/s00477-021-02101-1
[7] 孙志华, 刘金祎, 贾超华. 部分线性模型在北京市税收分析和预测中的应用[J]. 数学的实践与认识, 2011, 41(4): 9-13.
[8] 王琳琳, 余孝军, 张实. 部分线性模型在贵州省公路货运量预测中的应用[J]. 数学的实践与认识, 2018, 48(21): 234-240.
[9] 王俊花, 邵林生, 闫建宾, 王瑞钢, 张雪彪, 庞旭, 张沛敏. 基于主成分分析的糯玉米杂交组合农艺性状综合评价[J]. 山西农业科学, 2022, 50(7): 938-944.
[10] 虞颖, 孟彦菊. 中国31个主要城市空气质量的聚类分析和主成分分析[J]. 科技和产业, 2022, 22(5): 246-250.
[11] 赖志明, 宋晓娟, 魏星任, 莫穗芬, 卢晓莹, 曾唯雅, 严萍, 詹若挺. 基于主成分分析的不同产地凉粉草质量评价[J]. 安徽农业科学, 2022, 50(10): 172-176.
[12] 李栩萌, 赵艺. 国际旅游外汇收入的影响因素研究——基于省级面板数据的固定效应分析[J]. 商业经济, 2020(9): 95-97.
https://doi.org/10.19905/j.cnki.syjj1982.2020.09.033
[13] 吕欣. 影响西安旅游外汇收入的多元回归模型[J]. 广西质量监督导报, 2020(4): 204-205.
[14] 丁丹迪. 探究国际旅游外汇收入的影响因素——基于多元线性回归模型的实证分析[J]. 现代营销(学苑版), 2021(6): 60-62.
https://doi.org/10.19932/j.cnki.22-1256/F.2021.06.060
[15] 王佳慧. 山西省旅游服务贸易影响因素研究及发展预测——基于灰色分析的研究[J]. 北方经贸, 2022(5): 150-152.