1. 引言
部分线性模型自Engle [1] 研究天气与电力的关系时提出后,该模型收到大量学者的关注。相关理论文献特别多,如Shi和Lau [2] 研究了部分线性模型的经验似然估计。Holland [3] 在部分线性模型的背景下提出了一种惩罚B样条估计,建立了模型中参数和非参数分量估计的渐近分布。Florens等 [4] 在协变量是内生变量时,在工具变量存在下提出识别参数的充要条件。Ma等 [5] 在研究超高维函数部分线性模型的分位数回归时提出具有两个非凸惩罚的双惩罚函数分位数目标函数,并且通过两步法选择所涉及的最优调谐参数。Bazrafkan等 [6] 在基于重尾和不对称分布下,在模拟仿真中证明所提的EM型算法在部分线性模型中的有效性。同样,部分线性模型在应用上也特别多,孙志华等 [7] 在研究税收时引入部分线性模型。王琳琳等 [8] 则是研究该模型在贵州省公路货运量预测的应用。主成分分析是一种多变量分析方法,通过降维将原来较多变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要选出几个较少的综合变量,并尽可能多地反映原来变量的信息 [9]。而主成分分析方法的应用也有很多,如虞颖和孟彦菊 [10] 在研究城市空气质量中用主成分对数据进行降维处理。赖志明等 [11] 利用主成分分析法对不同产地的凉粉草中总黄酮、总酚酸、总糖、紫云英苷、迷迭香酸、咖啡酸含量进行评价,验证其含量测定方法。近年来,旅游业作为带动经济发展的重要产业部门,被确定为国民经济的主要增长点之一。在旅游功能占主导地位的旅游城市,旅游业已经成为经济发展的主导产业。其中,入境旅游业作为旅游业的重要组成部分,其所发挥的作用是不可忽视的。入境旅游业的发展既创造了大量外汇收入,提供了更多的就业机会,拉动了产业发展,又体现了区域的竞争力和对外开放程度,因而其也是衡量一个国家或地区旅游业综合实力的关键指标 [12]。吕欣 [13] 和丁丹迪 [14] 在研究影响旅游外汇收入的因素时都采用了多元线性模型,而王佳慧 [15] 利用灰色系统模型去分析山西省旅游服务贸易影响因素。
由于部分线性模型既具有参数模型的灵活性,又具有非参数模型的优点,即能避免维数灾难问题。而且通过分析可以发现通过主成分降维后所得的主成分,旅游外汇收入与其中一个主成分是非线性关系,显然再考虑参数模型对旅游外汇收入就显得不合理。且目前还未有相关文献应用部分线性模型对旅游外汇收入进行研究,因此,本文考虑利用部分线性模型分析贵州旅游外汇收入影响因素。
2. 部分线性模型的估计
部分线性模型的表达形式如下:
(1)
其中
是协变量,
是未知参数向量,
是未知的光滑函数,模型误差
满足
。
在给定T时,对式(1)两边同时取期望得到
(2)
然后由(1)~(2),整理得
令
,
,则可以得到:
(3)
可由最小二乘方法得到参数
的估计,而
和
都是未知的,为了能估计出参数
,分别用它们的核估计
,
代替。其中
是一核函数,取为高斯核即
,带宽
。则参数
的最小二乘估计为:
进一步得到函数
的估计如下:
3. 部分线性模型的应用
3.1. 数据的选取
本文选取的数据来自贵州统计年鉴。由下列指标组成外汇收入来源:长途交通
,游览
,住宿
,餐饮
,商品销售
,娱乐
,邮电通讯
,市内交通
,其他服务
。旅游外汇总收入为
,单位为万美元。
Table 1. Main indicators of foreign exchange income of tourism in Guizhou during 2006~2019
表1. 2006~2019年贵州旅游外汇收入主要指标
3.2. 主成分分析
利用2006~2019年贵州省旅游外汇收入指标
,
,
,
,
,
,
,
,
,单位万美元,数据见表1,基于协方差矩阵进行主成分分析。由表2,可得前三个主成分的累积贡献率为
以及图1主成分碎石图,从而选取前3个主成分进行分析。
Table 2. Principal component variance contribution rate
表2. 主成分方差贡献率
Figure 1. Lithotripsy diagram of principal component analysis
图1. 主成分分析碎石图
根据表3特征向量矩阵知所选取的3个主成分分别为:
进而,我们可以得到2006~2019年贵州旅游外汇收入的三个主成分的值。
3.3. 模型应用
分别做旅游外汇收入值与3个主成分的散点图,见图2~4。
Figure 2. Scatter plot of tourism foreign exchange income and the first principal component
图2. 旅游外汇收入与第1个主成分的散点图
Figure 3. Scatter plot of tourism foreign exchange income and the second principal component
图3. 旅游外汇收入与第2个主成分的散点图
Figure 4. Scatter plot of tourism foreign exchange income and the third principal component
图4. 旅游外汇收入与第3个主成分的散点图
由图2~4可以看出:响应变量与第1个主成分和第2个主成分有着明显的线性关系,而与第3个主成分有明显的非线性关系。所以,可以将第1个主成分和第2个主成分做线性部分的协变量,而把第3个主成分作为非参数部分的协变量.具体的模型形式如下:
其中:Y表示旅游外汇收入总值;
表示第一个主成分;
表示第二个主成分;
表示第三个主成分;
,
表示回归系数;
表示未知函数;
为模型误差。根据本文方法得到参数
,
的估计分别为
,进而可得到函数
的估计为:
,其中
。
所以旅游外汇收入值的预测方程为:
2020年旅游外汇收入的有关数据如下:长途交通
为 ,游览
为 ,住宿
为 ,餐饮
为368.54,商品销售
为415.83,娱乐
为66.91,邮电通讯
为26.3815,市内交通
为134.25,其他服务
为38.21,单位为万美元。根据,可以算出第1主成分为−669.70,第2主成分为323.20,第3主成分为62.61。所以可求得2020年贵州旅游外汇收入的预测值为2227.05万美元,而贵州2020年旅游外汇收入为2110.8万美元,绝对预测误差为1.5%。而利用逐步线性回归方法进行预测,得到2020年贵州旅游外汇收入预测值为2402.826,绝对预测误差为13.8%。因此,在此数据集下,部分线性模型的预测效果由于线性模型。
4. 结束语
本文利用主成分分析方法和部分线性模型对贵州省旅游外汇收入进行研究。主成分分析可以很好地进行降维,从而避免维数灾难的出现,而部分线性模型同时具有参数模型和非参数模型的优点。用拟合后的模型和多元线性回归模型分别对贵州2020年旅游外汇收入值进行预测并分别计算预测值与真实值间的绝对预测误差。部分线性模型所得的绝对预测误差为1.5%,而逐步线性回归方法的绝对预测误差为13.8%。结果表明在此数据集上,部分线性模型效果优于多元线性回归模型的效果。