基于变系数模型的北京市第三产业增加值影响分析
Analysis of the Impact of the Value Added of the Tertiary Industry in Beijing Based on the Variable Coefficient Model
DOI: 10.12677/AAM.2023.1212490, PDF, HTML, XML, 下载: 109  浏览: 148  科研立项经费支持
作者: 李 芸, 胡希泉, 姬凤杰*:塔里木大学,信息工程学院,新疆 阿拉尔
关键词: 第三产业增加值变系数模型核估计主成分分析Value Added of Tertiary Industry Variable-Coefficient Model Kernel Estimation Principal Component Analysis
摘要: 党的二十大报告提出,坚持把发展经济的着力点放在实体经济上,而实体经济是第三产业稳健发展的基础,第三产业特别是生产性服务业可以促进实体经济发展,因此,对第三产业增加值的研究已成为热点,北京市是我国经济中心,其第三产业的发展状况备受关注。本文以分析北京市第三产业增加值的影响为出发点,利用变系数模型和核估计方法,探索第三产业增加值的发展趋势和影响因素。以1995~2020年北京市第三产业增加值以及8个影响指标数据为基础,用主成分分析方法对原始数据降维处理,提取出两个主成分分别将其命名为营运能力指标和发展能力指标。建立两个变系数模型,得出从业人员年末人数、能源消费总量、城镇化率等因素对第三产业增加值具有显著性影响。
Abstract: The report of the 20th National Congress of the Communist Party of China put forward that insisting on the focus of economic development on the real economy, and the real economy is the basis for the steady development of the tertiary industry, the tertiary industry, especially the productive service industry, can promote the development of the real economy, therefore, the study of the added value of the tertiary industry has become a hot spot, Beijing is the center of China’s economy, and the de-velopment of its tertiary industry has attracted much attention. This paper takes the analysis of the impact of the added value of the tertiary industry in Beijing as the starting point, and uses the var-iable coefficient model and nuclear estimation method to explore the development trend and in-fluencing factors of the added value of the tertiary industry. Based on the added value of the ter-tiary industry in Beijing from 1995 to 2020 and the data of eight influencing indicators, the original data were dimensionally reduced by principal component analysis method, and two principal com-ponents were extracted and named as operating capacity indicators and development capacity in-dicators. Two variable coefficient models were established to show that the number of employees at the end of the year, the total energy consumption, the urbanization rate and other factors had a sig-nificant impact on the added value of the tertiary industry.
文章引用:李芸, 胡希泉, 姬凤杰. 基于变系数模型的北京市第三产业增加值影响分析[J]. 应用数学进展, 2023, 12(12): 4987-4997. https://doi.org/10.12677/AAM.2023.1212490

1. 引言

自古以来人类所从事的一系列经济活动,归根结底都是为了满足自身日益增长的物质文化生活需要,因此最具现实意义的经济活动终究是实体经济。发达稳健的实体经济是保持国民经济持续平稳较快发展的主要推动力,任何一个国家都离不开实体经济的健康发展 [1] 。发达稳健的实体经济是第三产业健康发展的前提和基础。只有做大做强实体经济这一国民经济发展的根基才能产生对第三产业的真实需求,从而拉动第三产业尤其是生产性服务业大发展,以稳健的实体经济带动金融等第三产业中的虚忙空济部分大发展,而这种建立在实体经济基础之上的虚拟经济才是健康、适度的虚拟经济 [2] 。

自1978年改革开放以来,我国第三产业取得了巨大的发展,服务体系呈现出完整的形态。第三产业在国民经济中的比重不断增加,其增加值逐年攀升,成为我国经济增长的重要动力 [3] 。因此,第三产业的生产率问题成为各国经济学家竞相探讨和研究的课题。为了更好地推动第三产业的发展和提高其贡献度,研究第三产业的增加值和影响因素成为各国学者和政策制定者的关注焦点。在已开发国家中,第三产业增加值的比重一般都较高,这意味着更多的投入和更高的生产率,这些因素对于经济稳定和持续发展具有十分重要的意义 [4] 。中国作为一个发展中国家,也急需深度探究第三产业增加值的主要影响因素,以加速第三产业的增长和提升整个国家在全球经济中的地位 [5] 。党的二十大报告也提出,坚持把发展经济的着力点放在实体经济上,推进新型工业化,加快建设制造强国、质量强国、航天强国、交通强国、网络强国、数字中国,而实体经济是第三产业稳健发展的基础,第三产业特别是生产性服务业可以促进实体经济发展 [6] 。因此,对第三产业增加值的研究已成为研究的热点,本文基于变系数模型,对北京市第三产业增加值及其影响因素进行实证研究。

半参数模型中的一种非常重要的模型是变系数模型,相比于参数模型而言,它的假设显得更为宽松,有高度的灵活性和解释能力 [7] 。在实际应用中,变系数模型得到了广泛应用。变系数模型可以有效的避免“维数灾难”,成为了一种新的研究多维数据的发展方向 [8] 。1993年,Hastie和Tibshirani [9] 从传统的线性回归模型出发,将系数变为了系数函数,具有结构简单、容易解释等优点。变系数模型其一般形式为:

Y i = β i ( T ) X T + ε i , i = 1 , , n , (1)

其中, X = ( X 1 , , X p ) Τ 是自变量,T是另一个自变量,通常来说T一般为时间, Y i 为因变量, ε i 是随机误差, β i ( T ) 是系数函数。

2. 数据处理

2.1. 数据描述

本文数据来源于北京市统计局,收集了1995~2020年北京市第三产业增加值以及8个影响指标数据,分别为城镇化率(UR)、年末常住人口(PE)、人均道路面积(PC)、人均可支配收入(PD)、从业人员年末人数(NE)、医疗卫生机构(MH)、能源消费总量(TE)、各类学校总数(TN)。

2.2. 主成分分析

在选取主成分之前,先对数据进行分析是否适合进行主成分分析,经过检验得到如下表1所示的结果。

Table 1. KMO test and Bartlett’s test

表1. KMO检验和Bartlett的检验

表1可知,KMO值为0.779,大于0.6,说明变量之间存在相关性,符合主成分分析要求,Bartlett球形检验的结果显示,显著性P值为0.000*** (P < 0.05),水平上呈现显著性,说明数据可以进行主成分分析。

对原始数据进行主成分的提取,可以得到表2总方差解释率,图1为碎石图,可以看出特征根大于1的主成分有两个,分别为6.141、1.177,它们能够解释91.471%的原始数据,能够提供原始数据的大部分信息。

Table 2. Cumulative contribution of variance

表2. 方差解释率

Figure 1. Gravel diagram

图1. 碎石图

因子载荷系数表反映的是各个原始指标在2个主成分上的载荷系数,对主成分解释的依据就在于此,载荷系数越大,越接近于1,该主成分对原始指标的涵盖就越大。

表3因子载荷系数表可以看出第一个主成分上载荷系数较大的有城镇化率、年末常住人口、人均可支配收入、医疗卫生机构、能源消费总量,可以将其命名为营运能力指标,第二个主成分上载荷系数较大的有人均道路面积、从业人员年末人数、各类学校总数,可以将其命名为发展能力指标。

Table 3. Table of factor loading coefficients

表3. 因子载荷系数

通过表4成分矩阵表,计算出成分得分,得出因子公式:

F 1 = 0.1567 × U R + 0.1609 × P E + 0.0279 × P C + 0.1555 × P D 0.1371 × N E + 0.1573 × M H + 0.1621 × T E 0.1328 × T N

F 2 = 0.0514 × U R 0.0261 × P E + 0.7797 × P C 0.0770 × P D + 0.2952 × N E 0.1388 × M H + 0.0087 × T E 0.3554 × T N

由上可以得到: F = ( 0.768 / 0.915 ) × F 1 + ( 0.147 / 0.915 ) × F 2

Table 4. Table of component matrix

表4. 成分矩阵表

最终得出表5前两个主成分为:

Table 5. Table of principal components

表5. 主成分表

3. 基于变系数模型第三产业增加值相关影响因素分析

3.1. ACF检验

ACF (Autocorrelation Function)检验是一种用于检验时间序列数据自相关性的方法。ACF检验的目的就是检验时间序列数据是否为平稳性序列,对于非平稳性序列,则可以采用变系数模型进行分析。

进行ACF检验,从图2的平稳性检验结果可以看出第三产业增加值、城镇化率、年末常住人口、人均道路面积、人均可支配收入、医疗卫生机构、各类学校总数、从业人员年末人数的波动趋势都表现为非平稳性,对于非平稳性序列,可以采用变系数模型进行分析。

Figure 2. ACF test

图2. ACF检验

3.2. ADF检验

ADF检验是平稳性检验(Stationarity Test)中的一种常用方法。具体来说,ADF检验通过比较时间序列数据的单位根特征方程根的值,来评估时间序列数据的平稳性。如果单位根特征方程根的值小于1,则数据比较稳定,是平稳时间序列数据;如果特征方程根的值等于或接近1,则数据相对不稳定,是非平稳时间序列数据。

进行ADF检验,检验该时间序列数据是否平稳,若P < 0.05,则说明该序列是平稳序列,若P > 0.05则说明序列是非平稳序列。基于这12个变量,得到如表6的结果,它们的显著性均大于0.05,水平上不呈现显著性,所以拒绝原假设,均为非平稳的时间序列。ACF和ADF检验均认为该数据为非平稳的时间序列,所以选用变系数模型进行分析是恰当的。

Table 6. ADF test

表6. ADF检验

3.3. 变系数模型

变系数回归模型(1)中由于 β j ( T ) 是可微的,通过泰勒展开有 [10] :

β j ( T ) β j ( t ) + β ( t ) ( T t ) = a j + b j ( T t ) , j = 1 , , p .

其中 β ( t ) β ( t ) 的一阶导数函数,因此,系数函数向量 β ( t ) 的估计值可以通过最小化以下函数得到 [11] :

i = 1 n ρ { y i X i Τ [ a + b ( T i t ) ] } 2 K ( T i t h ) ,

其中 a = β ( t ) b = β ( t ) K ( T i t h ) 是窗宽为 h = 0.5 n 1 3 的核函数,其中n为样本量,本文核函数选用

均匀核进行研究,即

K ( u ) = 1 2 I ( | u | 1 ) .

ρ ( s ) = s 2 是平方损失函数,即:

ρ { y i X i Τ [ a + b ( T i t ) ] } = { y i X i Τ [ a + b ( T i t ) ] } 2 ,

则完整数据下 ( a Τ , b Τ ) Τ 的估计为:

β ˜ n ( t ) = ( a ˜ Τ , b ˜ Τ ) Τ = arg min { i = 1 n ρ { y i X i Τ [ a + b ( T i t ) ] } 2 K ( T i t h ) } .

3.4. 一元变系数模型结果分析

首先建立一元变系数模型,将第一个主成分作为自变量X,第二个主成分作为自变量T,响应变量y为第三产业增加值,建立如下变系数回归模型:

y = X Τ β ( T ) + ε ,

通过分析得到如图3所示的拟合结果,直观上可以看出数据点的分布情况基本都吻合,结果展示出现了两处局部异常值,并且呈现处明显的上下波动趋势。

Figure 3. One-dimensional variable coefficient model fitting plot

图3. 一元变系数模型拟合图

拟合曲线比较符合预期的结果,所以对于所选的数据,运用变系数模型分析是合适的。通过以上情况,变系数模型的精确度基本上符合模型的预期结果,通过这些指标确定变系数模型为最佳模型,拟合曲线反映出了数据之间的相关度较高。

表7给出了第三产业增加值的估计值与真实值,可以看出一元变系数模型下得到的估计值大部分都是符合实际值的,有部分异常。估计值与真实值差距较大在2007~2009年,从业人员年末人数下降幅度比较明显,人力资源是第三产业发展中的重要支撑,从业人员年末人数的增加会促进人力资源的供给,所以从业人员年末人数的下降对第三产业增加值的影响比较显著。

Table 7. Estimated and real value added of the tertiary sector

表7. 第三产业增加值的估计值与真实值

3.5. 二元变系数模型结果分析

将第一个主成分作为自变量x1,第二个主成分作为自变量x2,时间年份作为变量t,响应变量y为第三产业增加值,建立如下二元变系数回归模型:

y i = ( x 1 i ) Τ β 1 ( T i ) + ( x 2 i ) Τ β 2 ( T i ) + ε i , i = 1 , , n

上式中 ε 是随机误差。

与一元变系数模型不同的是,我们加入了变量时间t,城镇化率、从业人员年末人数、人均可支配收入等影响因素都是随着时间变化的,在曲线上具有一致性。从煤矿、石油,再到清洁能源的出现,可持续的发展对绿色环境、居民健康都有提升,很好的促进了第三产业的稳定发展。

通过图4可以看出,加入时间变量t的二元变系数模型同样也可以很好的拟合响应变量,真实值与估计值的曲线基本呈现一致性,更加的说明了变系数模型的合理性。

Figure 4. Binary variable coefficient model fit

图4. 二元变系数模型拟合图

表8给出了模型估计出的值与每一年的第三产业增加值的对比,可以看出基本处于0~5区间内,在2000年之后,城镇化率有4.1%的明显变化,城镇居民的增加,带动了该地区的服务业发展,第三产业增加值有明显的上升趋势。

表9结果显示R2为0.99,接近于1,说明拟合效果很好。两种模型结果对比之后,随着时间的变化,二元变系数模型能够通过城镇化率、人均可支配收入、能源消费总量等影响因素,将第三产业增加值拟合的比较完美。

Table 8. Estimated and real value added of the tertiary sector

表8. 第三产业增加值的估计值与真实值

Table 9. Table of fitting evaluation

表9. 拟合评价表

最后,提出如下假设检验,来检验系数函数是否随着时间变化:

H 0 : β ( T i ) = β VSH 1 : β ( T i ) β ,

其中 β 是一个常数向量,给出系数函数的95%的置信区间,T检验的p值均为0.00。所以,拒绝原假设H0,证明了该模型是变系数模型。

5. 结论

第三产业增加值是GDP中的重要组成部分。它的提高代表着该国或区域的服务业发展情况良好,具有重要的经济和社会意义。经济政策应该注重发展第三产业,提高其产出总值。从业人员年末人数对于第三产业增加值具有显著的影响。从业人员的增加可以提高劳动力资源和服务水平,促进服务业的生产率和市场竞争力的提高,从而产生更多的增加值。同时,失业率增加会直接影响第三产业增加值的下降。

技术进步和创新是提高第三产业增加值的重要手段。通过持续创新和引进新技术,第三产业能够不断提高产出效率和产品质量,从而增加产出总值。也可以预测,未来随着新科技的增加,第三产业占GDP的比重将会更大。

第三产业也需要注重环保方面的考虑。如果第三产业发展不可持续,造成的环境破坏和资源浪费对于人类和经济都是不利的。在强调经济效益的同时,需要注重保护环境和资源利用的可持续性。

基金项目

“塔里木大学校级——校长基金”(项目编号:TDZKSS202231;TDZKSS202247);

“塔里木大学校级一流本科专业——应用统计学”(项目编号:YLZYXJ202211)。

参考文献

NOTES

*通讯作者。

参考文献

[1] 王艳. 基于变系数回归模型的黄金价格预测研究[D]: [硕士学位论文]. 天津: 天津大学, 2010.
[2] 江春玲. 苏州市第三产业发展影响因素的实证分析[J]. 经济视角, 2010(22): 12-14.
[3] 李晴. 南京服务业发展影响因素实证分析[J]. 合作经济与科技, 2010(5): 20-22.
[4] 曾淑婉, 赵晶晶. 城市化对服务业发展的影响机理及其实证研究——基于中国省际数据的动态面板分析[J]. 中央财经大学学报, 2012(6): 60-66.
[5] 韦春花. 基于变系数自回归模型的股价预测研究[D]: [硕士学位论文]. 长沙: 长沙理工大学, 2019.
[6] 王俊超. 变系数面板数据回归模型及其应用研究[D]: [硕士学位论文]. 北京: 华北电力大学(北京), 2017.
[7] 唐鑫. 基于变系数空间自回归模型的PM2.5影响因素研究[D]: [硕士学位论文]. 成都: 西南财经大学, 2021.
[8] 赵为华. 变系数模型变量选择的稳健方法[D]: [硕士学位论文]. 上海: 华东师范大学, 2013.
[9] Hastie, T.J. and Tibshirani, R. (1993) Vary-ing-Coefficient Models. Journal of the Royal Statistical Society: Series B, 55, 757-796.
https://doi.org/10.1111/j.2517-6161.1993.tb01939.x
[10] Fan, C.M. and Tessier-Lavigne, M. (1994) Patterning of Mammalian Somites by Surface Ectoderm and Notochord: Evidence for Sclerotome Induction by a Hedgehog Homolog. Cell, 79, 1175-1186.
https://doi.org/10.1016/0092-8674(94)90009-4
[11] Fan, J. and Zhang, W. (2000) Simultaneous Confidence Bands and Hypothesis Testing in Varying-Coefficient Models. Scandinavian Journal of Statistics, 27, 715-731.
https://doi.org/10.1111/1467-9469.00218