基于我国民用汽车拥有量的主成分分析
Based on the Principal Component Analysis of Civil Automobile Ownership in China
摘要: 随着我国社会主义现代化的建设蓬勃发展、国民经济良好增长,越来越多人们的买车需求加大。本文基于主成分分析法,对民用汽车拥有量进行定量分析,并对未来民用汽车拥有量进行总体趋势预测。我国民用车辆的拥有量,由量变到质变地影响民用交通规划,使得汽油消耗且大量尾气排除,既消耗不可再生资源又影响空气质量。则根据目前民用汽车拥有量的分析,进行汽车数量控制,制定相适应地环境保护政策,不可再生资源的合理规划。根据未来民用汽车拥有量进行总体趋势预测,可提前做好应对措施。故该分析对民用交通规划、环境保护政策、不可再生资源的合理规划、汽车数量管控,都有着举足轻重的意义。
Abstract: With the vigorous development of China’s socialist modernization construction and the good growth of the national economy, more and more people have increased their demand for cars. Based on the principal component analysis method, this paper quantitatively analyzes the ownership of civil vehicles and predicts the overall trend of future civil automobile ownership. The ownership of civil vehicles in China affects civil transportation planning from quantity to quality, so that gasoline consumption and a large number of exhaust gas are eliminated, which not only consumes non-renewable resources but also affects air quality. According to the current analysis of civil automobile ownership, the number of vehicles is controlled, appropriate environmental protection policies are formulated, and reasonable planning of non-renewable resources is formulated. According to the overall trend forecast of future civilian car ownership, countermeasures can be taken in advance. Therefore, the analysis is of great significance to civil transportation planning, environmental protection policies, rational planning of non-renewable resources, and control of the number of vehicles.
文章引用:金童, 牟唯嫣. 基于我国民用汽车拥有量的主成分分析[J]. 统计学与应用, 2022, 11(5): 1202-1212. https://doi.org/10.12677/SA.2022.115124

1. 引言

随着我国社会主义现代化建设蓬勃发展、国民经济良好增长,越来越多人们的买车需求加大。且汽车产业作为经济发展的不可或缺组成,基于民用汽车拥有量的分析,可进一步对我国总体经济见微知著。此外,该分析对民用交通规划、环境保护政策、不可再生资源的合理规划、汽车数量管控,都有着举足轻重的意义,因此,更多的研究关注到民用汽车拥有量。部分学者对中国民用汽车拥有量及相关经济变量分析。基于Logistic时序模型,对未来民用汽车拥有量进行预测,侧重分析了人口总数、工业增加值、钢材产量和全国居民消费水平与民用汽车拥有量之间的关系 [1]。部分学者运用指数平滑法建立了汽车拥有量预测模型,侧重分析对交通拥堵、环境、能源等问题的加重的影响 [2]。而本文基于主成分分析,是不同的方法进行分析,该方法应用广泛、分析效果良好。且基于线性回归分析进行趋势预测,而线性回归常作为预测手段 [3] [4],预测总体趋势简单又效果良好。

2. 方法

主成分分析是一种类属于多元统计分析的方法,用于分析若干个因素变量间的相关性,通过分析和探究若干个极具代表性的主成分因子来探究多个因素变量之间的内部结构 [5]。主成分因子在不缺失主要信息的情况下,要具有比原始变量具有某些更优越的性能,以达到精简研究原始数据结构且抓住研究问题实质的目的。在多元统计分析中,降维的方法有很多,诸如:聚类分析、主成分分析、因子分析,本文选择主成分分析法进行分析优势显然。该方法应用广泛,可研究城市中主要污染物排放量 [6]、邮政和电信业务量情况 [7] 等。

2.1. 数据描述

本文数据,源自《中国统计年鉴(2021年)》中章节16-20民用汽车拥有量的数据 [8],本文选取其中九个因子进行主成分分析,选取的因子为:大型载客汽车、中型载客汽车、小型载客汽车、微型载客汽车、重型载货汽车、中型载货汽车、轻型载货汽车、微型载货汽车、其他汽车(单位:万辆)。此外,31个省或直辖市为结果分析的描述对象。

2.2. 可行性分析

本文使用SPSS26.0多元统计分析软件分析所用数据。先对9个变量进行球形检验,由表1,可知本论文中的KMO取样适切性量数观测值为0.700,这个值处于0~1区间内,较靠近于1,可以说明用这些指标主成分分析出来的结果是可信的。此外,Bartlett球形检验的p值为0,说明可以用主成分分析法进行数据分析 [9]。

Table 1. Test of KMO and Bartlett

表1. KMO和巴特利特检验

2.3. 模型处理与分析

表2,即公因子方差分析表中,可以看出,本文采取的提取方法为主成分分析法,多数信息提取都大于等于50.4%,总体信息损失较小,其中:大型载客汽车、中型载货汽车、轻型载货汽车、其他汽车的提取程度大于等于70.3%。

Table 2. Common factor variances

表2. 公因子方差

表3,可以认识到1~9个主成分解释原始变量总方差的情况,保留特征根大于1的主成分的基础上。据此,本文保留了两个主成分,这两个主成分集中了原始9个变量信息的68.6%,基本保留了原来9个指标的信息,这样由9个指标转化为2个新指标,达到了降维的目的。此外,亦可由表1:即公因子方差分析表的提取度作平均得到,即(0.955 + 0.472 + 0.573 + 0.540 + 0.658 + 0.736 + 0.873 + 0.483 + 0.877)/9 = 68.6%。保留两个主成分,亦可从图1,即碎石图可以看出,到第三个主成分,直线斜率大大降低,即保留两个主成分是合理的。总体,可见效果较为良好 [8]。

Figure 1. Gravel map

图1. 碎石图

Table 3. Cumulative contribution rate of variance

表3. 方差累积贡献率

表4,即成分矩阵(因子载荷阵)表,可得到基于通过求得的主成分的原始变量标准化系数,则可得到各变量的近似标准化表达式:标准化的大型载客汽车 ≈ 0.977 * (主成分1) + 0.033 * (主成分2);标准化的中型载客汽车 ≈ 0.684 * (主成分1) − 0.070 * (主成分2);标准化的小型载客汽车 ≈ −0.093 * (主成分1) + 0.751 * (主成分2);标准化的微型载客汽车 ≈ −0.083 * (主成分1) − 0.730 * (主成分2);标准化的重型载货汽车 ≈ 0.810 * (主成分1) − 0.055 * (主成分2);标准化的中型载货汽车 ≈ 0.856 * (主成分1) + 0.057 * (主成分2);标准化的轻型载货汽车 ≈ 0.934 * (主成分1) − 0.035 * (主成分2);标准化的微型载货汽车 ≈ 0.681 * (主成分1) + 0.138 * (主成分2);标准化的其他汽车 ≈ 0.935 * (主成分1) − 0.044 * (主成分2)。

Table 4. Composition matrix

表4. 成分矩阵

图2,可看出小型载客汽车、微型载客汽车因子分布在组件1附近,其余因子分布在组件2附近,这与成分矩阵的系数是一致的。

Figure 2. Factor component plot

图2. 因子组件图

表4,并不能直接得到各个主成分用标准化后的原始变量表达的表达式,需要在此基础上,各列除以对应的各列特征根的平方根,由总方差解释表可知,对应的特征根为:5.036、1.132,则可得到表5,即主成分分析的主成分的系数。

Table 5. Coefficients of principal components 1 and 2

表5. 主成分1与2的系数

表5,得到前两个主成分的线性组合为:主成分1 = 0.194 * 标准化的大型载客汽车 + 0.136 * 标准化的中型载客汽车 − 0.018 * 标准化的小型载客汽车 − 0.016 * 标准化的微型载客汽车 + 0.161 * 标准化的重型载货汽车 + 0.170 * 标准化的中型载货汽车 + 0.185 * 标准化的轻型载货汽车 + 0.135 * 标准化的微型载货汽车 + 0.186 * 标准化的其他汽车。主成分2 = 0.029 * 标准化的大型载客汽车 − 0.062 * 标准化的中型载客汽车 − 0.663 * 标准化的小型载客汽车 − 0.645 * 标准化的微型载客汽车 − 0.049 * 标准化的重型载货汽车 + 0.050 * 标准化的中型载货汽车 − 0.031 * 标准化的轻型载货汽车 + 0.122 * 标准化的微型载货汽车 − 0.039 * 标准化的其他汽车。

可以看出:第一主成分的线性组合中大型载客汽车、中型载客汽车、重型载货汽车、中型载货汽车、轻型载货汽车、微型载货汽车、其他汽车,这些变量相当,所以,第一主成分可以看成上述变量的综合变量。第一主成分可以看作中、大型载客汽车与载货车的拥有量,该主成分占比56%,第二主成分可以看作小型载客汽车、微型载客汽车拥有量,该主成分占比12.6%,说明民用汽车中,以家庭或个体为单位的车辆拥有者占比是很大的。基于标准化后的数据,代入到主成分计算公式再除以对应的方差贡献率,可得表6,即主成分得分表,该表按照综合得分进行排序。

Table 6. Principal component score

表6. 主成分得分

可以看出,工业发达地区,民用车拥有量最高,以重庆、山东、江苏为代表;其次是经济发达地区,以上海、北京为例;最后是偏远地区民用车拥有量最少,以广西、内蒙古为典型。虽然经济最为发达的北京、上海、广州并为在前,很大一部分原因在于,北京作为首都,核心作用为经济、政治、文化中心,而非首都功能,近年都在往外地调整。例如,成立雄安新区,且京津冀一体化,河北的民用车拥有量较高,是十分符合政策与实际的。

3. 线性回归预测

通过对已有的2005年~2020年的民用车拥有量进行回归预测,可得下图中,各类民用车的拥有量的未来总趋势。从图3~11,可以看出中、微型载客、载货民用车拥有量均呈现减少的趋势。

Figure 3. Large passenger cars

图3. 大型载客汽车

Figure 4. Medium-sized passenger cars

图4. 中型载客汽车

Figure 5. Small passenger cars

图5. 小型载客汽车

Figure 6. Miniature passenger car

图6. 微型载客汽车

Figure 7. Heavy-duty trucks

图7. 重型载货汽车

Figure 8. Medium-sized trucks

图8. 中型载货汽车

Figure 9. Light trucks

图9. 轻型载货汽车

Figure 10. Miniature trucks

图10. 微型载货汽车

Figure 11. Other cars

图11. 其他汽车

4. 总结

可以看出,工业发达地区,民用车拥有量最高,以重庆、山东、江苏为代表;其次是经济发达地区,以上海、北京为例;最后是偏远地区民用车拥有量最少,以广西、内蒙古为典型。各类民用车的拥有量的未来总趋势,中、微型载客、载货民用车拥有量均呈现减少的趋势,其他类型民用车仍是增长趋势。我国交通规划仍需进一步优化,适应未来更多车辆涌入规划道路。此外,仍需进一步发展新能源,以此缓解车辆增加造成的汽车尾气对环境的污染。大城市的轨道交通的发展,缓解了大城市汽车道路拥堵的情况,未来其他城市可借鉴该做法。

参考文献

[1] 王英, 胡晓华. 中国民用汽车拥有量多层面分析[J]. 海南师范大学学报(自然科学版), 2018, 31(2): 206-210.
[2] 陈永胜, 周林芳. 基于指数平滑法与马尔科夫链的汽车拥有量预测模型[J]. 长春工程学院学报(自然科学版), 2020, 21(1): 124-128.
[3] 刘一鹤, 牟唯嫣, 金童. 线性回归方法在空气质量影响因素分析中的应用[J]. 应用数学进展, 2022, 11(8): 5936-5950.
[4] 曲培元, 赵志斌, 陈浩, 徐东昕, 刘国军. 基于多元线性回归分析方法的汽车油耗(MPG)预测模型[J]. 统计学与应用, 2022, 11(2): 206-215.
[5] 党耀国, 米传民, 钱吴永. 应用多元统计分析[M]. 北京: 清华大学出版社, 2012: 112-146.
[6] 于淼, 金童. 基于主要城市中主要污染物排放量的主成分分析(英文) [J]. 农业科学与技术: 英文版, 2017, 18(7): 1260-1262.
[7] 金童, 牟唯嫣, 贾晓芳, 李泽妤. 基于因子分析法的我国邮政和电信业务量情况分析[J]. 统计学与应用, 2021, 10(6): 989-996.
[8] 国家统计局, 编. 中国统计年鉴2021 [EB/OL]. http://www.stats.gov.cn/tjsj/ndsj/2021/indexch.htm, 2021-09.
[9] 何晓群. 多元统计分析(第四版) [M]. 北京: 中国人学出版社, 2015: 113-127.