1. 引言
近年来,随着我国经济的不断发展,工业集中、人口众多、化石燃料的过度消耗、废气的排放等原因使得城市空气质量越来越差。空气质量与人们的身体健康息息相关,因此对空气质量的评估成为一项非常有意义的工作。然而影响空气质量的因素多而复杂,只有找到最主要的因素,才可以较好地有目的地解决空气质量问题。《GB3095-2012环境空气质量标准》中规定了二氧化硫(SO2),二氧化氮(NO2),可吸入污染物(PM10),一氧化碳(CO),臭氧(O3),细颗粒物(PM2.5),共6项常规污染物 [1] 。因此,研究这6项常规污染物的分布特征对于提高大气空气质量有着非常重要的意义。杨晓艳 [2] 等人使用模糊评价方法对各地空气质量进行评价;张雨萌 [3] ,陈颖 [4] 等人基于聚类分析对安徽省环境保护评价研究;崔上书 [5] 、魏臻 [6] 等人基于主成分分析法对空气质量进行研究。本文借助SPSS软件对来源于2021年《中国统计年鉴》 [7] 31个主要城市的空气质量数据进行统计分析。首先,对各个指标数据标准化之后进行聚类分析;其次,用主成分分析法分析城市环境最主要的影响因素;再次,利用因子分析进行综合评价及排序;最后根据实验结果对不同类别的城市提出对城市环境保护方面的建议。
2. 实证分析
2.1. 数据来源
本文数据来源于2021年《中国统计年鉴》 [7] ,包含全国31个城市的二级天数,以及6个空气污染影响因素,且该组数据没有任何离群值和缺失值。
2.2. 聚类分析
聚类分析是一种无监督的学习算法。聚类分析将个体或对象分类,使得同一类的对象之间的相似性比与其他类的对象的相似性更强。其目的在于使类内距离最小化,类间距离最大化。当对样本进行聚类时,“靠近”往往用某种距离来刻画。最常见的距离有:绝对值距离;欧式距离;Minkowski距离等,而不同聚类方法的结果不完全相同。
2.2.1. 数据标准化
为了研究中国主要城市的空气质量情况。现选取6项常规污染物,分别为:二氧化硫(SO2),二氧化氮(NO2),可吸入污染物(PM10),一氧化碳(CO),臭氧(O3),细颗粒物(PM2.5)。由于六个因素的量纲差别比较大,因此在进行聚类分析时,我们需要对数据进行标准化处理。标准化公式为 [4] :
其中
为为标准化后第i个城市第j个因素;
为原始数据第i个城市第j个因素;
为第j个因素的二级标准值(见表1)。当
时,说明该污染物的含量超标。
2.2.2. 类平均法
我们可以根据类与类之间不同的距离的定义,得到不同的系统聚类方法。例如:最短距离法,最长距离法,类平均法,K-均值聚类法等。本文通过类平均法将31个主要城市进行分类。类平均法是聚类效

Table 1. Secondary standards for each indicator (unit: μg/m3)
表1. 各指标二级标准(单位:μg/m3)
果较好、应用比较广泛的一种聚类方法。本文通过SPSS,根据树状图(见图1),选择类数为4,得到以下聚类结果。
第一类:合肥、重庆、武汉、杭州、南京、上海、广州、南昌、成都、长沙、北京、长春、哈尔滨;
第二类:沈阳、银川、兰州、呼和浩特、西宁、乌鲁木齐;
第三类:石家庄、太原、天津、济南、西安、郑州;
第四类:南宁、昆明、贵阳、福州、拉萨、海口。
2.3. 因子分析模型的建立
因子分析是由英国心理学家Spearman提出的,最初成功地解决了智力测验得分的统计分析,长期以来,因子分析理论和方法不断发展,并在其他领域被广泛应用。因子分析可以看成主成分分析的推广,它也是多元统计分析中常用的一种降维方式。由于因子分析进行了因子旋转,将主成分转换成因子,从而能够更合理的在某些方面解决问题。
2.3.1. 相关性分析
相关性分析是指研究两种或者两种以上的变量之间相关关系的统计分析方法。Pearson相关性分析是其中的方法之一。本文通过对全国31个主要城市的二级天数与空气污染物进行Pearson相关性分析,得到相关系数并绘制如下热力图(见图2)。我们最终选取的相关系数是数理统计中最常用的相关性分析方法之一,代表了两个变量间的关联性。关联性越高,二者可映射性越强。

Figure 2. Secondary days and air pollutant heat map
图2. 二级天数与空气污染物热力图
根据热力图中不同方块颜色对应的相关系数的大小,可以判断出变量之间相关性的大小。通过热力图可以发现,所有污染物变量都与二级天数呈负相关。其中,PM2.5,PM10,O3与二级天数存在较强的相关关系,分别为−0.919,−0.895,−0.811,因此这三种污染物对空气污染的影响较大。此外,PM2.5和PM10与其他污染物之间(SO2除外)都存在较强的相关性。而SO2与CO有较强的相关性。我们最终选取的相关系数是数理统计中最常用的相关性分析方法之一,代表了两个变量间的关联性。
为了进一步了解各个污染物对空气质量的影响,我们建立因子分析模型。
2.3.2. 因子提取
在因子分析之前,我们需要判断对数据进行因子分析是否合适,一般我们通过了解变量之间的相关性来实现。KMO检验和Bartlett球形检验是常用的判断方法之一。通过SPSS,我们得到如下结果:

Table 2. KMO and Bartlett sphericity test
表2. KMO和Bartlett球形检验
由KMO检验和Bartlett球形检验(见表2)可知,KMO统计量为0.795 > 0.7,且在0.01的显著性水平假设下,显著性p值为0.000 < 0.01,球形检验拒绝相关阵为单位阵的原假设,说明原始变量间具有较强的相关性,因此我们的数据适合做因子分析并且可以通过因子分析得到较好的效果。
接下来,我们通过主成分分析来导出样本的主要因子。其基本思想就是在保留原始尽可能多的信息的前提下进行降维,从而选取影响空气质量的主要因素。

Table 3. Initial eigenvalue, factor contribution rate, and cumulative contribution rate
表3. 初始特征值和因子贡献率及累计贡献率
为了正确判断因子提取个数,通过因子的特征值大于1且累计方差贡献率大于80%的原则,我们根据初始特征值和因子贡献率及累计贡献率(见表3),提取特征值分别为3.942和1.130的两个公因子,其中因子1解释了65.708%的方差,因子2解释了18.832%的方差,其累计方差贡献率达到了84.540%。因此,提取因子1和因子2,原有变量的信息丢失较少,说明这个两个因子可以代表原来的六个变量研究空气质量,从而得到较为理想的分析结果。为了进一步说明提取两个因子的可行性,我们通过绘制了如上碎石图。
碎石图(见图3)直观地展现了前两个因子的特征值都比较大,但从第三个因子开始,碎石图中的曲线变化趋于平稳,故提取两个因子基本提取了样本所包含的信息。
2.3.3. 求因子载荷矩阵
为了方便解释公共因子的实际意义,旋转载荷矩阵表中给出了方差最大化正交旋转后的因子载荷。

Table 4. Rotated component matrix
表4. 旋转后的因子载荷矩阵
从因子载荷矩阵表中(见表4)可以看出,第一个因子在O3,NO2,PM2.5,PM10这四个指标有较高的载荷量,其中O3影响最大。近地面大多数O3是由人为排放的污染物在高温光照条件下二次转化形成的,说明我国存在一定的光污染。第二个因子主要由SO2,CO决定的,且SO2影响最大。在实际生活中,SO2主要是在燃烧和工业生产过程中产生的。因此,第因子1主要反映我国在城市化进程中伴随着光污染;因子2主要反映了我国在经济发展过程中,工业排放的废弃和粉尘对环境有着不可忽视的影响。
2.3.4. 计算因子得分
在建立了关于空气影响因素的因子模型后,我们希望知道各个城市的空气质量情况,如哪些城市空气质量好,哪些城市空气质量一般,哪些城市空气质量较差。因此,我们需要计算因子得分。即公共因子在每个城市上的得分。首先,我们采用回归分析方法估计得分系数矩阵,得到旋转后的因子得分矩阵,见表5。

Table 5. Component score coefficient matrix
表5. 旋转后因子得分系数矩阵
我们根据旋转后因子得分系数矩阵得到如下两个公共因子关于标准化原始变量的系数表达式:
其中
和
分别表示公共因子1和公共因子2通过线性组合得到的新的一组公共因子。此外,我们通过两个公共因子的方差贡献率占这两个因子总方差贡献率的比重作为权重进行加权,得到计算每个城市的综合得分模型。其计算公式为:
其中0.4611为因子1的特征值贡献率,0.3842为因子2的特征值贡献率,0.8453为因子1和因子2的累计贡献率。最后,利用上述公式计算每个城市的因子得分。首先我们通过散点图直观地展示不同城市的因子得分情况。
由因子得分散点图(见图4)可知,石家庄和太原这两个城市在因子1和因子2上得分较大,说明这两个城市空气污染最为严重;海口在因子1和因子2上得分最低,说明海口的空气质量最好。最后,我们给出各个城市的因子得分结果(见表6),并根据总得分从大到小进行排序。
分数越高,空气质量越差;反之,空气质量越好。从各城市公共因子得分和综合因子得分(见表6)可以清楚地看到,太原、石家庄、济南这三个城市空气重量较差;海口、拉萨、福州这三个城市空气质量较好。

Table 6. Public factor scores and comprehensive factor scores of each city
表6. 各城市公共因子得分和综合因子得分
3. 结论与建议
本文利用6个空气质量影响因素的指标,通过类平均法将31个主要城市分为了4大类,并采用因子分析法对我国主要城市空气质量进行了评价。结合上述研究,本文将给出针对由类平均法所划分的不同类型的城市改善空气质量的建议。
第一类:合肥、重庆、武汉、杭州、南京、上海、广州、南昌、成都、长沙、北京、长春、哈尔滨。通过因子得分表(见表6),我们可以看到这些城市的因子得分均小于0.015,且排名位于中等水平。从地理位置上分析,这些城市多位于我国经济发达地区,第三产业占比较大,工业污染物较少。除此之外,这些地区植被覆盖率高,空气湿度大,植物对空气的净化作用也一定程度上改善了当地的环境。但由于经济发达和人口众多,大量汽车尾气的排放导致了空气质量的下降。因此要坚持产业结构的调整,改善居民的出行习惯,发展新能源电车,从而达到改善空气质量的目的。
第二类:沈阳、银川、兰州、呼和浩特、西宁、乌鲁木齐。通过因子得分表(见表6),我们可以看到这些城市的因子得分均大于0,综合排名靠前,空气污染较为严重。从地理位置上看,这些城市均位于我国东北和西北地区,这些地区受到自然环境的限制,植被覆盖率低,荒漠化严重,易发生沙尘暴等自然灾害,导致空气中的PM2.5,PM10等空气污染物含量大幅上升。除此之外,这些城市冬天对煤炭供暖的需求大,煤炭在燃烧过程中所产生的SO2会严重污染大气环境。因此需要合理开发草原和森林,通过防沙固林,强化生态保护和修复等方式来降低空气污染带来的影响。
第三类:石家庄、太原、天津、济南、西安、郑州。通过因子得分表(见表6),我们可以看到这些城市的因子得分均大于0.7,综合排名位于主要城市的前列,空气污染十分严重。从地理位置上看,这些城市均位于我国北方地区,主要位于京津冀辐射城市。这些城市受到了京津冀地区的第二产业转移的影响,受到工业化发展过程中的废弃物影响较大。同时这些城市的绿化覆盖率不高,空气净化过程较慢。因此,政府需积极践行清洁能源环保发展战略,引进高新技术,淘汰落后产能,加快区域工业结构的转型和升级。
第四类:南宁、昆明、贵阳、福州、拉萨、海口。通过因子得分表(见表6),我们可以看到这些城市的因子得分小于−0.9,综合排名位于主要城市的最后,空气污染最少。从地理位置上看,这些城市均位于我国南部地区,以第一产业和第三产业为主,旅游业丰富,城市绿化覆盖率高,是中国的天然氧吧。受到自然环境的影响,常年温和多雨净化了空气中的粉尘等污染物。此外,这些地区城市人口少,第二产业占比少,工业污染和生活污染程度较少,因此空气质量最好。