1. 引言
能见度是表征大气透明状况的物理量。在民航飞行中,飞机起飞和着陆对能见度的依赖性极高,只有足够的能见度才能让飞机安全降落。低能见度天气是造成民航事故、影响飞行不正常的主要因素之一。低能见度天气一直是航空气象科研工作和服务的重点 [1] 。
近年来,国内外学者已经做了不少关于能见度的研究,谢超等 [2] 使用神经网络模型研究了华南低能见度天气。王楠等 [3] 使用EC数据建立了SVM低能见度预测模型,发现模型对于特定天气形势下引发的低能见度天气预报误差较小且预报提前量较大。司林青 [4] 基于BP神经网络方法分类训练了3个统计模型并与WRF天气模式产品对接,采用分类筛选法研发了龙洞堡机场24 h时效的逐时能见度预报产品,结果表明研究效果较好。
从低能见度产生条件可知,气溶胶粒子对低能见度的产生和演变规律也是不可忽略的。首先,气溶胶粒子作为凝结核对大气中的水汽凝聚起着重要作用;其次,不同气溶胶对太阳光的散射和吸收作用会使得环境温度变化,从而间接影响能见度的变化。气溶胶种类多样,可分为矿物气溶胶、碳气溶胶(黑碳和有机碳)、硫酸盐、硝酸盐、铵盐、海盐和生物气溶胶等,不同化学组分下的气溶胶对天气的影响有所不同 [5] 。而上述气溶胶的直接监测数据缺乏,但可以通过追踪气溶胶前体物NO2、CO、SO2以及O3、PM2.5、PM10等环境污染物的演变来表征空气中气溶胶特性及含量的变化。因此,在本次能见度变化研究中加入了环境污染物的贡献,这对研究效果可能会有一定的提升。
随机森林算法由Breiman Leo [6] 和Adele Cutler等 [7] 提出,该算法结合了Breiman的“Bootstrap Aggregating”(自举汇聚法)思想和Ho [8] 的“Random Subspace”(随机子空间)方法。随机森林算法是基于决策树的集成学习算法 [9] ,决策树是一种广泛应用的树状分类器,在树的节点上,通过选择最优的特征不断对目标进行分类,当达到分类最优时将会停止对树进行分类,并得到分类结果。但是单个决策树对目标预测性能有限,为了改善单个决策树的预测性能,将多个决策树集合起来,通过对每个决策树的分类结果进行组合,就形成了多个决策树组成的随机森林。随机森林的建立能够提升模型的预测精度和泛化能力,避免出现过拟合现象。佘星源等 [10] 使用随机森林算法建立低能见度天气等级判断模型,对比发现随机森林在准确度和计算效率方面较其他模型均有一定优势。付旭东等 [11] 通过构建随机森林1~6 h风场预报模型,表明随机森林算法在风场预报中有较好的泛化能力,对地面10米风场有较好的预报水平。朱国栋等 [12] 结合不同数量的决策树进行模型训练后,研究建立基于随机森林方法的乌鲁木齐机场逐时温度回归预报模型,预测效果较好。徐敏辉等 [13] 通过建立随机森林回归模型,对低RVR的大雾过程进行拟合,发现背景光亮度、相对湿度、低云高、温度对RVR的影响较大,随机森林回归模型的测试机相关系数大0.886,说明其具备较好的学习能力和较优的拟合效果。
贵阳龙洞堡机场位于中国贵州省贵阳市东郊,坐标为(106.7988˚E, 26.5438˚N),海拔高度1139米,地处云贵高原东麓,其复杂的地形条件导致能见度预报变得尤为困难。本文利用机器学习随机森林算法对贵阳机场气象要素变化和环境污染物变化共同作用下的能见度变化特征进行预测研究,并利用HYSPLIT后向轨迹模式计算贵阳机场近地面气团的来源问题,这一工作为贵阳龙洞堡机场能见度的预报、预警工作提供一定参考和指导。
2. 数据与方法
2.1. 数据
贵阳龙洞堡国际机场2017年1月至12月地面常规观测逐小时数据,包括风速(Sp)、温度(T)、露点(Td)、相对湿度(RH)、场面气压(QFE)等。
贵阳龙洞堡机场常规观测数据中缺乏环境污染物数据,选用距离贵阳机场最近的新华路站点(1446A)数据代表贵阳机场环境污染物,本次研究选取2017年1月至12月近地面环境污染物逐小时数据,变量包括PM10、PM2.5、SO2、NO2、CO、O3等。环境污染物每小时数据可在如下网址查看: https://www.zq12369.com/?city=%E8%B4%B5%E9%98%B3&tab=city。
HYSPLIT模式由美国国家海洋和大气管理局(NOAA)的空气资源实验室以及澳大利亚气象局联合研发的一种用于计算和分析大气污染物输送、扩散轨迹的专业模型。模式模拟主要有后向传输模型和前向扩散模型,本文中使用了其后向传输模型,对贵阳龙洞堡机场近地面层上气团的来源进行确定。拉格朗日后向轨迹模式(HYSPLIT)采用的气象资料来源于美国国家环境预报中心(National Centers for Environmental Prediction,NCEP)提供的同时段GDAS (global data assimilation system)数据,该数据是利用全球资料同化系统,把全球1˚ × 1˚大气状态数据插值到正形投影的地图上,时间分辨率为6 h (记录时间分别为00:00, 06:00, 12:00和18:00 (UTC)),垂直方向分为23层。其中气象要素场包括水平和垂直风速、温度、气压、相对湿度、降水等。本文选取位于贵阳龙洞堡机场所在点位(26.54˚N, 106.80˚E)为受点位置。
本文所涉及的时间均为北京时。
2.2. 方法
2.2.1. 随机森林算法
随机森林算法是一种非线性统计集成算法,由多科分类与回归决策树组成,是一种基于决策树算法改进的高级算法,它的本质属于机器学习中的集成学习。该算法采用随机的方式建立一个森林,里面有很多的决策树,每一棵决策树之间是没有关联的。当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行预测,得到该样本的类别预测结果。最终,森林中所有树的预测结果是哪一类的最多,就作为最终预测结果。
本文在构建随机森林模型时,首先从观测数据集中能见度低于3000的样本中随机抽取270个样本生成训练集,在此基础上生成决策树,多个决策树共同构成随机森林。在模型中,假设共有M个训练指标,系统随机选取m个(m ≤ M)作为节点指标,选取基尼最小值当作分支标准,依照决策树的预测结果,以投票方式决定新样本的类别 [14] 。每次抽样未被选中的数据构成了袋外数据(OOB),利用袋外数据估计内部误差,称为袋外误差(EOOB),公式如下:
(1)
式(1)中:n为OOB的样本个数;
为根据给定样本Xi基于模型的输出数据;Yi为观测数据。
此外,该模型通过对算法中OOB误差的估计评价特性变量的重要性。先计算每个决策树的袋外误差,然后在对训练指标的数据随机中加入噪声并计算袋外误差,预测指标的重要性公式如下:
(2)
式(2)中改变指标i造成的袋外误差EOOB2越大,表明变量i越重要 [15] 。
为了检验随机森林模型的回归预测效果是否可行,将贵阳机场的观测能见度数据作为真实能见度数据,选取皮尔逊相关系数R作为检验指标,R值越高,表示模型预测能见度变化效果越好。
随机森林算法是一种很灵活实用的方法,它有如下优点:
1) 在当前所有算法中,具有较好的准确率;
2) 能够有效运行在大数据集上,训练速度快,容易做成并行方法;
3) 能够处理具有高维特征的输入样本,并且不需要降维;
4) 能够评估各个特征在分类问题上的重要性;
5) 在生成过程中,能够获取到内部生成误差的一种无偏估计;
6) 对于缺省值问题也能够获得很好的结果;
7) 既能处理离散型数据,也能处理连续型数据,数据集无需标准化。
2.2.2. HYSPLIT模式
HYSPLIT模型属于Eulerian-Lagrangian混合型的扩散模式,其平流和扩散计算采用了Lagrangian法。该模式采用地形σ坐标,气象数据在水平坐标上保持其原来格式,而垂直方向内插到地形σ坐标系统:
(3)
式(3)中:Ztop为轨迹模式坐标的顶部,Zgl为地形高度,Zmst为坐标下边界高度。计算气团所携带粒子运动轨迹时,其最终位置由初始位置(Q)和后推位置(
)的平均速率计算得到:
(4)
式(4)中:
为后推的时间步长,本研究中
取12小时。
2.2.3. 聚类分析
利用HYSPLIT模式对2017年1月至12月贵阳龙洞堡机场近地面气团12小时后向轨迹进行大量计算,得到共1336个后向轨迹结果,采用聚类分析方法(略)对上述后向轨迹结果进行分类得到不同类别并进行分析。
3. 能见度变化的客观预报
考虑贵阳机场能见度低于3000米后会对航班存在一定的影响,因此,针对2017年1月至12月的数据,筛选出能见度小于3000米的小时能见度数据和同期的气象观测数据以及环境污染物数据,共得到294个样本数据,每个样本数据包括风速、温度、露点、相对湿度、场面气压、SO2、NO2、CO、O3、PM10、PM2.5以及能见度数据。随机选择270个样本作为随机森林算法模型的训练集,并对随机森林模型进行训练,剩余的24个样本数据作为测试集。
研究中,决策树数目设置为100,叶子树设为5。图1为随机森林预测误差曲线图,横坐标为决策树数目,纵坐标为误差值,决策树数目较少时,计算误差较大,最大误差可达0.052,波动也较大。随着决策树数目的增多,误差迅速减小,并趋于稳定,决策树达到100时,其误差分布在0.035左右。

Figure 1. Random forest prediction error curve
图1. 随机森林预测误差曲线图
经过270个样本数据进行训练后,将剩余的24个样本数据作为测试集输入随机森林模型,得到24个能见度的预测值,将预测值与真实值进行对比,绘制如图2。通过分析预测值与真实值差异可知,随机森林预测值序列与真实值序列相关系数达0.80,通过99%的显著性检验,说明随机森林算法在能见度变化趋势上预测效果较好。从具体数值上分析,预测值相比真实值较为保守,例如第5个时次真实值为300米,但预测值为707米;第20个时次真实值为400米,但预测值为1002米;第12个时次真实值为2800米,但预测值为2058米。说明在精度上还存在些许不足。但总体上可以认为随机森林算法对贵阳机场能见度的预测结果较为可信。

Figure 2. Prediction results of visibility change of Guiyang Airport by Random Forest algorithm. The abscissa represents 24 predicted sample values, and the ordinate represents the corresponding predicted results. The red line is the true value and the blue line is the predicted value
图2. 随机森林算法对贵阳机场能见度变化的预测结果。横坐标表示24个预测样本值,纵坐标表示相对应的预测结果。红线表示真实值,蓝线表示预测值
通过随机森林算法输出的因素重要性数据绘图,见图3。从因素重要性上分析可知,随机森林算法对贵阳机场能见度的预测算法中,所有因素对随机森林预测的准确度影响占比有所不同,其重要性从大到小可列为:O3 > QFE > T > Td > Sp > CO > RH > NO2 > PM2.5 > PM10 > SO2。其中近地面臭氧重要性最高,系数可达约1.4,而硫酸盐气溶胶前体物SO2的重要性最低,仅约为0.2。这也说明了随机森林算法预测的能见度数值变化对SO2浓度敏感性较低,而对O3浓度的变化敏感性较高。经研究发现,大气中PM2.5浓度显著下降时,会导致光辐射增强,有利于臭氧生成,因此臭氧的浓度变化在一定程度上可以反应大气中气溶胶的浓度变化。

Figure 3. Importance of factors. Ordinate lists the influence characteristic values
图3. 因素重要性,纵坐标列出了各影响特征值
总结上述研究可知,通过随机森林算法预测能见度值的研究发现,该算法通过引入机场风速、气温、水汽条件以及环境污染物O3、CO、NO2、PM2.5、PM10以及SO2等气象要素(见表1)可以较好得对机场能见度变化特征进行预测,同时也发现上述环境污染物均对贵阳龙洞堡机场能见度的预测结果产生一定程度的影响。

Table 1. Variable factors affecting visibility
表1. 影响能见度的变量因子
4. 近地面污染物浓度特征分析
研究贵阳机场环境污染物的变化特征对预测能见度的变化研究存在一定意义。图4截取了贵阳市环境污染物站点分布图,新华路站点位于贵阳机场西北侧,其观测数据特征可近似代表贵阳机场环境特征。O3、NO2、PM2.5、SO2、PM10、CO等环境污染物的日变化特征见图5。分析可知,O3在一天中的午后至傍晚时分浓度最高,最高值达81 μg/m3,其余时间浓度较低,上午8点左右浓度最低,约为37 μg/m3;NO2在一天中的上午6点和下午15点出现浓度最低极值,最低约为21 μg/m3,夜间的浓度较高,约为37.6 μg/m3;PM2.5粒子浓度在夜间分布较高,极大值为41.4 μg/m3,白天分布较低,极小值为30.5 μg/m3;SO2浓度分布特征与NO2较为相似,夜间和中午的浓度较高,而上午和下午的浓度较低,极大值约为14.8 μg/m3,极小值约为9.4 μg/m3;PM10粒子浓度分布特征与PM2.5较为相似,极大值68 μg/m3,分布在1点,极小值50 μg/m3,分布在15点;CO的浓度变化波动相对较小,5点~7点以及14点~17点浓度较低,极小值约为0.62 mg/m3,极大值0.77 mg/m3,出现在22点。

Figure 4. Distribution of environmental pollutant sites in Guiyang
图4. 贵阳市环境污染物站点分布

Figure 5. Diurnal variation characteristics of environmental pollutants, and the abscissa represents Beijing time. (a) O3; (b) NO2; (c) PM2.5; (d) SO2; (e) PM10; (f) CO
图5. 环境污染物日变化特征,横坐标表示北京时间。(a) O3;(b) NO2;(c) PM2.5;(d) SO2;(e) PM10;(f) CO
O3、NO2、PM2.5、SO2、PM10、CO等环境污染物的月变化特征见图6。分析可知,O3浓度大值区出现在4月~5月,极大值约为86 μg/m3,浓度小值区出现在11月、12月以及1月,极小值约为40 μg/m3;NO2浓度大值区出现在3月、11月和12月,极大值约为39.2 μg/m3,浓度小值区分布在5月~10月,极小值约为22.3 μg/m3;PM2.5粒子浓度大值区分布在1~3月以及11~12月,极大值约为54.3 μg/m3,浓度小值区分布在5月~10月,极小值约为20.5 μg/m3;SO2浓度大值区分布在1~2月和11~12月,极大值约为27.3 μg/m3,浓度小值区分布在3~10月,极小值约为5.4 μg/m3;PM10粒子浓度大值区分布在1~3月以及11~12月,极大值约为95.5 μg/m3,浓度小值区分布在6~10月,极小值约为33.8 μg/m3;CO浓度大值区分布在1~3月,极大值约为1.05 mg/m3,浓度小值区分布在4~10月,极小值约为0.52 mg/m3。

Figure 6. Monthly variation characteristics of environmental pollutants, with the abscissa representing January to December. (a) O3; (b) NO2; (c) PM2.5; (d) SO2; (e) PM10; (f) CO
图6. 环境污染物月变化特征,横坐标表示1~12月。(a) O3;(b) NO2;(c) PM2.5;(d) SO2;(e) PM10;(f) CO
5. 贵阳机场近地面气团来源分析
利用HYSPLIT后向轨迹模式对贵阳机场近地面气团进行来源确定,高度设置为50米,计算12小时后向轨迹,每6小时计算一次后向轨迹,得到1336条轨迹,利用聚类分析方法将轨迹集合按照来向最佳条件可分为6类。图7即为2017年贵阳机场HYSPLIT后向轨迹聚类分析结果,由图可知贵阳机场近地面的气团有2%来自机场西北方向、25%来自机场偏北方向、11%来自机场东北方向、24%来自机场偏东方向、21%来自机场东南方向以及17%来自机场偏南方向。进一步分析可知,来自偏北、偏东、东南以及偏南方向的气流占比较多,因此在进行预测研究时考虑上述方向上游的气象条件以及污染物浓度分布情况对预测效果存在一定的作用。
6. 结论
本文利用2017年贵阳龙洞堡国际机场常规观测数据以及同期贵阳市新华路站点(1446A)环境污染物

Figure 7. Cluster diagram of HYSPLIT model 12-hour backward trajectory of Guiyang Airport from January to December 2017. The black five-pointed star represents the longitude and latitude coordinate position of Guiyang, and different lines represent different source tracks
图7. 2017年1月~12月贵阳机场的HYSPLIT模式12小时后向轨迹聚类图。黑色五角星表示贵阳经纬度坐标位置,不同线条表示不同的来源轨迹
数据,挑选影响能见度变化的变量因子作为输入数据集,采用机器学习随机森林算法对低能见度的变化进行预测分析。由于环境污染物对低能见度变化起到重要作用,进一步研究了各环境污染物的日变化特征和月变化特征。最后,利用HYSPLIT模式确定了机场近地面50米高度上气团的来源,这一研究有助于了解机场气象要素以及环境污染物的来源地。结论如下:
1) 随机森林预测值序列与真实值序列相关系数达0.80,通过99%的显著性检验,说明随机森林算法在能见度变化趋势上预测效果较好,但预测值相对较为保守,在精度上还存在些许不足。总体上可以认为随机森林算法对贵阳机场能见度的变化预测效果较好。
2) 从随机森林算法输出变量重要性中可以看出,环境污染物的影响占比较大,其中近地面臭氧浓度变化对能见度变化的敏感性最高,说明低能见度数值的变化不仅仅是与温度、水汽等有关,还与近地面臭氧,PM2.5等密切相关。
3) 各环境污染物日变化和月变化特征均有所不同,浓度大值区和小值区的分布时段存在差异,因此造成的影响也有所不同。
贵阳机场HYSPLIT后向轨迹聚类分析结果表明,贵阳机场近地面的气团有2%来自机场西北方向、25%来自机场偏北方向、11%来自机场东北方向、24%来自机场偏东方向、21%来自机场东南方向以及17%来自机场偏南方向。其中,来自偏北、偏东、东南以及偏南方向的气流占比较多,因此在进行预测研究时考虑上述方向上游的气象条件以及污染物浓度分布情况对预测结果准确度存在一定的作用。