1. 引言
新疆地处我国西北边陲,地理坐标为:73˚40'E~96˚18'E;34˚25'N~49˚11'N。总面积165万平方公里,占全国总面积的六分之一,境内分布有105个国家级气象观测站。境内戈壁、沙漠、盆地、山地交错,气候变化复杂,气象要素变化剧烈,其独特的自然地理环境,一直以来都是中外学者关注的焦点,并对其开展了诸多研究 [1] 。日最高最低气温是必不可少的基本气象要素资料,对气候变化具有极强的代表性,它反映了气候冷暖变化程度,是判断极端气候事件强度的重要指标。但因种种原因,气温资料的缺测现象时有发生,如新疆自1970年~2017年共有34站次日最高气温、46站次日最低气温缺测,造成气象资料不连续,对气候变化及其趋势研究、气候评估及影响评价造成较大影响。
近年来,国外学者对日最高最低气温短时间缺测记录插补有过研究 [2] - [9] ,Acock等 [3] 利用分组数据处理法对日太阳辐射、最高最低气温、风速和降水量缺测值进行了插补;Huth等 [4] 通过对不同天气类型建立相应的回归模型来插补缺测的日气温数据。国内许多学者也对月和年时间尺度的气象资料做过缺测插补 [10] - [15] ,并利用线性回归、相关分析、最小二乘法等方法对我国部分地区的气温日值资料进行了插补研究 [16] [17] [18] 。新疆范围内也有学者对气象要素的插补进行了一些研究,冯志敏、陈鹏翔等人 [19] [20] 对新疆区域的年、月气温序列资料进行了插补研究,但迄今为止对新疆地区日气温资料缺测进行插补检验的研究较少。本文利用1971~2017年新疆101个国家级气象台站(除阿克达拉站、乌鲁木齐牧试站、塔中、吐鲁番东坎)逐日气温数据,建立日最高最低气温资料序列,对此时段内日最高气温日最低气温缺测的站点及次数进行了统计,并优先选用这些站点的实测4次定时气温数据,使用相关分析、算术平均(温差法)、线性回归等数理统计方法,通过插补建立回归方程,为今后开展相关领域的科研工作提供理论依据和技术支撑。
2. 资料方法及误差分析
2.1. 资料
使用新疆气象信息中心经过严格质量控制及检验的全疆105个国家级气象台(站) 1971~2017年逐日最高最低气温资料;2005年以前76个缺测站当月逐日02、08、14、20时定时观测气温、云量、地面温度及日最高最低气温、地面最高最低温度、天气现象、日降水量资料;2005年自动气象站正式运行后4个缺测站当月逐时气温、地面最高最低温度,逐分钟气温及逐日最高最低气温、天气现象、降水量资料。由于建站时间晚(阿克达拉、乌鲁木齐牧试、塔中)及停止观测(吐鲁番东坎1967年~1973年)等因素影响,造成部分站点资料时间不一致,故本文未对上述四站长时间序列缺测项目进行插补分析(见表1)。

Table 1. Statistics on the Abnormal Site of Meteorological Station Length in Xinjiang from 1971 to 2017
表1. 1971~2017年全疆气象站长序列缺测站点统计
日气温插补值出现较大误差多是由于插补站及其邻近站要素空间、时间差异造成。其产生原因其一为天气系统的移动导致日气温变化不同步;其二为局地地形影响导致气温变化,图1为新疆105个国家站地理坐标,由图1可以看出新疆区域内气象站点相对稀少且分布不均匀,台站间水平距离远,地形及气候差异大,因此本文在对台站观测的日最高最低气温序列进行插补时,优先选用本站数据进行插补,以此来减少因地域和气候差异而造成的数据误差。
2.2. 方法
遵从先易后难、由简入繁的原则,首先根据《地面气象观测规范》和《地面气象观测业务技术规定》(2016版)中,对地面气象观测资料质量控制工作的要求以及异常记录的处理原则,对出现的80个缺测站次中符合条件的13个站点进行了插补;第二步:对不满足第一步中相关业务规定的67个缺测站点,按样本数量的多寡,分别采用温差法和线性回归法进行了插补处理,站点数分别为6个和61个。以下是对上述3种方法的简介。

Figure 1. Xinjiang 105 national site distribution map
图1. 新疆105个国家站点分布图
2.2.1. 地面气象观测数据质量控制
根据《地面气象观测规范》和《地面气象观测业务技术规定》(2016版)中对地面气象观测资料质量控制工作的要求以及异常记录的处理原则,使用地面气象观测数据质量控制对80站次日最高最低揣测数据进行质量控制,对阿勒泰1等13站次的日最高最低缺测数据的观测记录进行质量控制以及插补。
2.2.2. 温差法
根据缺测当日气温、相对湿度、和地温变化规律及云天状况,选择变化规律相似的日数为样本(当样本小于10个时,使用温差法)并确定关键因子。利用14时定时气温或20时定时气温与日最高气温、02时定时气温或08时定时气温与日最低气温相关度,分析缺测当日天气情况,以此确定与日最高最低气温相关度较高的时次为关键因子。
(1)
(1)式中n为样本数,关键因子为一日中最低的定时气温值。
(2)
用缺测日对应关键因子减去样本的气温平均差值,得到日最低气温值。
2.2.3. 线性回归法
本文利用本站缺测日前后相同天气背景,相同温度变化规律,以温度差较小的数据为样本(当样本 ≥ 10个时,使用线性回归法)对缺测日数据进行插补,建立一元回归插补模型:
(3)
(3)式中,y为插补值,x回归因子,a、b为一元回归模型系数。
分析缺测当日天气情况,确定与日最高最低气温相关度较高的时次为回归因子,利用14时定时气温或20时定时气温与日最高气温、02时定时气温或08时定时气温与日最低气温,利用最小二乘法原理求取一元回归模型系数,建立一元回归模型,利用F检验法进行显著性检验,以显著性水平通过0.01作为通过检验的标准。
2.3. 缺测原因分析
从缺测站次的年代际分布来看,1970年代全疆105个台站日最高、最低气温缺测数据最多,占缺测总次数的95%,其原因主要为观测员责任心不强、操作失误及观测仪器故障,可通过提高观测员的业务素质进而有效地提高观测数据质量;2005年自动站正式运行以来缺测次数仅占总次数的5%,其原因主要是由于仪器故障及数据处理不当造成的。
从表2中可以看出70年代缺测原因多为观测员责任心不强、操作失误、观测仪器故障造成,可见观测人员职业道德是决定数据质量的关键因素之一;自动站正式运行以来的缺测主要是由于仪器故障及数据处理不当造成的,提高观测维护人员的业务能力可有效提高数据质量。

Table 2. 1971-2017 Xinjiang Meteorological Station on the highest minimum temperature error statistics
表2. 1971~2017年全疆气象站日最高最低气温缺测统计
Continued
3. 结果分析
3.1. 使用地面气象观测数据质量控制对13站次日最高最低缺测数据的观测记录进行质量控制以及插补
首先使用地面气象观测数据质量控制对80站次日最高最低观测数据进行质量控制,挑选出可直接完成插补的台站,根据《地面气象观测规范》和《地面气象观测业务技术规定》(2016版)中对地面气象观测资料质量控制工作的要求以及异常记录的处理原则,对阿勒泰1等13站次日最高最低缺测数据的观测记录进行质量控制以及插补。
3.1.1. 自动站正式运行前地面气象观测资料质量控制
按照《地面气象观测规范》 [21] 中日极值缺测的处理方法,当日最高、最低缺测时,可从当日定时观测气温数据中挑取。阿勒泰1、蔡家湖3、呼图壁2、尼勒克1、托克逊、乌什、喀什、阿拉尔8个站次,出现降雪、沙尘暴等天气后气温持续下降,比较后认为日最高气温应出现在前一日20时后(即残留温度)。以阿勒泰1为例:该站因降雪降温,当日02时定时气温为−5.2℃,08时定时气温为−5.0℃,14时定时气温−4.5℃,20时−10.2℃,前一日20时−1.5℃,经比较,判定最高气温应出现在前一日20时后,取值−0.9℃ (见表3)。

Table 3. 13 the day the highest minimum temperature correlation analysis and results
表3. 13站次日最高最低气温相关分析及结果
特克斯站前一天20时后开始降温,夜间上云开始升温,经判定02时定时气温为日最低气温,取值为−4.1℃(见表3)。
3.1.2. 自动站正式运行后地面气象观测资料质量控制
根据《地面气象观测业务技术规定》(2016版) [22] 中对时极值的异常处理中规定:某时次的气温、相对湿度、风速、气压、地温、草温(雪温)因分钟数据异常而影响时极值挑取时,时极值应从本时次正常分钟数据中挑选,而日极值则从经过处理的正点值中挑取。运用自动站数据处理方法分析缺测数据,查看了自动气象站运行后缺测站当月的A、J文件,表2中的吉木乃、阿瓦提两站日数据与分钟数据均正常,故按正常值予以处理,恢复原值1.1℃、21.3℃;伊宁1、小渠子1两站因检定温度传感器故障造成日最高温度缺测,在查看本站A、J文件后发现可从现有正常数据中挑选出日最高气温。伊宁1气温检定时间17:03~18:35,该站日最高按缺测处理,经分析可从实有分钟数据中挑取出19时时最高气温27.8℃ (即为日最高气温);小渠子116:06~17:26检定温湿度传感器,观测站将最高气温按缺测处理,经分析该日18~20时有阵雨,14时后气温开始下降,故挑取14时时最高气温17.3℃为日最高气温(见表3)。
3.2. 温差法对最低气温插补分析
对焉耆1、和硕2、乌什2、阿克苏2、吐尔尕特1、阿图什3,6站次日最低气温使用温差法求得插补值(见表4)。以焉耆1为例:1972年9月7日日最低气温缺测,当日02时气温为4次定时观测气温的最低值,挑选出当月云天状况、温度、相对湿度和地温变化规律相同的日数共2天,分别为11日、25日,利用公式(1)、(2)对日最低气温进行插补。
[11日(02时定时气温 − 日最低气温) + 25日(02时定时气温 − 日最低气温)]/2 = 温差,
7日02时定时气温 − 温差 = 7日日最低气温,取值12.3℃。

Table 4. 6 the next day the lowest temperature difference analysis and results
表4. 6站次日最低气温温差分析及结果
3.3. 线性回归法对次日最高气温插补及检验
线性回归法
表5为使用线性回归法对22站次日最高气温缺测进行插补,分析缺测当日天气状况,确定与日最高气温相关度较高的时次为回归因子,将14时或20时定时观测气温值与日最高气温值建立一元线性回归方程,得出插值结果,并求取选取的回归因子的相关系数,结果表明,相关系数100%达到了0.86以上,77%达到了0.9以上,且全部通过了0.01的显著性水平检验。
表6为使用线性回归法对39站次日最低气温缺测数据进行插补,分析缺测当日天气情况,确定与日最低气温相关度较高的时次为回归因子,采用最小二乘法原理利用08时定时气温与日最低气温建立一元线性回归方程,求解回归系数,得出插补结果;利用相关性最好的气温要素(最高对应14、20时,最低对应08时)并将缺测日最高最低气温与其它定时观测的气温资料进行相关性分析,查找出相关性最高的要素。对缺测日最高最低气温建立一元回归模型,在选取建模数据时,选取了与缺测日天气状况、温度范围相似的数据。如表6所示,选取的回归因子相关系数除新和3站为0.718外,其余均在0.84以上,全部通过了0.01的显著性检验。

Table 5. 22 station maximum daily temperature interpolation result
表5. 22站次日最高气温插补结果

Table 6. 39 station next day minimum temperature interpolation result
表6. 39站次日最低气温插补结果
Continued
4. 检验
4.1. F检验
将缺测日最高最低气温与其它定时气温资料进行相关性分析,查找出相关性最高的要素。利用相关性最好的气温要素(最高对应14、20时,最低对应08时),对缺测日最高最低气温建立一元回归模型,在选取建模数据时,选取了与缺测日天气状况、温度范围相似的数据。如表5、表6所示,选取的回归因子相关系数除新和3站为0.718外,其余均在0.84以上,全部通过了0.01的显著性检验。
4.2. 误差检验方法
本文采用交叉验证(cross-validation)方法对缺测记录的插补结果进行对比分析 [14] ,某个站记录缺测,利用插补模型(回归方程)插补日最低最高气温数据。并用回归方程反算出样本的回归值,然后对回归值与实际观测资料进行对比分析,讨论插补方法优劣和参数选取,并进行误差分析。用平均绝对误差(Mean Absolute Error, MAE)来代表插补精度。
(4)
式(4)中xoi为第i天实际观测值,xei为第i天插补值,N为插补天数。
日最高最低气温的平均绝对误差分别为0.64℃、0.45℃,误差在 ± 0.8℃以内的频次分别占总数的71.4%、83.3%。观测值与插补值月相关系数为0.999,插补与观测资料平均值和相关系数通过了显著水平为0.001的检验。
5. 讨论
1) 使用地面气象观测数据质量控制相关分析及算术平均(温差法)、线性回归等数理统计方法,完成了全疆80个缺测站次的日最高最低气温的插补。
2) 在使用数理统计方法对数据进行插补时因新疆区域内气象站点相对较少且分布不均匀,天气系统的移动导致日气温变化不同步,对台站观测的日最高、最低气温进行插补时,应优先选用本站数据进行插补,以减少因地域和气候差异而造成的误差。
3) 从缺测数据原因中可见观测人员职业素养是决定数据质量的关键因素之一;自动站正式运行以来的缺测主要是由于仪器故障及数据处理不当造成的,观测人员设备维护及数据处理能力有限,对待数据过于粗暴,是制约数据质量提高的关键,提高观测人员职业道德和业务能力可有效提高数据质量。自动气象站自2005年运行以来,由于受环境因素干扰、硬件等原因的影响,出现数据缺失的概率较80~90年代明显增多,而双套站可以明显降低数据的缺测率,具有保证数据完整性的优势,目前全疆103个国家级气象台站(裕民(51137)、富蕴(51087)两站单站运行)已开始双套站运行,这将为后期观测数据序列的完整性提供强有力的保障。
4) 现在许多天气和气候方面的科学研究都会用到观测的日值资料,而在使用历史观测数据时会将缺测数据直接剔除,这给研究工作带来了一定的不确定性。本文完成了除阿克达拉、乌鲁木齐牧试、塔中、吐鲁番东坎四站外的101个国家级气象台站1971~2017年日最高最低气温资料序列的建立并列出结果,为科研工作者和统计工作者提供了一定的基础数据支撑。
基金项目
中央级公益性科研院所基本科研业务费专项资金项目(IDM201502)“新疆区域降温过程及极端低温事件的年、季定量评估研究及应用”资助。
NOTES
*通讯作者。