1. 引言
内陆淡水生态系统(特别是河流,湖泊和水库)过去很少被视为碳循环的重要组成部分。然而,近年来的研究表明,河流不仅在陆地碳向海洋输送的过程中起着传递作用,而且在这过程中还通过复杂的生物化学过程将大量二氧化碳(CO2)转化、储存并释放到大气中[1] [2]。根据Liu等人[3] 2022年最新的估算,全球河流的CO2排放量为2.2 ± 0.2 Pg C yr−1,而且由于该估算不包括河漫滩以及沼泽湿地等交界地带的排放量,所以该估算是保守的,有可能被进一步向上修正。因此,更好地了解河流的CO2排放对于限制全球的碳排放估计并澄清河流在碳循环中的重要性至关重要。
目前主要认为河流CO2的主要排放方式为扩散排放,即CO2气体从高浓度一侧运动到低浓度一侧,其扩散量的大小取决于气体扩散系数以及气体在水体和大气中的浓度差[4]。根据亨利定律[5],气体的浓度与压强成正比,所以目前大部分研究都使用CO2分压pCO2来代表水体中的CO2浓度,进而研究水体CO2的排放通量。然而,由于河流的CO2来源复杂,不仅有陆地系统的CO2直接输入,还有陆地来源的有机碳的生物分解以及非生物的CO2生产。因此,河流pCO2的影响因子极为广泛,受到了广泛的研究。Abril等[6]研究发现河流的pCO2与河流中的营养物质如总磷、总氮存在显著的正相关关系,Le等人[7]认为河流pCO2主要受溶解性有机碳的控制。也有学者[8] [9]尝试探讨河流pCO2与人类活动的关系,结果发现建设用地和耕地通过有机碳及营养物质的输入能显著提升河流的CO2浓度,而森林用地能降低河流的pCO2。总的来看,河流的CO2浓度和排放量将随着土地覆盖、气候、陆地生态系统过程、河流内部二氧化碳生产的变化而变化。因此,流域中的各种环境因子以复杂的方式影响着河流的CO2排放,而这种内在联系难以通过物理模型或传统统计方法准确揭示。然而,机器学习技术无需依赖明确的自然物理规律,就能从海量数据中识别出潜在的模式和关系,为理解和分析流域环境因子与河流pCO2之间错综复杂的联系提供了新的方法。
在这项研究中,基于文献报道的河流CO2排放结果和水文年鉴中的水化学数据,我们计算了长江流域各地区河流的pCO2,并分析了导致pCO2空间变异的主要环境驱动因子。为了满足这一需求,我们首先从公布的全球或区域地理空间数据集中收集24种环境变量数据,然后根据这些环境变量数据计算了对应的流域属性,之后我们使用随机森林(RF)模型,对每个采样点的流域属性和二氧化碳分压值进行建模,建立了pCO2与解释性环境变量之间的可靠关系,并据此计算了每个解释性变量的相对重要性。最后根据建立的随机森林模型,模拟了2010~2018年长江流域,0.05˚ × 0.05˚的栅格范围下河流pCO2的时空分布情况。
2. 研究区域及方法
2.1. 研究区域概况
长江发源于青藏高原,自西向东流经横断山区、四川盆地、中下游平原,最后注入东海,全长6380公里,是中国第一大河,也是世界第三长河。长江流域面积约为180万平方千米,流域内水系发达,河湖众多,包括雅砻江、岷江、嘉陵江,乌江、汉江、湘江、沅江、赣江等主要支流,河流总长度达到35万km。长江在宜昌往上为上游,长4504 km,流域面积100万km2,上游河段河床比降大,滩多流急,形成了约2000 km的高山峡谷。宜昌以下为长江中下游,河床比降小,水深江阔,是著名的黄金水道。整个长江从江源至河口,地势呈西高东低,形成三级巨大阶梯,这巨大的海拔跨度,导致整个流域内生态系统多样,各个区域的自然景观和自然环境表现出明显的空间变异性。为了更好地考虑这一变异性,我们根据HydroBASINS [10]提供的世界7级流域分区,将整个长江流域划分为922个小流域以计算其流域属性(图1)。
2.2. 数据收集和CO2分压计算
我们利用文献中报道的源于水文年鉴的水化学记录,估算了长江流域内陆水体的CO2分压pCO2。这种方式我们收集了337个采样点,每个采样点的化学记录包括测量时间、pH值、水温、碱度和流量。根据碳酸盐的热力学平衡,利用碳酸盐体系四个平衡参数(碱度,溶解无机碳,pH值,pCO2)中的其中两个,即可计算其中的pCO2。下面的方程式是在应用pH值和TA时计算CO2时的常见公式[11]:
(1)
(2)
(3)
(4)
(5)
(6)
式中:
表示对应物质
的浓度,
为
与
的真实浓度和,
为碱度,
,
,
是三种溶解无机碳物质的解离常数,可通过温度计算。
除此之外,我们还从文献中收集了实测的河流pCO2结果以补充我们的数据集。我们使用中国知网和Web of Science进行文献检索,输入关键词“CO2”和“河流”,筛选在长江流域开展的相关研究,最终筛选出211个采样点。最终我们编制了548个数据点以形成我们随机森林模型的训练集。
2.3. 随机森林识别pCO2的控制变量
为了提高对水体的CO2分压pCO2的认识并解释其随空间变化的原因,我们需要了解不同环境变量对水体pCO2的影响程度。首先,我们从公布的全球或区域地理空间数据集中收集了24个环境变量数据(表1),包括最高气温、最低气温、降水3个气候变量,径流量、坡度、土壤侵蚀度3个流域属性变量,NDVI、NPP、土壤呼吸(自/异养)共5个陆地碳循环相关变量,耕地、森林、灌木、草地、城镇用地5个土地利用变量,GDP与人口密度2个人类活动变量,土壤质地、表土有机碳共6个来自世界土壤数据库的土壤属性变量。然后,我们根据HydroBASINS提供的世界7级流域分区(图1),将这些环境变量都归一化为流域属性,即统计每个小流域内所有栅格变量的平均值。之后我们使用随机森林(RF)模型,对每个采样点的流域属性和二氧化碳分压值进行建模,建立了pCO2与解释性环境变量之间的可靠关系。在建模过程中,更多的参数通常能提升模型性能,但同时也增加了模型的复杂性和不确定性。因此,我们采用了递归特征消除(RFE)方法,这是一种基于回归树的有效特征选择技术,用于剔除不重要的变量。为了应对数据量不足的问题,我们还使用了十折交叉验证,将pCO2数据集随机分为十个子集,其中一个用于测试,其余用于训练,以此优化RF模型。最终,通过选择最优的RF模型,我们分析了各环境变量的相对重要性,确定了解释pCO2时空变化的关键环境变量。
表1. 环境变量的名称及含义
变量名 |
含义 |
变量名 |
含义 |
PRE |
降水 |
NPP |
净初级生产力 |
TMAX |
最高气温 |
NDVI |
归一化植被覆盖率 |
TMIN |
最低气温 |
TOC |
土壤有机碳含量 |
SLOPE |
采样点的坡度 |
RUNOFF |
径流量 |
SOIL_EROSI |
土壤侵蚀程度 |
RS |
土壤呼吸 |
Cropland |
耕地覆盖率 |
RH |
土壤异养呼吸 |
Forest |
森林覆盖率 |
RA |
土壤自养呼吸 |
Shrup |
灌木覆盖率 |
TCACO3 |
土壤碳酸钙含量 |
Grass |
草地覆盖率 |
TCLAY |
黏土含量 |
Urban |
城镇覆盖率 |
TSILT |
粉砂土含量 |
POP |
人口密度 |
TSAND |
砂土含量 |
GDP |
国民生产总值 |
TGRAVEL |
砾石含量 |
2.4. 随机森林模拟pCO2的空间变化
根据筛选出的最佳的环境预测变量,结合收集到的对应地理空间数据集,我们使用训练的随机森林模型模拟了2010~2018年间长江流域pCO2在0.05˚ × 0.05˚范围上的空间变化。大部分的地理空间数据我们都收集到了年尺度的数据,在所使用的预测数据中,只有黏土含量TCALY这一变量是使用的世界土壤数据库的数据,其在预测的年份间保持不变。
3. 结果与讨论
3.1. pCO2的空间变异性
相对于大气的二氧化碳分压(约400 μatm)而言,长江流域河流的二氧化碳含量普遍过饱和。河流中分布的测点的CO2分压(pCO2)中位值范围为193至6403 μatm,全部河流测点的pCO2平均值为1953 ± 967 μatm,并且长江流域各个水系的pCO2变化明显。其中乌江水系与长江下游三角洲区域的pCO2较高,两个水系的pCO2平均值分别为2896 ± 978 μatm与2793 ± 1084 μatm,而汉江水系与鄱阳湖水系的pCO2较低,两个水系的pCO2平均值分别为1644 ± 678 μatm与1426 ± 487 μatm。由于长江下游地区是我国重要的经济中心,人口密度大,人类活动频繁。相关的研究表明了人类活动能够影响土壤的呼吸作用[12],而土壤有机质呼吸作用产生的CO2使土壤空隙中pCO2较高,其通过风化作用形成高浓度的
进入河流,从而导致河流pCO2升高。此外,也有研究表明流域岩性可能是河流CO2的重要控制因素[13]。与硅酸盐地形相比,碳酸盐体系为主的地区的溶解无机碳的来源充足,并且在乌江水系,河流对碳酸岩的溶蚀作用强烈,这可能会导致更高的河流CO2浓度。
图1. 长江流域的小流域划分和河流pCO2测点的空间分布情况
图2. pCO2随河流等级的变化。框表示25%~75%分位数的范围,框内的线代表中位数,实圆代表数据的具体分布
最近的研究表明,由于与陆地生态系统具有高度的水文连通性,小溪流通常具有较高的二氧化碳分压水平[14] [15]。我们的结果也基本映证了这一点,如图2所示,低阶河流的pCO2均值在2000 μatm以上,而高阶河流的pCO2均值为1470 μatm,其中二阶河流的pCO2均值最高,达到了2866 μatm,而八阶河流的pCO2均值最低,约为1074 μatm。
3.2. 环境因子对河流pCO2的控制
我们分析了数据点河流的平均pCO2与所属流域或所在地点的24个环境变量之间的相关性(图3),这里选取的是Spearman相关系数。结果显示流域的各个环境变量与pCO2的关系有显著差异,采样点的坡度,土壤的砂土含量,森林、草地的覆盖率,流域的净初级生产力和pCO2呈显著负相关,而流域的耕地覆盖率,降水,流域径流量,人口密度,GDP,城镇覆盖率和除砂土含量以外的土壤特性与pCO2之间呈显著正相关。
图3. pCO2与各个环境变量之间的相关性分析,“×”表示相关关系不显著
我们首先使用全部环境变量共同对pCO2进行随机森林建模,结果显示出了较强的可预测性(R2 = 0.77),但此时模型的复杂性和不确定性都较高。相对地,我们也使用了特征选择(Recursive feature selection, RFE)方法对变量进行筛选,然后使用筛选后的变量数据进行训练。结果显示(图4),随着变量个数的增加,经过随机森林训练后的模型的均方根误差(RMSE)呈先减少后增加趋势,当选择的变量数为9个时,模型取得了一个相对最优的结果,故我们认为使用RFE方法可以在不改变模型可靠性的前提下有效降低模型的复杂度。根据RFE方法提供的变量重要性,我们所保留的变量为土壤黏土含量T_CLAY,最高气温TMAX,国民生产总值GDP,流域净初级生产力NPP,城镇覆盖率Urban,耕地覆盖率Cropland,区域人口密度POP,河流坡度SLOPE以及表层土壤有机碳TOC。关于RF模型的训练,由于数据量有限,我们应用了十倍交叉验证的方法,将pCO2数据集分成十个随机子数据集,选择一个用于测试,其余都用于训练,从而寻找最优的RF模型。最终我们得到了一个决定系数R2为0.58的RF模型(图5),之后我们进一步使用训练的最优RF模型来分析解释变量的相对重要性。
图4. 当变量个数增加,随机森林模型的均方根误差RMSE的变化情况
图5. 随机森林(RF)模型对于训练集和测试集的预测性能,R2为决定系数
基于RF模型的变量重要性分析显示(图6),对于长江流域的河流pCO2而言,最重要的影响因子是土壤的黏土含量(相对重要性16.6%),其次是气温(相对重要性13.8%),紧接着的NPP的相对重要性为11.4%。GDP、Urban、Cropland、POP这四个与人类活动相关的变量的相对重要性之和为41.9%,这表明人类活动对于河流的pCO2有着重要影响。影响最小的两个因子为河流的坡度以及土壤有机碳的含量,相对重要性分别为8.3%和8.0%。NPP和坡度对河流中溶解有机碳有重要影响,因为碳在河流运输过程中被部分分解,从而维持了CO2的过饱和[16]。黏土含量对河流pCO2有较高影响,因为黏土矿物可以更好地保留颗粒有机碳POC [17],而POC也是河流碳的主要来源之一[18]。最后,较强的人类活动,在这表现为更高的GDP,POP,Cropland,Urban,往往会导致内陆水域富营养化,因为农业、工业和居民污水排放了大量有机碳[19] [20]。而在富营养化水域,藻类和其他植物生长迅速,水域中的有机碳含量迅速增加,同时微生物大量繁殖,通过呼吸作用分解这些有机物质,并将其代谢为二氧化碳,导致河流CO2的过饱和。
图6. 通过特征选择筛选出的解释变量在随机森林模型预测pCO2中的相对重要性,相对重要性得分之和为100%
3.3. 河流pCO2的空间模拟
图7. 长江流域0.05˚ × 0.05˚河流pCO2的模拟结果
根据上述的随机森林模型以及收集到的对应地理空间数据,我们模拟了0.05˚ × 0.05˚的空间范围下长江流域的河流pCO2空间变化结果(图7)。结果显示,在长江流域,上游河流的pCO2显著低于下游河流。我们统计了2010~2018年的长江流域上中下游河流的多年平均pCO2,结果显示,宜昌以上的上游流域河流的平均pCO2为1499 μatm,宜昌至湖口的长江中游河流的平均pCO2为1969 μatm,湖口以下的长江下游河流的平均pCO2为2254 μatm。这可能有以下原因,第一,长江上游的高海拔和快速水流阻碍了原地呼吸和有机碳分解[21],从而降低了CO2浓度;第二,长江上游地区的人类活动影响较弱,这可能会导致更少的人为碳输入,这也同时印证了上述人类活动对于河流有重要影响的结果。
我们统计的2010~2018年河流平均pCO2结果显示,在这十年间,长江河流的平均pCO2从1813 μatm下降至1747 μatm,大约下降了4%。同时这种下降趋势通过了Mann-Kendall趋势检验(p < 0.05),说明这种下降趋势是显著的。造成这种下降的原因,可能是因为政府实施的植树造林计划,导致大范围退耕的农田转变成为了森林和草地,而有研究表明,河流的CO2排放随森林覆盖率的增加而减少[22]。
4. 结论
由于各种流域环境因子将以某种复杂的方式影响着河流的CO2排放,我们需要理清各项环境因子是否真正会影响河流的pCO2。在这项研究中,我们通过随机森林方法对河流的pCO2进行建模,根据特征选择方法从24种环境变量中剔除了15种相对不重要的变量,最终识别出了在长江流域决定pCO2空间变化的主要因素不仅仅只是自然环境因素,与人类活动相关的因素(GDP, POP, Cropland, Urban)也发挥了重要作用。然后我们使用得到的随机森林模型对整个长江流域河流的pCO2进行模拟,以弥补某个时段或者某个地区没有实测pCO2数据的缺陷,从而完善区域整体的碳预算,助力实现“双碳”目标。
基金项目
国家自然科学基金联合基金项目(U2240201)。
NOTES
作者简介:徐颖(2000-),男,硕士研究生,主要从事河流碳循环研究,Email: xuying2458@whu.edu.cn
*通讯作者Email: xionglh@whu.edu.cn