光谱变换方法对黑土有机质反演模型的影响
Effect of Spectral Transformation Methods on the Inversion Model of Organic Matter in Black Soil
摘要: 土壤有机质高光谱反演是评估黑土肥力的重要手段,其精度受光谱预处理方法显著影响。本研究旨在系统评价不同光谱数学变换对黑土有机质反演模型精度与稳定性的影响。以黑龙江省拜泉县为研究区,获取350~2500 nm黑土高光谱数据。经剔除噪声波段、S-G平滑和重采样等预处理后,分析倒数、对数、倒数对数、一阶微分及其组合变换等8种数学变换的效果。结合敏感波段筛选与偏最小二乘回归(PLSR)建模,采用均方根误差(RMSE)、决定系数(R2)和相对分析误差(RPD)评估模型表现。结果表明,1) 不同数学变换显著影响敏感波段位置与数量;2) 倒数对数变换效果最优;3) 一阶微分及其组合变换在训练集表现优异,但测试集RPD均低于2,泛化能力不足;4) 多元散射校正、倒数、对数及原始光谱变换的模型测试集精度均未达理想水平(RPD < 2)。研究证实,倒数对数变换能有效提升黑土有机质高光谱反演模型的精度与稳定性,为土壤养分快速监测及精准农业管理提供了可靠技术支撑。
Abstract: Hyperspectral inversion of soil organic matter is an important tool for assessing the fertility of black soil, and its accuracy is significantly affected by spectral preprocessing methods. The aim of this study is to systematically evaluate the effects of different spectral mathematical transformations on the accuracy and stability of the black soil organic matter inversion model. Baiquan County of Heilongjiang Province was used as the study area to obtain 350~2500 nm black soil hyperspectral data. After the pre-processing of noise band removal, S-G smoothing and resampling, the effects of eight mathematical transformations, including inverse, logarithmic, inverse logarithmic, first-order differential and their combination transformations, were analyzed. Combining sensitive band screening with partial least squares regression (PLSR) modeling, the model performance is evaluated using root mean square error (RMSE), coefficient of determination (R2) and relative analysis error (RPD). The results show that 1) different mathematical transformations significantly affect the location and number of sensitive bands; 2) the inverse logarithmic transformation is the most effective; 3) the first-order differential and its combined transformations perform well in the training set, but the RPD of the test set is lower than 2, which is insufficient for the generalization ability; and 4) the accuracy of the test set of the model with multivariate scattering correction, the inverse logarithmic, logarithmic, and the primitive spectral transformations is not up to the desirable level (RPD < 2). The study confirms that the inverse logarithmic transformation can effectively improve the accuracy and stability of the hyperspectral inversion model of black soil organic matter, which provides a reliable technical support for the rapid monitoring of soil nutrients and the management of precision agriculture.
文章引用:樊龙辉, 徐煜林, 任宏飞, 陈寅. 光谱变换方法对黑土有机质反演模型的影响[J]. 自然科学, 2025, 13(5): 969-978. https://doi.org/10.12677/ojns.2025.135101

1. 引言

土壤有机质作为土壤肥力的核心指标,不仅是作物养分供应的物质基础,更是维持土壤结构稳定性、促进碳汇功能的关键因子[1]。尤其在黑土区,其有机质含量普遍高于其他土壤类型(如红壤、褐土),但受长期高强度耕作与侵蚀影响,东北黑土有机质含量正快速退化[2],直接威胁国家粮食安全与生态安全。因此,如何快速、精准地监测黑土有机质含量,成为土壤质量评价与精准农业管理的迫切需求。

传统化学分析法(如重铬酸钾氧化法)虽精度高,但存在耗时耗力、破坏土壤结构、难以大面积推广等局限[3]。近年来,高光谱遥感技术凭借其快速、无损、高通量的优势,为土壤属性反演提供了革新手段。研究表明,可见–近红外光谱(350~2500 nm)能够通过有机分子中C-H、N-H等官能团的振动与电子跃迁,捕捉与有机质含量密切相关的特征吸收峰[4]。例如,刘焕军等学者[5]基于反射率一阶微分构建的黑土有机质反演模型,其建模样本决定系数R2为0.933,检验样本决定系数R2为0.936,初步验证了高光谱技术的可行性。然而,实际应用中,光谱数据易受土壤颗粒异质性、水分干扰、仪器噪声等因素影响,导致特征波段与有机质含量的关联性被掩盖[6]。因此,光谱预处理成为提升模型精度的关键环节。

2. 材料与方法

2.1. 研究区概况

拜泉县(125˚29'~126˚31'E, 47˚17'~47˚54'N)位于黑龙江省齐齐哈尔市东部,小兴安岭南麓、松嫩平原北缘。区内地形特征是东北高西南低,东部和中部属于小兴安岭山前高平原,被沟谷切割,地形起伏较大,呈波状和岗阜状,逐渐过渡到西南低平原地带,地势起伏不大,较为平坦。平均海拔250 m,最高处在上升乡附近,海拔325 m,最低处在西部双阳河出境处,海拔193 m。该研究区自然资源丰富,主要河流有乌裕尔河、双阳河和宝泉河,均为季节性河流。属寒温带大陆性季风气候,四季变化明显,全年日照时间长,无霜期短。土地肥沃,土壤类型以黑土为主,另外有黑钙土、草甸土、沼泽土和盐土,土壤结构与基础肥力较好。黑土分布在东部、北部、中部丘陵区,黑钙土分布在西南部高平原上[7]

2.2. 土样采集与光谱测定

在研究区采集0~30 cm的表层土样共100份并用手持GPS记录采样点的经纬度后,带回实验室内自然风干,通过木棒研磨去除砾石和植物残渣等杂质,并过60目筛。每个土壤样本分为三部分,其中两部分分别用于有机质含量测定和室内土壤光谱采集,另一部分密封储存以供参考,并防止交叉污染。

黑土光谱反射率的测定使用的仪器是SVCHR-1024i便携式地物光谱仪,其光谱范围为350~2500 nm,该仪器的采样间隔在350~1000 nm为1.5 nm,1000~1890 nm为3.8 nm,1890~2500 nm为2.5 nm。仪器使用前先预热半小时,并进行白板校正,在光谱测定过程中,仪器会自动采集10条光谱曲线并取平均值,为减少检测过程中仪器带来的误差,每对一份土样进行完光谱测定后就进行一次白板校正。

2.3. 光谱数据预处理

由于在室内进行光谱测定会存在一些噪声,为了减小实验室环境的影响,削弱光谱噪声对数据的影响,因此,需要在构建反演模型之前,进行光谱的预处理。由于350~400 nm是紫外光区域,大气中的臭氧和其他气体对这一区域的辐射有很强的吸收作用,这会影响到光谱数据的准确性,而2400~2500 nm波段受水汽影响较大,并且光谱仪器波谱两端的边缘波段存在较大的仪器噪声[8],因此,在进行光谱数据预处理前,剔除这两个波段。由于光谱仪的分辨率较高,且在不同波段的分辨率不一致,相邻波段之间会存在信息重叠[9],因此,本文经过采样间隔对比试验以及平滑窗口对比实验后发现,如图1所示,10 nm重采样的效果最佳,不会过度去噪,同时也不会使得曲线特征失真;而平滑度为19的S-G (Savitzky-Golay)平滑处理同样也能在保证光谱曲线特征的同时,去除噪声,如图2所示(为更直观对比不同平滑度的曲线,图中曲线已做堆叠平移处理,其纵轴反射率非真实反射率)。因此,本文决定设置采样间隔为10 nm,并进行窗口大小为19的S-G光谱平滑去噪处理,这也同林楠[9]以及肖文凭[10]等学者的研究结果相同。

为了提高信噪比,本文在上述平滑去噪处理的基础上对土壤的光谱曲线进行了倒数、对数、倒数对数、一阶微分、倒数的一阶微分、对数的一阶微分、倒数对数一阶微分、多元散射校正这8种常见的数学变换。

(a) 原始光谱曲线 (b) 重采样1 nm

(c) 重采样5 nm (d) 重采样10 nm

(e) 重采样20 nm (f) 重采样50 nm

Figure 1. Effect of different sampling intervals

1. 不同采样间隔的效果

Figure 2. Comparison of different smoothness levels

2. 不同平滑度的对比

2.4. 相关性分析及敏感波段选择

根据土壤有机质含量与所测定的相应的原始、经过数学变换后的光谱反射率数值进行相关性分析,相关系数计算公式如下:

γ i = Cov( R,Y ) D( R )D( Y ) = n=1 N ( R ni R i ¯ )( Y n Y ¯ ) n=1 N ( R ni R i ¯ ) 2 n=1 N ( Y n Y ¯ ) 2 (1)

其中: γ i 为土壤有机质含量与土壤光谱反射率R的相关系数,i为波段号, R ni 表示为第n个土壤样本的第i波段的光谱反射率值, R i ¯ N个土壤样本在波段的光谱反射率的平均值, Y n 为第n个土壤样本的土壤有机质含量, Y ¯ 为实测的N个土壤样本的有机质含量的平均值,N为土壤样本的个数[11]

将相关性系数绝对值大于0.4并通过0.01水平的显著性分析的波段作为敏感波段。图3发现,无处理的光谱整体呈负相关,相关系数在−0.5~−0.15之间波动,并且相关系数曲线较为平缓,仅在1900 nm处存在一个吸收谷;经倒数和对数变换的相关系数曲线呈对称关系,并且倒数的相关系数曲线与无处理的曲线非常相似,三者均在1900 nm处存在一个吸收谷,但是倒数变换处理对相关系数有所提升;经一阶微分、倒数一阶微分以及倒数对数一阶微分变换后的相关系数曲线都波动较大,原因是一阶微分能够增强光谱数据中细微信号的变化[12],同时也会放大噪声[13],因此,经过一阶微分变换或与一阶微分进行组合的变换处理都会出现较大的波动;经多元散射校正变换的曲线与无处理的曲线相比较,其相关系数有所提升并拥有更多的反射峰,原因是多元散射校正能增强特征提取,突出显示吸收特性[14]表1汇总了在不同光谱数学变换下得到的土壤有机质反演的敏感波段。结果显示,预处理方法的选择对敏感波段的位置和数量有决定性影响。原始光谱的敏感波段集中于可见光区(350~750 nm)。倒数和对数变换除可见光范围外,还有近红外波段(750~1400 nm)。最为显著的是,一阶微分及其组合变换极大地拓展了敏感波段的范围和数量,特别是倒数一阶微分,其敏感波段覆盖了可见光至短波红外(1400~3000 nm)的广泛区域。对数一阶微分和倒数对数一阶微分均在可见光区域存在敏感波段,后者还于1900 nm处存在敏感波段。多元散射校正的敏感波段则全部位于可见光区域。

Figure 3. Correlation coefficient curves of spectral data with different mathematical transformations

3. 不同数学变换的光谱数据相关系数曲线

Table 1. Sensitive bands for inversion of soil organic matter content under different spectral mathematical transformations

1. 不同光谱数学变换下土壤有机质含量反演的敏感波段

数学变换

敏感波段/nm

无处理

540, 560, 610, 680

倒数

400, 570, 860, 1050

对数

410, 630, 870, 920, 1240

倒数对数

410, 640, 860, 930, 1240

一阶微分

540, 560, 580, 600, 610, 730

倒数一阶微分

560, 730, 910, 920, 950, 960, 980, 1200, 1390, 1900

对数一阶微分

470, 480

倒数对数一阶微分

470, 480, 1900

多元散射校正

400, 430, 450, 470

2.5. 反演模型的建立

本文反演模型的建立采用的是偏最小二乘回归(PLSR)方法,该方法作为土壤有机质含量反演研究中运用最为广泛的方法之一,它结合了多元线性回归分析、典型相关分析和主成分分析的特点,提供了一种多对多的线性回归建模方法,特别是在具有多重相关性的两组变量数量较多而样本量较少的情况下,PLSR建立的模型具有传统经典回归分析所不具备的优势[15]。但是该模型会利用全部的光谱信息,较为复杂[3],而利用上述筛选出的敏感波段进行建模能够在很大程度上简化模型并提高模型运行效率。

在对反演模型进行精度和稳定性评价方面,本文采用了均方根误差(RMSE)、决定系数(R2)和相对分析误差(RPD)这三个指标。其中,RMSE用来衡量预测值与观测值之间的偏差,RMSE越小,说明预测误差越小,反之,则越差;R2是通过判断模型自变量对因变量的解释程度,来衡量模型的拟合效果,R2介于0~1之间,越接近1,说明模型的拟合效果越好,反之,则越差;RPD用来综合衡量模型的预测能力,RPD ≥ 2时,模型具有极好的定量预测能力,当1.4 ≤ RPD < 2时,表明模型可粗略估算样品含量,当RPD小于1.4时,表明模型无法对样品进行预测[16]。同时满足三个评价指标时,本研究认为该数学变换方法对反演模型的建立具有良好作用。

3. 结果与分析

表2结果可知,对比训练集和测试集的精度可发现,8种光谱数学变换的训练集R2都大于测试集R2。在8种光谱数学变换中,仅有倒数的对数变换在训练集和测试集中都满足RPD ≥ 2,且RMSE和R2都能达到要求,这表明倒数的对数变换的模拟效果最好。原因是倒数的对数能够使有机质含量于光谱响应更接近线性关系,便于模型建模,此外,倒数的对数能够更有效地提取与有机质相关的特征波长,减少过拟合的风险。在其他光谱数学变换中,一阶微分、倒数一阶微分、对数一阶微分、倒数对数一阶微分变换的训练集RPD能够满足大于等于2的要求,但是其测试集中的RPD仅大于1.4而小于2,表明这些光谱数学变换的模拟效果不能达到预期效果。

Table 2. Comparison of modeling results under different mathematical transformations of soil organic matter content spectra

2. 土壤有机质含量光谱不同数学变换下的建模结果对比

预处理方法

训练集

测试集

RMSE

R2

RPD

RMSE

R2

RPD

无处理

0.810

0.688

1.790

1.009

0.655

1.582

多元散射校正

1.009

0.616

1.416

1.029

0.586

1.411

倒数

0.799

0.696

1.814

1.108

0.533

1.422

对数

0.778

0.713

1.965

0.937

0.623

1.645

一阶微分

0.184

0.984

7.877

1.194

0.522

1.403

倒数一阶微分

0.695

0.771

2.088

1.095

0.545

1.536

对数一阶微分

0.266

0.966

5.446

1.171

0.451

1.556

倒数对数

0.741

0.769

2.358

0.894

0.758

2.010

倒数对数一阶微分

0.054

0.993

7.021

1.131

0.560

1.469

(a) 无处理 (b) 多元散射校正

(c) 倒数 (d) 对数

(e) 一阶微分 (f) 倒数一阶微分

(g) 对数一阶微分 (h) 倒数的对数

(i) 倒数对数一阶微分

Figure 4. Scatterplot of soil organic matter simulation accuracy based on different spectral transformations and PLSR models

4. 基于不同光谱变换和PLSR模型的土壤有机质模拟精度散点图

图4中也直观地展现出了表2的效果,仅倒数对数变换的结果能够较好的拟合y = x线,而一阶微分及其组合变换的结果图中,训练集都高度拟合y = x线,但是测试集都未能很好的拟合y = x线(越接近y = x线,表明拟合效果越好)。

4. 讨论与结论

4.1. 讨论

本研究通过对比8种光谱数学变换对黑土有机质高光谱反演模型的影响,发现倒数的对数变换在训练集和测试集中均表现出最优性能。这一结果与肖文凭[8]等学者提出的光谱重采样与S-G平滑预处理方法相结合的有效性一致,进一步验证了光谱预处理对模型精度的重要作用。倒数的对数变换的优势可能源于其对光谱响应与有机质含量之间非线性关系的线性化调整,从而更高效地提取与有机质密切相关的敏感波段(如410、640、860 nm等)。此外,该变换通过抑制噪声干扰和降低光谱数据的冗余性,减少了模型的过拟合风险,增强了泛化能力。

相比之下,一阶微分及其组合变换(如倒数一阶微分、对数一阶微分)虽然在训练集上表现出较高的R2和RPD (如训练集RPD高达7.877),但其测试集RPD均低于2,表明这些方法可能因放大噪声而导致模型在实际应用中稳定性不足。多元散射校正的测试集表现同样不理想,可能与其对复杂环境噪声的适应性较弱有关。

4.2. 结论

本研究系统评估了光谱数学变换对黑土有机质高光谱反演模型的影响,得出以下结论:

(1) 倒数的对数变换通过优化光谱响应与有机质含量的线性关系,显著提升了模型的精度(测试集RMSE = 0.894,R2 = 0.758)与稳定性(RPD = 2.010),是黑土有机质反演的最优预处理方法。

(2) 一阶微分及其组合变换虽在训练阶段表现优异,但测试集泛化能力不足,表明其在复杂环境下的适用性受限。

(3) 敏感波段筛选结合PLSR建模可有效简化模型结构,同时保持较高预测能力,为土壤养分的快速监测提供了技术参考。

本研究的局限性在于样本量较小(100份)且研究区集中于单一黑土类型,未来需扩展样本多样性并探索多区域模型的普适性。此外,可进一步引入深度学习算法(如卷积神经网络)与多源数据融合技术,以提升复杂环境下有机质反演的鲁棒性。本研究结果为黑土肥力评估与精准农业管理提供了理论依据和技术支撑。

参考文献

[1] 阿拉萨, 王陇, 高广磊, 等. 乌兰布和沙漠沿黄段风沙土有机质和碳酸钙含量特征[J]. 中国水土保持科学(中英文), 2022, 20(1): 41-47.
[2] 范益恺, 许增涵, 李玄同, 等. 东北典型黑土区坡耕地土壤生产能力的研究[J]. 国土与自然资源研究, 2023(1): 32-34.
[3] 吴裕, 申广荣, 刘璐, 等. 土壤有机质高光谱特征及其反演研究[J]. 上海交通大学学报(农业科学版), 2019, 37(4): 37-44.
[4] 史舟. 土壤地面高光谱遥感原理与方法[M]. 北京: 科学出版社, 2014.
[5] 刘焕军, 张柏, 赵军, 等. 黑土有机质含量高光谱模型研究[J]. 土壤学报, 2007(1): 27-32.
[6] 刘焕军, 张柏, 宋开山, 等. 基于室内光谱反射率的土壤线影响因素分析[J]. 遥感学报, 2008(1): 119-127.
[7] 韩晓萌, 戴慧敏, 梁帅, 等. 黑龙江省拜泉地区典型黑土剖面元素地球化学特征及其环境指示意义[J]. 地质与资源, 2020, 29(6): 556-563.
[8] 林鹏达, 佟志军, 张继权, 等. 基于CWT的黑土有机质含量野外高光谱反演模型[J]. 水土保持研究, 2018, 25(2): 46-52+57.
[9] 林楠, 刘海琪, 杨佳佳, 等. BA-Adaboost模型的黑土区土壤养分含量高光谱估测[J]. 光谱学与光谱分析, 2020, 40(12): 3825-3831.
[10] 肖文凭, 吕成文, 乔天, 等. 重采样间隔对土壤质地高光谱预测模型精度的影响[J]. 土壤通报, 2018, 49(6): 1279-1285.
[11] 于士凯. 基于高光谱的土壤有机质含量反演研究[D]: [硕士学位论文]. 北京: 中国农业科学院, 2013.
[12] 叶淼, 朱琳, 刘旭东, 等. 基于连续小波变换、SHAP和XGBoost的土壤有机质含量高光谱反演[J]. 环境科学, 2024, 45(4): 2280-2291.
[13] 冯志军, 张世文, 杨斌, 周涛, 芮婷婷. 基于高光谱的土壤有机质反演[J]. 仪器与设备, 2022, 10(2): 105-109.
[14] 刘恬琳, 朱西存, 白雪源, 等. 土壤有机质含量高光谱估测模型构建及精度对比[J]. 智慧农业(中英文), 2020, 2(3): 129-138.
[15] Qiao, X., Wang, C., Feng, M., Yang, W., Ding, G., Sun, H., et al. (2017) Hyperspectral Estimation of Soil Organic Matter Based on Different Spectral Preprocessing Techniques. Spectroscopy Letters, 50, 156-163.
https://doi.org/10.1080/00387010.2017.1297958
[16] 李顿, 王雪梅, 李坤玉, 等. 基于变量筛选与机器学习算法的渭-库绿洲土壤有机质含量估测研究[J]. 地球与环境, 2024, 52(3): 375-385.