1. 引言
中国在2000年前开始种植茶叶,现在已经遍布世界各地。茶是中国的传统饮料,受到全世界的喜爱。茶能减轻人体的炎症和疼痛,能有效降低体内的血压和胆固醇含量,还能在一定程度上降低人体脂肪含量 [1] 。目前,我国评价茶叶质量的主要方法是通过感官、嗅觉、味觉等感官来判断。该方法耗时较长,评价结果容易受到评价者身体健康状况、思想情感等诸多主观因素的影响。
可见–近红外光谱的鉴别技术具有无损、高效、简单、低成本等优势 [2] 。如,样品的光谱测量可在约1 min内完成。检测到的数据可以通过建立的各种模型获得;该频段可以通过光纤传输,可以应用于各种复杂环境的远程分析;分析成本低,操作人员要求低;无损检测,重复性好 [3] [4] [5] 。其中基于近红外光谱技术的研究很多,例如Schulz等 [6] 利用近红外光谱技术结合偏最小二乘法分析韩国绿茶中茶多酚和生物碱含量,表明近红外光谱可用于绿茶中茶多酚和生物碱含量预测;陈全胜 [7] 采用净分析物预处理方法对原始光谱进行预处理,并采用偏最小二乘法建立模型,研究表明净分析物预处理方法可以有效简化绿茶中儿茶素含量预测模型;周小芬等 [8] 采用近红外光谱结合偏最小二乘法分别建立了大佛龙井干茶色、泽、汤色、香气、滋味、叶底得分及五因子总分定量分析模型,并鉴别茶叶品质。
本文利用近红外光谱技术对不同等级的红茶进行判别,通过比较多种不同的光谱预处理方法对茶叶等级判别的影响,从而确定合适的近红外光谱分析茶叶等级的预处理方法,以达到简化模型的运算过程。利用特征波长提取方法进行原光谱数据降维,最后挑选出最优的红茶等级判别模型。并利用鉴别模型预测红茶的等级,为红茶等级判别提供了一种快速、高效的鉴别途径。
2. 材料与方法
2.1. 实验仪器
Avantes公司生产的Avaspec-2408标准光纤光谱仪,测量范围为400~1000 nm,光谱采样的波数间隔为5 cm−1,扫描次数为10次,探头视场角为15˚。微型植物破碎机,由天津泰斯特仪器有限公司生产。实验仪器的系统框图如图1所示。

Figure 1. System diagram of the experimental instrument
图1. 实验仪器的系统框图
2.2. 样品制备及光谱采集
实验样品为贵天下红茶,茶叶等级分为一级、二级和三级,每个等级取40份样本,总共包含120份样本。使用微型样本粉碎机粉碎茶叶样本, 放在直径2.2 cm,高0.4 cm的培养皿中。为了减小实验误差,每次测量前都进行仪器黑白矫正,实验中探头与样品茶叶间距为2.4 cm。利用光谱仪采集茶叶样本数据,对每个样本采集3次光谱,以3次光谱数据的平均值作为原始光谱建模。样本按3:1的比例分为校正集(90份样品)和预测集(30份样品) (表1)。
2.3. 光谱预处理方法
在实验中,由于仪器老化、环境变化,样品颗粒度较大等原因会造成样品光谱基线漂移,散粒噪声及白噪声较大,从而影响光谱数据的正确性及稳定性。为消除光谱中的噪音,提高光谱的信噪比,实验采用多种数据预处理方式对光谱数据进行降噪。实验采用的预处理方法有移动平均平滑(Moving Average Smoothing)、高斯滤波平滑(Gaussian Filter Smoothing)、中值滤波平滑(Median Filter Smoothing)、卷积平滑(SG Smoothing)、多元散射校正(Multiplicative Scatter Correction)、去趋势(De-Trending)、标准正态变换(Standard Normal Variate)、正交信号校正(Orthogonal Signal Correction)。
其中,卷积平滑是平滑和导数处理方法的结合,可以消除光谱中的高频噪音及位移变化 [9] ;多元散射校正是通过分离光谱数据中的光散射信号和光吸收信息,消除颗粒分布的不均匀、装填紧密度、湿度等不同而产生的散射噪音 [10] ,以提高光谱的信噪比;去趋势算法通常是用于标准正态变量变换处理后的光谱,用来消除漫反射光谱的基线漂移 [11] ;标准正态变换可以除去样本分布不均匀,表面散射等对光谱数据的影响 [12] ;正交信号校正能大幅提高近红外模型的预测能力和模型的稳健性 [13] 。
2.4. 偏最小二乘回归
偏最小二乘回归(PLSR)是一种新的多变量统计分析方法,它结合了多元线性回归分析,变量主成分分析和变量之间的典型相关分析,实现了回归建模和数据结构简化。两组变量的相关分析。此外,PLSR允许自变量的数量大于样本数量,这对于变量之间的多重相关性或样本点过少的回归问题是一个很好的解决方案。
以矩阵表示的回归模型如下
(1)
其中Y是
阶的观测值向量,X是
阶设计矩阵,
是
阶的回归系数向量,
是
阶的随机误差向量 [14] 。
本文采用以下参数评价模型预测效果:校正集相关系数
、预测集相关系数
、校正集均方根误差RMSEC、预测集均方根误差RMSEP。其中,相关系数越大,均方根误差越小,模型的预测性能越好。
3. 结果与分析
3.1. 不同等级的红茶可见–近红外光谱特征
三种红茶的可见–近红外光谱曲线如图2所示。从图中可以看出,不同等级红茶的原始光谱曲线趋势基本相似,即红茶中含有的物质基本相同。由于1级和3级茶的光谱吸收峰强度大致相同,因此原始光谱无法区分红茶的等级,因此可以通过分析和处理原始光谱数据来建立不同等级的鉴别模型。

Figure 2. The visible-near infrared spectrum curves of three different grades of Black tea
图2. 3个不同等级的红茶可见–红外光谱曲线
3.2. 不同预处理PLSR建模比较
近红外光谱分析时,原始光谱数据主要受到电子噪声、光散射、基线漂移、光程变化等因素的干扰,为了提高信噪比和消除基线漂移,得到更优的光谱数据,通常进行数据预处理。本文采用八种不同的预处理方法对原始光谱数据进行预处理,建立了不同预处理方法下的PLSR模型,比较并选择最佳的预处理方法。预处理方法的建模结果如下:由表2可以看出,对红茶进行SG-smoothing预处理的模型效果最好,其预测集决定系数(
)最高(0.9854),均方根误差(RMSEP)最低(0.2882)。因此,使用SG-smoothing平滑后的数据进行后续的建模。

Table 2. The PLSR/SVMR model of different pretreatment
表2. 不同预处理PLSR/SVMR建模
3.3. 特征波长的提取
3.3.1. 基于连续投影算法的特征波长选择
连续投影算法(SPA)通过确定数据矩阵中具有最小冗余信息的变量集来最小化变量之间的共线性,从而可以通过使用几列原始数据来概括大多数样本的光谱信息,减少信息重叠 [15] 。
在本实验中,利用MATLAB自编程连续投影算法程序提取光谱数据的特征波长,最终确定的变量数量如图所示。从图3中可以看出,提取了六个特征波长,图中的白色小方块表示特征波长的位置,分别为413.266,429.733,439.133,443.243,446.177和955.601 nm。因此,与原始光谱波段(1057个波段)的总数相比,波段的总数减少了99.43%,大大简化了模型。

Figure 3. The characteristic wavelength extracted by SPA
图3. SPA提取特征波长图
3.3.2. 基于竞争性自适应重加权算法的特征波长选择
竞争自适应加权算法(CARS)是一种基于达尔文进化论的“适者生存”蒙特卡罗采样和偏最小二乘回归(partial least squares regression,PLSR)方法的特征波长优化方法。首先,使用蒙特卡罗采样方法从校正集中选择样本,并执行PLSR处理。波长变量的回归系数的绝对值用作索引,选择具有大索引值的变量以去除索引值小的变量。要消除的变量数由衰减指数法确定(Exponentially Decreasing Function,EDF),剩余波长变量使用自适应加权算法(Adaptive Reweighted Sampling,ARS)来选择波长,执行PLSR建模,以及选择具有最小均方根误差的模型(Root Mean Square Error of Crossvalidation,RMSECV)。相应的波长变量作为所选择的特征波长变量 [16] [17] 。
在该实验中,使用MATLAB编译的CARS程序提取光谱数据的特征波长。图4是提取CARS的特征波长变量的过程。图4(a)表示出变量提取的个数与采样次数的关系。从图中可以看出,随着采样次数的增加,特征波长选择的趋势从快逐渐到慢,表示出变量提取的个数与采样次数的关系:先粗选再精选。图4(b)中显示出交互验证均方根误差随采样次数增加而发生变化的情况。可以看出,在1~17次采样过程中,RMSECV的值不断下降,表明筛选过程中去除的变量与红茶的等级无关。然而,在17次采样后,RMSECV的值逐渐增加,表明在筛选过程中除去了与红茶等级相关的重要变量,最终导致RMSECV值的增加。图4(c)为波长变量筛选过程中各波长变量回归系数的变化趋势。不同颜色的曲线代表不同采样变量的回归系数,曲线的条数为采样变量的个数,图中虚线所对应的位置为交互验证均方根误差最低的点,各线表示各个变量随采样次数的增加,其回归系数的变化情况。根据RMSECV最小原则,当采样次数为17时,交互验证均方根误差达到最小,此时的变量提取个数为200。在17次采样后,表明在筛选过程因为采样变量的重叠和抽样变量的减少,导致波长吸收峰的平均值和实际值的相差变大,相关性变小,所以回归系数逐渐增加。

Figure 4. The characteristic wavelength extracted by CARS
图4. CARS提取特征波长图
3.3.3. 基于竞争性自适应加权重加权算法结合连续投影算法的特征波长选择
首先采用竞争自适应加权CARS算法首次选择光谱变量,然后采用连续投影算法SPA第二次提取关键变量。CARS算法可以消除共线性信息,同时消除无信息变量。SPA算法可用于校准特征样本的优化 [18] 。
光谱数据筛选出的特征波长如图所示。由图5可知,通过二次筛选最终提取了11个特征波长,分别为415.026、426.794、429.733、431.497、439.721、445.59、456.732、702.249、823.613、947.358、997.753 nm。分析下图发现,在波长约为450 nm~700 nm之间没有特征波长点,而该波长区间为色素的光谱吸收区间。这表明该红茶不能通过色素的吸收光谱特征进行等级判别。

Figure 5. The characteristic wavelength extracted by CARS + SPA
图5. CARS + SPA提取特征波长图
3.3.4. 基于移动窗口的特征波长区间选择
MWPLSR选择一定的窗口宽度值,移动窗口宽度,并使用窗口范围内的光谱数据进行建模,然后选择RMSECV值最小的区间作为最佳建模波段。
本次试验将窗口宽度设置为90~190的范围,窗口宽度间隔为10。在不同窗口宽度下筛选的原始光谱数据的波段组合和模型结果如表3所示。可以看出,当窗口时宽度为180,建模效果最佳,达到92%。

Table 3. The best wave band and related results obtained by SG-smoothing pre-processed spectral data under MWPLS
表3. SG-smoothing预处理后的光谱数据在 MWPLS 下获得的最佳波段及相关结果
3.4. 基于特征波长的建模结果比较
实验最后对基于SPA、CARS、CARS-SPA和MWPLSR算法筛选的特征波长数据和全波段数据进行PLSR建模,结果如表4所示。由表可知,通过四种算法筛选的特征波长数目,降低了模型的复杂度。CARS算法的选择的特征波长建立的模型预测效果较优,预测集相关系数达到了0.9907358以上。CARS,SPA都是挑选的波长点,但具有信息的光谱通常具有连续性,一般来说波段建模应该比波长建模的效果要好,SPA的特征波长点集中在400 nm左右和900 nm;CARS + SPA叠加挑选的特征波长也大部分集中在400 nm左右;同样的MWPLSR所选择的特征波段为754.5 nm~894.5 nm;以上三种方法所挑选的特征波长点没有完全覆盖整个400 nm到1000 nm波段,所以不能完整拟合整个光谱图的信息。而CARS所挑选的200个波长点完整覆盖了整个400 nm到1000 nm波段,能够较高保真地拟合整个光谱图的信息。综上分析得出,CARS算法建模的方法对于红茶等级具有更好的鉴别能力。

Table 4. The PLSR model of different selection method of characteristic wavelength
表4. 不同特征波长的选择方法的PLSR建模
3.5. 模型验证
将茶叶样本预测集中30份样品的光谱通过鉴别模型进行检验,30份样品中等级分别为一、二、三的样本各占10份。分析图6可知,通过模型预测的等级与样本真实等级进行比较,得到真实值与预测值的相关系数(
)达到0.9907358,表明预测等级近似等于真实等级,模型效果较好。

Figure 6. Distribution of true and predicted values of tea grade identification model
图6. 茶叶等级鉴别模型的真实值与预测值分布
4. 结论
实验采用AvaSpec-2408标准型光纤光谱仪,获得3种不同等级的红茶可见–近红外光谱数据,采用8种不同的预处理方法处理原始光谱数据,然后使用SPA,CARS,CARS-SPA和MWPLSR这4种波长选择方法对预处理后的光谱数据降维。分别比较了4种模型建模的结果,发现4种模型都取得了很好的预测效果,其预测集相关系数均达到了0.9以上。
其中CARS模型预测效果最优,
、RMSEP分别为0.9907358、0.079443,其原因是CARS挑选的有效波长数目较多,能较大程度上重现原始光谱信息,因此将基于CARS-PLSR模型作为红茶等级鉴别的预测模型。SPA与CARS-SPA特征波长挑选方法虽然都极大程度上降低了光谱数据的维度,但由于其挑选的有效波长具有不完整性,不能完全表达出光谱信息,在460~700 nm波段无特征波长点,所以其
值不能达到最优。MWPLS方法保证了建模光谱的连续性,但其缺点是只能表达某一窗口波段上的光谱信息,从样品的光谱曲线来看,光谱曲线简单,但在可见–近红外光谱区域都具有小的反射峰,仅仅选择某一波段用来建立模型,具有一定的局限性。综上所述,基于可见–近红外光谱的CARS-PLSR模型可用于区分该红茶的等级。
基金项目
国家自然科学基金(11164004)和贵州大学SRT项目。
NOTES
*通讯作者。