1. 引言
大豆作为我国主要的农业产品之一,在我国农业上占有重要地位。传统方法大多根据大豆种子的形态、纹理和大小上的差异对其品种分类。但由于多数大豆种子品种间的外观差异不甚明显,容易出现误判,因此传统方法较难对大豆种子的品种做出较为准确的分类鉴别。有必要研究出一种准确、快速的大豆种子品种分类鉴别方法。
高光谱成像法具有无损样品、检测速度快和可批量检测等优点,近年来在食品安全、医学诊断和航天领域应用广泛 [1] [2] [3] [4]。2019年,Zhu等 [5] 人采集了10个品种的大豆的高光谱图像,对图像进行了预处理后,采用不同模型对其进行了分类,结果表明经多元散射校正MSC——竞争性自适应重加权算法CARS——集成学习组合的方式识别效果最高,交叉验证后精度达到99.8%。同年,Wang等 [6] 人基于高光谱图像技术对10个品种的大豆进行了分类,采用主成分分析(PCA)对数据降维,从PCA选取的特征图像提取纹理参数(熵、能量等),结合遗传算法优化BP神经网络(GA-BP)的预测模型准确率达到92%。2020年,李亚婷 [7] 基于高光谱技术采集了不同程度老化的大豆种子,对数据进行降噪后采用堆叠自动编码器(SAE)选取了59个特征谱段,并建立支持向量机(SVM)模型。实现了高光谱图像对大豆种子的活力鉴别,验证集的准确率为98.67%。
以上研究表明,高光谱成像法对大豆种子的品种的分类鉴别具有可行性。上述已发表的研究在大豆品种、活力鉴别等方面取得了一定成果,但针对我国东北地区的大豆研究还不够深入,所应用的分类模型方法也不够全面。本文以东北地区的6个品种大豆种子作为实验样品,600粒大豆样品作为研究对象,运用高光谱成像法获取其大豆种子的反射光谱均值曲线,并结合极限学习机(ELM)和随机森林(RF)两种模型对其做出品种分类,丰富了大豆品种分类的模型方法,实现了基于高光谱成像法对大豆种子品种的分类鉴别。
2. 实验部分
2.1. 实验样品
选取6个品种的大豆种子为实验样品,6个品种分别为东生9、绥农42、绥农26、黑农51、黑农61和合农75,所有大豆样品均来自永吉县农业技术推广站,且6个品种大豆均被广泛培育种植,具备代表性和普遍性,能够客观地说明实验结果。6种大豆如表1所示。
![](Images/Table_Tmp.jpg)
Table 1. Soybean seeds of 6 different varieties
表1. 6个不同品种大豆种子
每个品种选取100粒豆体匀称,色泽均匀,完整无损,无感染病害的大豆种子作为实验样品,由于大豆种子表面光滑且呈椭球状,非常容易滚动,导致高光谱数据采集困难,而且后续提取数据困难,为方便大豆种子的高光谱数据提取的准确和便捷,故采用如图1所示的大豆筛作为大豆样品摆放的磨具,大豆筛共有100个孔位,刚好满足本实验的要求。为避免其他因素对光谱图像产生影响,实验时将大豆样品放入磨具,再将模具中大豆平稳地轻放在由黑色摄影布(反射率 ≤ 0.5%)包裹的硬卡纸上,减少杂散光对实验的影响。
2.2. 实验设备
高光谱以纳米级高分辨率,光谱采集范围从392.38 nm到1011.01 nm,共462个波段,且每个波段都有其相应的光谱图像,具有辨识度高,表征数据类型多样,采集到的信息量大优点,在遥感探测方面的卓越贡献,更加被广泛运用于其他领域范畴,拥有更好的发展前景。实验采用RESONON台式高光谱成像仪为研究平台,RESONON台式高光谱成像系统主要由照明系统,摄像系统,控制系统构成。图2是高光谱的实验装置示意图。
![](//html.hanspub.org/file/13-2960211x9_hanspub.png?20220414091545996)
Figure 2. Schematic diagram of hyperspectral experimental device
图2. 高光谱的实验装置示意图
2.3. 数据采集
考虑到光强分布不均会对图像带来噪声影响,采集高光谱图像数据之前须对实验设备进行黑白板的反射校正。其校正后的图像由以下公式计算获得,公式中原始图像为I,扫描白板得到图像为W,然后用黑色镜头盖遮住镜头,扫描得到全黑色的图像B,最后得到校正后的图像R。
在采集高光谱图像数据时,为获取样本数据不失真,影像清晰,大小适中。反复调节实验设备参数,总结多次实验经验,经过调整,最后确定的实验参数如下:光谱范围为392.38~1011.01 nm,镜头到样品间的距离45 cm,扫描速度为0.11 cm/s,归位速度为2.50079 cm/s,点动速度为1.0 cm/s,帧率为9.8 Hz,积分时间为46.701 ms。
实验共采集6种大豆种子,每种各100粒的高光谱图像。由于所得大豆样品的高光谱图像数据共有462个波段,数据量庞大,故只展示各大豆样品在653.45 nm波段的高光谱图像,如图3所示。
3. 数据处理
3.1. 感兴趣区域选取
感兴趣区域ROI提取就是将研究对象从整个高光谱图像中提取出来,从而去除背景或其他因素对研究对象光谱数据造成的不利影响 [8]。在每粒大豆样品的居中部位选取30 × 30 pixels大小的感兴趣区域,以该区域全部像素光谱平均值作为该样品的反射光谱均值光谱曲线,提取所有大豆种子样本的平均反射光谱。图4为大豆样品东生9中某两粒大豆的感兴趣区域的提取图示,其余所有大豆样品的感兴趣区域提取皆采用此方法。
![](//html.hanspub.org/file/13-2960211x17_hanspub.png?20220414091545996)
Figure 4. Extraction diagram of region of interest
图4. 感兴趣区域的提取图示
3.2. 卷积平滑处理(Savitzky-Golay)
SG平滑即Savitzky-Golay滤波平滑,其采用多项式进行了数据,基于最小二乘法,能够保留分析信号中的有用信息,消除随机噪声 [9]。选择卷积平滑的预处理方法,提高大豆样品的反射光谱的平滑性,并降低噪音的干扰,使大豆的有效高光谱数据更加得以凸显。图5为大豆样品在S-G平滑后的反射光谱均值光谱图。由图可知,光谱数据经过卷积平滑处理后,光谱曲线光滑,各品种大豆的反射光谱曲线对比较为清晰,为后续数据处理分析奠定了良好的基础。
4. 高光谱特征波段选择
此次实验使用的成像光谱仪的光谱范围为392.38~1011.01 nm,共有462个波段。由图5的大豆样品S-G平滑后的反射光谱均值图可知,采集到的462个波段范围内没有明显的噪声波段。因此,所采集的462个波段上的反射光谱信息均对大豆品种分类鉴别有效。不过由于高光谱信息繁杂,数据量非常大,导致存在对高光谱信息建模难度大,模型准确率较低且建模时间较长等问题。优化高光谱特征波段选择,选取反射光谱中对分类最有价值的特征波段变得尤为重要。所以本文将每个品种的100组大豆样品分别做平均处理,得到6种大豆样品的平均反射光谱曲线的对比图,如图6。由图可知,在420~520 nm、550~630 nm、640~742 nm、810~980 nm波段范围处,6种大豆样品的平均反射光谱曲线差异最为明显,由此选择波段中筛选出差异最大的几个波段,即四个波段范围的波峰和波谷处,分别为:455.54 nm、479.3 nm、604.04 nm、657.46 nm、705.72 nm、856.89 nm、918.07 nm、953.54 nm。大大地减少了反射光谱中的重复、冗余的数据,且保留了反射光谱中最能突出大豆品种差异的波段,最大程度上还原原光谱数据对于大豆品种分类的有效信息。从而弱化鉴别模型复杂度,达到提高模型的分类正确率并缩短模型预测时间的效果。
![](//html.hanspub.org/file/13-2960211x24_hanspub.png?20220414091545996)
Figure 6. Comparison of average reflectance spectra of six soybean samples
图6. 6种大豆样品的平均反射光谱曲线的对比图
5. 大豆光谱数据的分类建模方法
经过感兴趣区域(ROI)和卷积平滑(Savitzky-Golay)处理后得到的全谱段光谱曲线,再经过高光谱特征波段优化,选择出6个品种大豆在455.54 nm、479.3 nm、604.04 nm、657.46 nm、705.72 nm、856.89 nm、918.07 nm、953.54 nm波段处的反射光谱作为高光谱的特征波段输入,再分别建立极限学习机(ELM)和随机森林(RF)的分类模型,所得结果如下。
5.1. 极限学习机(ELM)
输入极限学习机(ELM)模型 [10] 的训练集大豆种子样品反射光谱为420个,测试集大豆种子样品反射光谱为180个。图7为特征波段反射光谱的ELM的大豆品种分类结果图,图中红色记号代表大豆种子的预测类别,蓝色记号代表大豆种子的实际类别,其中红色记号与蓝色记号的重合部分代表大豆品种预测正确,未重合部分代表大豆品种预测错误。红色记号与蓝色记号重合越多,预测正确率越高,反之预测正确率越低。在图7中,红色记号与蓝色记号重复较多,但仍有部分红色记号与蓝色记号距离较远,代表分类正确率较低。图8为特征波段反射光谱的隐含层神经元个数对ELM性能影响图,其中红色记号代表预测集正确率,蓝色记号代表训练集正确率,横坐标为隐含层神经元个数,纵坐标为分类正确率。由图可知,其训练集分类正确率和预测集分类正确率较低。输出结果显示,大豆种子样品的特征波段反射光谱经过极限学习机模型分类,其分类正确率为78.22%,经过计时,该模型预测时间为11 s。
5.2. 随机森林(RF)
输入随机森林(RF)模型 [11] 的训练集大豆种子样品反射光谱为420个,测试集大豆种子样品反射光谱为180个。图9为特征波段反射光谱的随机森林的大豆品种分类结果图,图中红色记号代表大豆种子的
![](//html.hanspub.org/file/13-2960211x25_hanspub.png?20220414091545996)
Figure 7. Soybean variety classification results of ELM with characteristic band spectrum
图7. 特征波段光谱的ELM的大豆品种分类结果图
![](//html.hanspub.org/file/13-2960211x26_hanspub.png?20220414091545996)
Figure 8. Effect of the number of hidden layer neurons of characteristic band spectrum on ELM performance
图8. 特征波段光谱的隐含层神经元个数对ELM性能影响图
预测类别,蓝色记号代表大豆种子的实际类别,其中红色记号与蓝色记号的重合部分代表大豆品种预测正确,未重合部分代表大豆品种预测错误。红色记号与蓝色记号重合越多,预测正确率越高,反之预测正确率越低。在图9中,红色记号与蓝色记号基本全部重合,代表分类正确率较高,预测效果较好。图10为特征波段反射光谱的随机森林中决策树棵树对性能的影响图,其中红色记号代表预测集正确率,蓝色记号代表训练集正确率,横坐标为随机森林中决策树棵树,纵坐标为分类正确率。由图可知,其训练集分类正确率和预测集分类正确率均较高,预测效果较好。输出结果显示,大豆种子样品的特征波段反射光谱经过随机森林模型分类,其分类正确率为98.89%,经过计时,该模型预测时间为12 s。
![](//html.hanspub.org/file/13-2960211x27_hanspub.png?20220414091545996)
Figure 9. Classification results of soybean varieties in random forest with characteristic band spectrum
图9. 特征波段光谱的随机森林的大豆品种分类结果图
![](//html.hanspub.org/file/13-2960211x28_hanspub.png?20220414091545996)
Figure 10. Effect of decision tree on performance in random forest with characteristic band spectrum
图10. 特征波段光谱的随机森林中决策树棵树对性能的影响图
5.3. 大豆品种分类鉴别的方法比较
对比特征波段的反射光谱建立的极限学习机(ELM)和随机森林(RF)的模型正确率和模型预测时间,得到RF模型的分类正确率远高于ELM模型,ELM模型的预测时间仅比RF模型的预测时间快1 s。综合比较,经过S-G平滑和高光谱波段优化的特征波段运用随机森林(RF)模型是分类准确率较高、预测时间较快的分类方法,正确率达到98.89%,预测时间为12 s,可完成对大豆种子品种的分类鉴别。
6. 结论
采用高光谱成像法,获取了6种大豆样品在392.38~1011.01 nm的高光谱图像,提取了其反射光谱曲线。根据不同种类大豆的反射光谱曲线差异选取了8个特征波段,采用随机森林(RF)和极限学习机(ELM)进行了分类,结果RF所得的分类正确率为98.89%高于ELM的准确率78.22%,且模型预测时间分别为12 s和11 s。本文得到了大豆品种分类准确率尽可能高、尽可能快的高光谱数据处理分析手段,为大豆种子品种分类鉴别和智慧农业提供了参考。
基金项目
吉林省自然科学基金项目(2020122348JC),吉林省发改委创新能力建设项目(2020C019-6)。
NOTES
*通讯作者。