基于近红外光谱技术的水蜜桃糖度检测模型性能研究
Research on the Performance of Juicy Peach Sugar Content Detection Model Based on Near Infrared Spectroscopy
DOI: 10.12677/OE.2020.102006, PDF, HTML, XML,  被引量 下载: 565  浏览: 1,060  科研立项经费支持
作者: 郭甜甜, 刘苗苗, 罗 越, 张文莉, 娄淑聍:温州大学电气与电子工程学院,浙江 温州;孙一叶*:温州大学财务计划处,浙江 温州
关键词: 水蜜桃近红外光谱数据融合可溶性固形物Peach Near Infrared Spectroscopy Data Fusion Soluble Solids Content
摘要: 通过数据融合技术充分利用不同近红外光谱仪器间的信息,提高水蜜桃定量检测模型的可靠性。实验通过flame-NIR和USB2000+光谱采集系统分别采集相同水蜜桃样本的近红外光谱数据。之后,利用阿贝尔折光仪测出所有样本糖度真实值,分别构建糖度定量模型。在其基础上,构建两种光谱数据的融合模型,融合数据经过无信息变量消除(UVE)和遗传算法(GA)变量选择后构建UVE-PLS、GA-PLS。结果显示,相比于未进行数据融合构建的糖度定量预测模型,最优融合模型GA-PLS交叉验证均方根误差减少了22.19%、33.79%,均方根误差分别减少了14.24%、49.67%。结果表明,数据融合模型能充分利用flame-NIR和USB2000+光谱仪器的糖度信息,具有更好的检测能力。
Abstract: The data fusion technology makes full use of the information between different near-infrared spectroscopy instruments, improves the reliability of the peach quantitative detection model, and realizes the rapid non-destructive detection of the peach sugar content. In the experiment, the near-infrared spectrum data of the same peach samples were collected by flame-NIR and USB2000+ spectrum collection system. After that, the true sugar value of all samples was measured by Abel refractometer, and a quantitative detection model of peach sugar content was constructed respectively. On the basis of it, a fusion model of two kinds of spectral data is constructed, and the fusion data is subjected to the elimination of information-less variables and the selection of genetic algorithm variables to construct UVE-PLS and GA-PLS. Results showed that the fusion model developed on two kinds of spectral data performed better than the quantitative model on the basis of the univocal spectral data, and the root mean square errors of cross validation of the optimal GA-PLS fusion model reduced 22.19% and the 33.79% compared with the univocal model, as well as that the root mean squared error of prediction reduced 14.24% and 49.67%. The results show that the data fusion models are superior to the pre-fusion models and have better detection capabilities. They can make full use of the sugar content information of flame-NIR and USB2000+ spectroscopic instruments to achieve quantitative detection of peach sugar content.
文章引用:郭甜甜, 刘苗苗, 罗越, 张文莉, 娄淑聍, 孙一叶. 基于近红外光谱技术的水蜜桃糖度检测模型性能研究[J]. 光电子, 2020, 10(2): 46-51. https://doi.org/10.12677/OE.2020.102006

1. 引言

我国桃子已有3000多年的孕育历史,种类繁多。因此,在采摘和销售过程中极易混合,从而影响水果质量,严重降低了产品的竞争力。糖度作为评估水果风味的一个重要指标,其在一定程度决定了水果质量的好坏。因此,依据糖度对采摘后的桃子进行等级分类,能提高水果的竞争力。

当前多通过人的经验或感官鉴别水果糖度,这些方法破坏了水果的完整性,检测后无法再次销售。因此,探究无损检测对实现水果的大规模检测具有重要意义。目前,常用的水果无损检测方法有高光谱成像 [1]、拉曼光谱 [2]、近红外光谱 [3] 等。其中,近红外具有检测速度快,无损、成本低等特点 [4],在水果检测方面有广泛应用,例如梨 [5]、橙子 [6]、苹果 [7] 等。

近红外光谱技术是通过分析物质对光的吸收、反射等获取信息,光谱仪器的差异会导致结果大相径庭。在以往的研究中大多使用单一仪器对水蜜桃糖度进行研究,鲜少结合多种仪器进行分析。单一仪器检测虽实现水蜜桃糖度含量检测,但获取的光谱信息存在差异,建立的水蜜桃糖度定量检测模型的预测效果并不理想。本研究探究两台近红外光谱仪器采集的相同水蜜桃光谱数据的检测模型性能,另外通过数据融合技术和变量筛选方法进一步提高模型检测性能,以实现水蜜桃的等级分类。

2. 实验步骤

2.1. 样本准备

实验以温州某果园的采摘的水蜜桃为实验对象,挑选出270个外形无损坏,大小相似的水蜜桃作为实验样本。实验前对全部样本清洁、编号,之后将全部样本均放置在空调室内6 h,使所有样本和室内温度保持一致。

2.2. 光谱采集

本研究采用海洋光学近红外光谱检测系统采集水蜜桃的光谱数据,系统主要由光谱仪(型号为flame-NIR、USB2000+)、光源、光纤、电源(5 v直流电源)、电脑等组成。光源照射水蜜桃样品周围,部分光经样品的反射,通过光纤传输到光谱仪,光谱仪将光信号转换后发送给电脑。flame-NIR光谱仪的扫描波段范围在900~1700 nm,分辨率为2 nm。USB2000+光谱仪检测器的控制范围在200~1100 nm,积分时间的范围为1 ms~65 s。其中检测器的波段范围、分辨率等均不相同,这种系统差别导致采集的光谱形成不同位置的波峰。按照编号大小依次利用两种光谱采集系统获取相同水蜜桃样本的近红外光谱。根据峰的位置分布,去除掉比较平坦的光谱波段。最终,保留flame-NIR光谱仪波段范围在902.59~1648.61 nm光谱,保留USB2000+光谱仪波段范围在472.02~888.12 nm光谱,采集光谱图如图1所示。

(a) (b)

Figure 1. Spectra collected by two spectrometers. (a) Flame-NIR spectrometer collected spectrum; (b) USB2000+ spectrometer collected spectrum

图1. 两台光谱仪采集光谱图。(a) flame-NIR光谱仪采集光谱;(b) USB2000+光谱仪采集光谱

2.3. 糖度测量

阿贝尔折光仪广泛地用于液体的定量检测,可以准确的测量出水果中糖度含量的真实值,理论基础是光的折射。近红外光谱数据采集后,分别取水蜜桃不同光谱获取位置的果肉,取出汁液,通过阿贝尔折光仪读出水蜜桃糖度的精确值,水蜜桃样品均检测三次,取平均值作为最终结果。根据编号将光谱数据和真实糖度值一一对应,结合偏最小二乘,建立水蜜桃糖度的定量检测模型,预测未知水蜜桃样本的糖度含量。糖度统计结果如表1

Table 1. Distribution of sugar content in peach samples

表1. 水蜜桃样品中糖度含量的分布

2.4. 数据融合

为了可以提供更多有关样本的信息,获得更高的准确率,将不同来源之间的数据进行融合。通过使用不同仪器之间的独特信息来增强技术之间的协同作用,以便最终能够获得更好的预测结果。但同时数据融合后易增加光谱维度,对融合后的数据进行变量选择可以减少模型的复杂度。研究中将flame-NIR近红外光谱仪和USB2000+光谱仪分别采集的光谱数据做了数据合并。使两个光谱仪的数据简单地按样本连接到一个矩阵中,形成一个259行 × 1444列的矩阵。该矩阵的行与全部水蜜桃样本个数相等,列与flame-NIR和USB2000+两台光谱仪所测量信号的变量和相等。数据融合示意图如图2所示。

Figure 2. Schematic diagram of the fusion of spectral data collected by two spectrometers

图2. 两台光谱仪采集光谱数据融合示意图

2.5. 模型评价标准

常用的模型评估指标包括交叉验证均方根误差(Root-Mean-Square Error of cross Validation, RMSECV)、预测均方根误差(Root-Mean-Square Error of Prediction, RMSEP)、训练集相关系数(Rcv)、预测集相关系数(Rp)。其中,RMSECV和RMSEP越小,R越大,说明模型的预测能力和相关性强。

3. 结果与分析

3.1. 原始光谱数据模型分析

分别对flame-NIR光谱数据、USB2000+光谱数据、融合光谱数据建立水蜜桃糖度定量检测模型,即f1f2f3,数据结果如表2所示。从表中可以看出,基于flame-NIR和USB2000+光谱仪建立的模型f1f2均在一定程度上实现了水蜜桃糖度定量检测,训练集的相关系数分别为0.8216、0.7258,预测集均方根误差分别为0.9946、1.3489,两种光谱检测系统具有不同的预测能力。为了使模型具有更好的可靠性,将两种光谱检测系统测量的光谱数据做了融合,基于融合后的数据建立水蜜桃糖度的定量检测模型,融合后建立的定量检测模型的交叉验证均方根误差相比于f1f2分别减少了3.24%、14.84%,均方根误差相比于f1增加了9.1%,相比于f2减少了26.33%。融合模型的预测误差低于f1,但仍高于f2,融合数据预测效果并未优于flame-NIR光谱数据的建模效果。这可能是因为数据融合后,虽然样本总数未改变,但增加了光谱变量长度,导致模型数据量较大,所以出现单一模型的数据源优于融合模型数据源。

Table 2. PLS prediction model based on single spectrum and fusion spectrum data

表2. 基于单一光谱及其融合光谱数据建立的PLS预测模型

3.2. 变量选择模型分析

由于考虑到融合后的数据形成的矩阵较大,具有很大的维度,并包含来自不同仪器的冗余信息,相比于其他未合并的矩阵,可能会降低数据的性能。因此,对融合后的数据进行变量筛选,以便可以找出最优的建模效果,将其用于水蜜桃糖度定量检测。融合光谱数据经过无信息变量消除法和遗传算法变量选择后构建模型UVE-PLS、GA-PLS,数据结果如表3所示。从表中可以看出,UVE-PLS模型用了全部光谱变量的8.03%,相关系数Rcv达到0.8734,交叉验证误差相比于f1f2f3,分别减少了12.65%、24.25%、9.41%,均方根误差分别减少了4.27%、39.7%、13.37%。经过GA变量选择后构建的GA-PLS模型用了全部光谱变量的6.44%,相关系数Rcv达到0.9028,交叉验证误差相比于f1f2f3,分别减少了22.19%、33.79%、18.95%,均方根误差减少了14.24%、49.67%、23.34%。模型UVE-PLS和GA-PLS具有比单一模型更好的相关性和预测能力,且其均优于未进行变量选择的融合模型f3图3为经过变量筛选后构建UVE-PLS和GA-PLS模型的水蜜桃糖度的测量值和预测值的关系图。

Table 3. The results of fusion data variables after selection of UVE and GA variables

表3. 融合数据变量经过UVE和GA变量选择后结果

Figure 3. The relationship between the measured value and the predicted value of the model after variable selection. (a) UVE-PLS model; (b) GA-PLS model

图3. 变量筛选后模型测量值与预测值关系图。(a) UVE-PLS模型;(b) GA-PLS模型

4. 结论

实验利用不同近红外光谱仪器实现了水蜜桃定量无损检测,之后结合不同仪器光谱数据的融合技术用于提高水蜜桃的糖度定量检测模型性能,与单一技术相比,不同仪器输出融合之后,虽优于USB2000+光谱数据建模效果,但融合后的数据量较大,出现了flame-NIR光谱数据优于融合后的数据。因此,又对融合后的数据做了变量选择,建立的融合模型UVE-PLS和GA-PLS,改善了单个结果,具有更可靠的预测能力。数据融合为水蜜桃等级划分提供了技术支持,具有重要的研究价值和经济意义。

基金项目

温州大学开放实验室一般项目(JW19SK35);温州大学大学生创新创业训练计划项目(JWSC2019112)。

NOTES

*通讯作者。

参考文献

[1] 马本学, 应义斌, 饶秀勤, 等. 高光谱成像在水果内部品质无损检测中的研究进展[J]. 光谱学与光谱分析, 2009, 29(6): 1611-1615.
[2] 王涛, 裘正军, 张卫正, 等. 基于拉曼光谱技术的枇杷果实β-胡萝卜素含量无损测定研究[J]. 光谱学与光谱分析, 2016, 36(11): 3572-3577.
[3] 马毅, 汪西原. 基于近红外光谱无损检测的水果品质定量分析与预测[J]. 农业科学研究, 2010, 31(3): 16-20.
[4] 孟凡坤, 熊刚, 宋世远. 近红外光谱在油料低温性能检测中的应用[J]. 当代化工, 2018(7): 1529-1532.
[5] Yuan, L.M., Mao, F., Chen, X.J., et al. (2020) Non-Invasive Measurements of “Yunhe” Pears by Vis-NIRS Technology Coupled with Deviation Fusion Modeling Approach. Postharvest Biology and Technology, 160, Article No. 111067.
https://doi.org/10.1016/j.postharvbio.2019.111067
[6] Yuan, L.M., Sun, L.I., Cai, J.R., et al. (2015) A Preliminary Study on Whether the Soluble Solid Content and Acidity of Oranges Predicted by Near Infrared Spectroscopy Meet the Sensory Degustation. Journal of Food Process Engineering, 38, 309-319.
https://doi.org/10.1111/jfpe.12104
[7] Bai, Y.H., Xiong, Y.J., Huang, J.C., et al. (2019) Accurate Prediction of Soluble Solid Content of Apples from Multiple Geographical Regions by Combining Deep Learning with Spectral Fingerprint Features. Postharvest Biology and Technology, 156, Article No. 110943.
https://doi.org/10.1016/j.postharvbio.2019.110943