1. 引言
玉米作为我国农业结构调整与乡村振兴战略实施的重点作物,已成为推动区域经济发展的新动能[1]。真空包装鲜食玉米因其籽粒饱满、风味独特、营养价值突出等特点,兼具低脂肪、低热量与高膳食纤维的优势,日益受到市场青睐。伴随经济发展与消费观念升级,消费者对优质真空包装鲜食玉米的需求不断增加。
然而,在加工与贮藏过程中,热处理及环境因素易导致玉米籽粒产生皱缩与色泽变化,直接影响其外观均匀性[2]。均匀性是表征果实成熟度与新鲜度关键指标,影响消费者的品质感知与购买意愿。目前,行业内仍主要依赖人工目视进行均匀性评估,该方法效率低、主观性强,难以实现稳定、客观的品质控制。因此,开发一种能够量化玉米均匀性的自动化检测方法,对提升产品质量、推动产业智能化升级具有重要意义。
目前,机器视觉技术已广泛应用于农产品品质的无损检测。在玉米检测方面,研究多聚焦于品种分类[3]、霉变缺陷识别[4]及成熟度判定[5],这些工作证实了颜色与纹理等特征的有效性。在均匀性分析方面,学者们针对柑橘[6]、烟叶[7]等,利用形态学、颜色和纹理特征实现了均匀度评价。然而,针对真空包装玉米,其品种特性与加工因素共同作用导致均匀性评价较为复杂,一方面,玉米籽粒本身即存在颜色与形态的固有变异;另一方面,加工过程中的籽粒皱缩及热处理色泽不均,进一步加剧了外观一致性评价的复杂程度,目前尚缺乏一套融合多维度特征的定量化均匀性检测与解析方法。因此,需要构建一种融合新兴图像识别与传统评价方法的玉米整体均匀度判别方法,以实现对该指标的客观量化评估。
综上分析,本文提出一种基于贝叶斯优化XGBoost的真空包装玉米均匀性自动化检测方法。通过提取图像的颜色、纹理与空间分布特征[8],构建贝叶斯优化的XGBoost模型,实现特征筛选与均匀性预测,并结合SHAP方法解析关键特征贡献。通过与不同方法对比,验证模型性能,以期为玉米均匀性检测提供技术支持。
2. 材料与方法
2.1. 玉米图像采集
真空包装玉米图像采集自农业农村部合作企业加工的玉米果穗,共获取图像712张,覆盖了不同的均匀度水平。实验在自然光照下采集玉米图像,以黑色绒布为背景,固定位置摆放玉米果穗,图像采集设备为工业相机,型号为WP-UC200,分辨率为1920 × 1200 (像素),相机软件为CAM-MS,图像格式为.bmp,确保成像条件一致,为后续基于图像分析的玉米均匀度客观评价提供高质量数据基础。采集的真空包装玉米图像如图1所示:
Figure 1. Corn sample diagram
图1. 玉米样本图
2.2. 图像预处理
在本研究中,为了提高真空包装玉米颜色均匀性检测的准确性,我们采用了一系列图像预处理步骤。首先,将原始RGB图像转换为更适合颜色分析的Lab与HSV色彩空间,Lab色彩空间的人眼感知均匀性更好,其L分量代表明度,a、b分量代表颜色对立维度,HSV色彩空间则直观地表征色相、饱和度和明度,便于分离颜色信息。接着,通过图像增强方法调整图像对比度和亮度,使颜色特征更加突出,有助于后续分析。然后,利用图像去噪技术去除图像中的噪点,改善图像质量。为了精确提取玉米表面均匀性相关特征,采用最大类间方差方法[9]对玉米做图像分割处理,以便于后续的均匀性分析。最后,采用膨胀与腐蚀改善分割结果,去除可能的杂散区域,确保分析区域的精确性。
2.3. 评价标准建立
根据NY/T 523-2002《甜玉米》品质评分指标和刘瑶[10] [11]等人的方法,建立了真空包装玉米均匀性的评分标准。由6人组成的品评小组对从随机抽取的真空包装玉米进行定量描述,采取总分100分制,实验结果取平均值。将所有样本划分为三个均匀度等级:均匀(评分74~100分)样本约168张;较为均匀(评分50~73分)样本约392张;不均匀(评分30~49分)样本约152张。评分标准如表1所示:
Table 1. Sensory index scoring table for vacuum-packed corn
表1. 真空包装玉米感官指数评分表
类别 |
74~100分(均匀) |
50~73分(较为均匀) |
30~49分(不均匀) |
籽粒排列 |
整齐紧密 |
基本整齐 |
较为散乱 |
色泽 |
色泽明亮鲜艳,均匀 |
色泽较差,有少量籽粒变色 |
有大量/成片籽粒变色明显 |
纹理 |
表面光滑无皱缩 |
部分颗粒稍有塌陷 |
表面明显皱缩、干瘪 |
3. 模型构建
3.1. XGBoost模型
XGBoost是一种在梯度提升决策树(GBDT)基础上改进的监督式集成学习算法,基本思路是通过迭代构建决策树来逐步优化模型性能。XGBoost以常数初始化,每轮迭代计算损失负梯度,拟合决策树修正残差;节点分裂基于梯度降低损失。学习率控制步长,正则化[12]约束复杂度以抑制过拟合。此外,该算法融合了多项优化技术,包括采用二阶泰勒展开逼近损失函数、依据样本权重调整数据分布、支持并行化计算以及自动处理缺失数据等。这些策略共同提升了算法的运行效率与泛化性能。
XGBoost的目标函数由损失函数和正则化项组成:
(1)
正则项
的数学表达公式为:
(2)
式中,i为训练集中第i个样本点,
代表真实值,
代表预测值,
为训练损失函数,用于衡量模型的预测能力;
为第
棵树的正则化项,与树的复杂度有关,用于抑制模型过拟合;
为第
个叶子节点的权重值,
为当前回归树的叶子结点数量,
和
为控制模型复杂度的惩罚项参数[13]。
在模型训练过程中,采用梯度提升策略,一次添加一个新的回归树到模型中,模型在第
个样本
下的预测值如式(3)所示:
(3)
将式(3)代入式(1),进行二阶泰勒展开,并将原始参数替换为提升树的叶节点权重与结构参数,可得具体的目标函数(4):
(4)
(5)
(6)
表示为样本
的损失函数的一阶导数,
表示为样本
的损失函数的二阶导数,分别对应上式(5)和式(6)。
3.2. 贝叶斯优化算法
在机器学习建模中,超参数优化对提升模型性能至关重要。贝叶斯优化作为一种高效的全局优化方法,由Jonas Mockus在IFIP会议上首次系统阐述[14]。该方法适用于高维非凸空间中的最优解搜索问题,通过构建目标函数的概率代理模型,并利用采集函数引导序贯采样,实现对超参数空间的智能调优。其算法框架主要包含两个核心部分:先验函数与采集函数。本研究采用高斯过程回归作为先验函数,选取改进概率作为采集函数。
高斯过程是一种在连续输入域上定义的统计模型,其核心在于将任意有限个输入点对应的输出视为一个联合高斯分布。在超参数优化问题中,每个点对应于一组XGBoost超参数组合。确定其均值函数与协方差函数(即核函数)后,即可完整定义一个高斯过程。
(7)
式中,
为均值函数,通常为常数,
为协方差函数[15],用来描述函数值之间的相关性,协方差函数的选择取决于对目标函数性质的假设。
采集函数用来确定在何处采集下一样本点,PI采集函数主要用于全局寻优,在解空间内寻找具有较大提升潜力的区域。与之相对,EI采集函数则更偏向于在已知最优解邻域内进行局部精细搜索。针对XGBoost模型中多超参数存在复杂交互关系的特点,需要采用能够兼顾全局探索与交互关系识别的方法。因此,本文选用具有全局搜索特性的PI采集函数,其定义如下:
(8)
其中,
为标准正态累积分布函数,
与
分别为高斯过程预测的均值与标准差,
为当前最优目标值,
为平衡探索与开发的调整参数。
贝叶斯优化流程如图2所示:
Figure 2. Bayesian optimization flowchart
图2. 贝叶斯优化流程图
基于贝叶斯优化的XGBoost模型超参数调优步骤如下:
(1) 确定XGBoost待优化超参数的维度及其可行域范围;
(2) 在XGBoost超参数选择中引入贝叶斯优化框架;
(3) 通过贝叶斯优化算法,在参数空间中搜索使目标函数最优的超参数组合;
(4) 将所得全局最优超参数组合用于训练XGBoost模型,并评估其预测性能;
(5) 若未满足预设的收敛条件,则返回步骤(3)继续迭代优化。
3.3. 模型框架
首先通过标准化图像采集系统获取玉米样本的高分辨率图像,预处理后提取颜色、纹理及空间分布三类特征构成多维特征集合,随后输入RF、SVM、LASSO、XGBoost模型,并以均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R2)评估性能。然后采用贝叶斯优化最佳预测模型(XGBoost)的超参数,最后通过SHAP分析实现预测模型的全局与局部可解释性,揭示影响均匀性的关键视觉特征。总体框架如图3所示:
Figure 3. Overall framework diagram
图3. 总体框架图
4. 实验结果
4.1. 评价指标
回归任务的评价指标主要用于衡量模型预测值与实际值之间的差异。本文采用决定系数(R2)、平均绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)对不同模型性能进行综合评价,由公式(9)~(12)定义。其中,
和
分别为预测值和真实值。
(9)
(10)
(11)
(12)
4.2. 贝叶斯(BO)优化结果
左图展示了优化过程,横坐标60表示优化算法进行了60次迭代。目标函数在迭代过程中波动,红色星标表示最佳值0.8277,显示出优化过程中取得的最优结果。右图展示了优化的收敛情况,在约60次迭代后,最佳目标函数值稳定在0.82附近,表明算法已经收敛。优化过程如图4所示,最终超参数表格如表2所示:
Figure 4. Bayesian optimization diagram
图4. 贝叶斯优化图
Table 2. Parameter optimization ranges and optimal values for the XGBoost model
表2. XGBoost模型参数优化范围与最优值
参数(Parameter) |
含义 |
搜索范围 |
最优值 |
n_estimators |
决策树数量 |
[200, 800] |
800 |
max_depth |
树的最大深度 |
[3, 12] |
5 |
learning_rate |
学习率 |
[0.01, 0.1] |
0.0212 |
subsample |
训练样本采样比例 |
[0.6, 1.0] |
0.7925 |
colsample_bytree |
特征采样比例 |
[0.6, 1.0] |
0.7124 |
4.3. 特征重要性排序
Figure 5. Feature importance ranking chart
图5. 特征重要性排序图
为了避免特征过多从而降低模型的训练速度和泛化能力,需要利用XGBoost模型自动剔除相似或冗余特征。在XGBoost中,特征的重要性可通过计算该特征在所有树中被用作分割样本的次数得到。计算所有特征变量的重要分数,选择重要程度前25的特征作为最终输入特征,并进行降序排序,如图5所示。
4.4. 预测性能分析
使用贝叶斯优化获得的最优超参数(表2)建立了玉米均匀性的预测模型(BO-XGBoost),绘制散点图和残差图,在测试集上的结果见图6:
Figure 6. Model prediction results fitting plot
图6. 模型预测结果拟合图
由图6可知,左图散点几乎总是围绕y = x线聚集,拟合效果较好;BO-XGBoost模型的R2为0.8641,RMSE为3.16,显示出很高的预测精度。右图为残差图,残差均匀分布在零附近,表明模型没有显著的系统性误差;残差的平均值为0.32,标准差为3.14,表明残差较小且随机分布,整体预测性能较好。
为了验证本文所提模型性能的优越性,将BO-XGBoost与基准XGBoost、RF、SVM及LASSO模型的识别效果进行了对比,在相同条件下对真空包装玉米的均匀性进行检测。从测试集中随机截取部分数据用于对比5种模型的预测结果,对各项指标绘制表格,如表3所示:
Table 3. Model performance evaluation table
表3. 模型性能评价表
模型名称 |
RMSE (↓) |
MSE (↓) |
MAE (↓) |
R2 (↑) |
BO-XGBoost |
3.16 |
10.26 |
2.21 |
0.864 |
XGBoost |
3.41 |
11.65 |
2.63 |
0.841 |
RF |
3.42 |
11.70 |
2.49 |
0.840 |
Lasso |
3.48 |
12.10 |
2.68 |
0.835 |
SVM |
3.63 |
13.19 |
2.69 |
0.820 |
由表3可知,BO-XGBoost在所有指标中表现最佳,具有最低的RMSE (3.16)、MSE (10.26)、MAE (2.21)和最高的R2 (0.864),表明其具有最优的预测精度,较基准XGBoost模型提高了2.3%。RF和Lasso的R2分别为0.840和0.835,表现较为接近。SVM模型的预测精度较低,R2为0.820,表现最差。可见,BO-XGBoost在预测精度和误差方面均优于其他模型。
4.5. SHAP全局与局部可解释性分析
SHAP是一种基于博弈论的事后模型可解释性方法。该方法通过计算各特征在模型预测中的边际贡献度,评估其对输出结果的影响,同时支持对数据集整体及个体样本的预测解释。针对任一预测样本,SHAP会为其中每个特征分配一个贡献度评价值,即Shapley值[16]。
选用最佳的BO-XGBoost真空包装玉米均匀性预测模型进行进一步的SHAP可解释性分析,如图7、图8所示:
Figure 7. SHAP global interpretation map
图7. SHAP全局解释图
图7中每一个点代表一个样本,红色和蓝色分别表示特征对预测结果产生的积极和消极影响。由图7可知,delta_E_mean和glcm_dissimilarity等特征显示出较大的SHAP值波动,表明它们对预测结果的贡献显著,且两者对均匀性存在消极影响,值越大均匀性评分越低。相比之下,glcm_homogeneity和b_skewness等特征对均匀性有积极影响,值增大将提高均匀性评分。
Figure 8. Local explanation of random sample
图8. 随机样本局部解释图
图8为随机抽取的2个样本点的局部解释图,可以看出,大部分特征均对预测结果产生积极影响,但相同的特征在不同样本中对均匀性预测结果的影响大小存在差异。以样本1为例,a_cv使均匀性预测值相对于基准值减少0.74,而delta_E_mean使均匀性预测值相对于基准值增加2.14,最终预测的均匀性值归一化结果为58.354。
5. 结论
本文提出了一种基于BO-XGBoost的真空包装玉米均匀性检测方法,并建立了评分标准和数据集。通过特征选择和模型优化提高了预测精度,实验结果表明,使用贝叶斯优化的XGBoost模型在测试集上的R2值达到0.864,RMSE为3.16,预测性能显著优于原始XGBoost、随机森林、支持向量机及LASSO回归等对比模型,验证了其在玉米均匀性检测中的应用潜力,为玉米的自动化检测奠定了基础。结合SHAP方法进一步分析了特征与均匀性预测的关系,发现GLCM纹理熵、L通道四分位距、色差均值、色调标准差和GLCM相异性等特征对均匀性预测有重要影响。这些重要特征并非纯粹的数据驱动产物,而是与真空包装玉米加工过程中物理性状与化学变化的演化规律深度耦合。具体而言,真空负压环境导致籽粒表面皱缩及排列紧密度异质性,使得GLCM纹理熵和相异性成为关键纹理指标,而热处理与贮藏过程中的褐变、色素降解则引发明度下降和色相偏移,使反映亮度离散程度的L通道四分位距、表征色相波动性的色调标准差及衡量整体色差的色差均值占据主导地位。SHAP方法既增强了预测结果的可信性与可解释性,也为加工工艺优化与品质在线监控提供了可量化的视觉指标依据。未来的研究将着重于优化该模型的实时性能,通过优化模型推理速度来满足在线分级装备的响应需求,以及探索其他图像处理技术在类似包装食品检测中的应用,为推动食品均匀性智能评估技术的标准化与产业化提供理论支撑与技术路径。
基金项目
1. 北京印刷学院校级项目:数字化印刷装备北京市重点实验室建设项目(KYCPT202508);2. 北京印刷学院校级项目:Ec202502。