1. 引言
在现代化的大规模餐饮生产中,中央厨房作为主要的食品加工方式,凭借其高效率和较损耗的优势,逐渐被全球国家所接受并使用[1]。然而,标准化生产与传统烹饪方法的协调难题日益凸显,尤其是在热加工工艺中涉及到瞬时变化的情况下[2]。这一难题在鱼类煎制工艺中表现得尤为明显[3]。据联合国粮食及农业组织(FAO)发文,2024年巴沙鱼全球年产量超175万吨[4],因其无肌间刺、质地柔嫩等特点,广泛应用于各类调理食品中。因此,如何高效稳定地控制煎制过程,确保鱼肉外脆里嫩,达到恰好的熟化程度,成为亟需解决的问题。
其中,高光谱成像(Hyper spectral Imaging, HSI)技术通过获取不同波段下物体的反射光谱信息,可将样本表面色泽变化、内部水分迁移及蛋白质变性状态与烹饪过程中的熟化程度建立关联[5]。Hassoun等人结合荧光高光谱与漫反射高光谱成像数据,实现了对烹饪温度及储存时间的有效分类[6]。与此同时,Chao-Hui Feng等人基于高光谱成像技术并结合多元回归方法,对香肠红度变化进行了预测,展示了高光谱技术在熟化过程动态监测中的应用潜力[7]。然而,高光谱图像蕴含丰富的空间–光谱三维特征信息,传统降维方法在特征压缩过程中难以充分保留其完整信息。相比之下,深度学习方法能够挖掘高光谱数据中的深层特征,有效捕捉多源信息之间的非线性关联[8]。卷积神经网络(Convolutional Neural Network, CNN)已被广泛证明是一种高效的特征提取模型,能够有效表征高光谱图像中的局部空间结构与纹理特征[9]。然而,由于其在长序列建模和全局依赖关系捕捉方面存在一定局限,CNN对高光谱全局信息的建模能力仍有不足[10]。Transformer神经网络凭借其核心的自注意力机制,能够直接建模远距离依赖关系并刻画不同模态之间的复杂关联,该优势已在多模态学习任务中得到广泛验证[11]。因此,将CNN的局部特征提取能力与Transformer的全局关系建模优势相结合,为煎制状态的无损检测与预测提供了一种新的研究思路。
本研究以巴沙鱼煎制过程为研究对象,针对不同煎制状态下鱼肉品质变化开展分析。通过对不同煎制状态的巴沙鱼鱼肉样本进行高光谱成像检测,构建CsTsrpModel煎制状态预测模型,实现煎制状态的无损识别与判别。如图1所示,本文的主要研究内容包括:(1) 建立巴沙鱼煎制状态判别依据,为样本分级与模型训练提供依据;(2) 对高光谱一维光谱数据进行特征分析,探究不同煎制状态下光谱响应特性;(3) 基于卷积神经网络对高光谱空间–光谱三维数据进行特征提取,并引入混合注意力机制,以增强关键特征的表达能力;(4) 采用Transformer神经网络对提取的特征信息进行煎制状态识别,引入相对位置编码与稀疏注意力机制,以强化对重要特征及长程依赖关系的建模能力;(5) 基于所构建的CsTsrpModel煎制状态判别模型,建立混淆矩阵并开展消融实验,对模型结构改进的有效性进行验证。
Figure 1. Overall framework for frying state perception of Basa fish
图1. 巴沙鱼煎制状态感知总体流程图
2. 材料与方法
2.1. 样本的制备
实验样品选取自大连工业大学西门仟和市场购入的冷冻巴沙鱼。样品购入后立即置于保温箱中,并于30 min内运送至实验室。随后将鱼肉置于常温无菌箱中进行自然解冻。在环境温度为24℃ ± 1℃的条件下,采用无菌操作台将每条巴沙鱼肉切分为30 × 30 × 15 mm3的样本,并统一装入保鲜盒中备用。
煎制实验中,将样本平放于平底锅中,使用120 W电磁炉进行加热。在正式实验过程中,为保证变量一致性,同一样本在煎制30 s后进行翻面,不同样本之间的煎制间隔为60 s。为确保实验结果的可重复性,分别在煎制60、120、180、240 s及300~900 s (间隔60 s)时取出样本,同步采集高光谱图像数据。
2.2. 高光谱数据采集及预处理
本研究共采集600组样本数据,样本分别在煎制60、120、180、240 s以及300~900 s (间隔60 s)时取出。取出后的样本在室温条件下冷却至环境温度后,置于高光谱成像系统中进行数据采集,最终获得600组360幅1020 [长] × 960 [宽]像素高光谱图像数据。
由于高光谱相机在成像过程中不可避免地存在暗电流噪声,且光源照射强度分布不均匀,这些因素会对获取的高光谱图像质量产生不利影响。为降低暗电流及光照非均匀性对成像结果的干扰,对高光谱图像进行黑白矫正,盖上镜头盖采集黑色校准图像
,打开镜头盖采集校准白板的白色校准图
,根据公式(2-1)进行校准:
(2-1)
其中,
分别代表高光谱的三个维度;
是采集的原始高光谱图像数据;
是校准后的高光谱数据。
2.3. 煎制状态划分
本研究采用鱼肉中心温度作为煎制过程中熟度状态划分的主要依据。中心温度能够反映鱼肉加热过程中蛋白质变性的整体程度,是评价热加工熟化状态的重要指标。研究表明,不同鱼类肌肉蛋白在加热过程中具有不同的变性温度区间,其中肌球蛋白变性起始温度约为40℃,肌动蛋白变性温度约为70℃ [12] [13]。
基于上述蛋白变性温度范围,并结合巴沙鱼以白肌肉为主的组织特性,具体划分标准如表1所示,以中心温度为判据,将煎制熟度划分为生、半熟、熟和过熟四种状态。
Table 1. Criteria for determining frying states
表1. 煎制状态判定表
煎制状态 |
中心温度范围 |
生 |
<40℃ |
半熟 |
40℃~60℃ |
熟 |
60℃~70℃ |
过熟 |
>70℃ |
2.4. 数据集预处理及制作
考虑到原始HSI数据360 × 1020 [长]× 960 [宽],数据庞大但存在大量无效背景数据[14],突出有效特征,将原始HSI数据RAW格式转换成富含二进制的MAT格式,并对固定位置进行裁剪,仅在空间维度进行裁剪,并保留360波段数据,借助公式(2-2),裁剪后数据尺寸为
。
(2-2)
其中:
:空间裁剪起始坐标;
表示光谱波段。
根据样本的煎制状态将数据划分为生、半熟、熟及过熟四类,并分别赋予标签0、1、2和3,同时按类别建立对应的数据文件夹,以便于后续模型训练与预测。
2.5. 构建CsTsrpModel煎制熟度状态判别模型
为充分挖掘高光谱数据在空间维度与光谱维度上的特征表达能力,并实现对巴沙鱼煎制熟度状态的精准判别,本文构建了CsTsrpModel煎制熟度状态判别模型。该模型整体采用空间–光谱特征联合建模框架,由空间–光谱三维特征提取模块和深层特征依赖关系建模模块两部分组成。其中,首先利用3D CNN网络对高光谱三维数据进行空间–光谱联合特征提取,以获得具有判别能力的高维特征表示;随后,将提取的特征输入Transformer网络,通过对网络的进一步改进,提升长序列特征依赖关系的建模效率和表达能力,实现煎制熟度状态的精细分类识别。
2.5.1. 基于3D CNN的空间–光谱三维数据特征提取
为充分挖掘HSI在空间维度和光谱维度上的联合特征信息,构建基于3D CNN的空间–光谱特征提取模块。如图2所示,该模块由四个连续的3D卷积单元组成,各卷积层卷积核数量依次设置为64、128、256和512,卷积核尺寸均为3 × 3 × 3,以实现对高光谱数据局部空间–光谱特征的逐层深度提取。在每个3D卷积层后引入尺寸为2 × 2 × 2的最大池化层,对特征图进行下采样处理,以降低特征维度和计算复杂度,同时增强模型对特征变化的鲁棒性。在池化操作之后,引入混合注意力机制CBAM,对提取到的特征信息进行进一步筛选与强化,以提升网络对关键判别特征的表达能力。CBAM模块由通道注意力机制和空间注意力机制构成。其中,通道注意力机制通过学习不同特征通道之间的重要性关系,实现对关键光谱–空间特征通道的自适应增强;空间注意力机制通过建模空间位置之间的依赖关系,使网络能够更加关注具有判别意义的关键区域。两种注意力机制协同作用,实现对特征信息在通道维度和空间维度上的联合优化。
在完成多层空间–光谱特征提取后,通过全局平均池化将高维特征映射压缩为一维特征向量,并通过全连接层进一步完成特征维度映射,最终输出长度为256的一维特征表示。该特征向量作为后续Transformer分支输入,用于实现煎制熟度状态的深层特征建模与分类识别。
Figure 2. Schematic diagram of the 3D convolutional neural network architecture
图2. 3D CNN网络结构示意图
2.5.2. 基于Transformer神经网络的煎制状态分类
如图3所示,本文构建的Transformer神经网络主要由4个编码器层和分类头组成。输入特征首先进入Transformer编码器模块,在编码器内部通过稀疏注意力机制对特征序列进行选择性建模。特征依次经过残差连接与层归一化操作,以稳定网络训练过程并提升特征表达能力。之后进入多头自注意力模块,通过多头并行注意力计算提取不同子空间中的特征关联关系。随后再次通过残差连接与层归一化结构,并输入前馈神经网络模块进行非线性特征映射。其中,多头自注意力模块由8个注意力头组成,每个注意力头的特征维度为64;前馈神经网络由两层全连接层构成,第一层将特征维度映射至2048并引入非线性激活函数,第二层将特征维度映射回原始维度,以增强模型的非线性表达能力。
针对高光谱特征序列维度高、冗余信息多以及长距离依赖建模计算复杂度较高的问题,在每一层编码器的自注意力模块中引入稀疏注意力机制,通过限制注意力计算范围,在保持关键特征建模能力的同时显著降低计算复杂度并提升长序列处理效率。同时结合相对位置编码,增强模型对局部特征模式的感知能力,从而提高对煎制过程中细微状态变化的识别精度,其中局部注意力窗口大小设置为8。编码器输出特征最终输入分类头模块,依次经过线性层、ReLU激活函数以及线性层映射,最终输出不同煎制状态识别概率。在模型训练过程中,学习率设置为0.0005,Dropout比率为0.15,并引入权重衰减策略,系数为1 × 10−5,以提升模型的泛化性能。
Figure 3. Schematic diagram of the improved transformer network architecture
图3. 改进transformer网络结构示意图
2.6. 模型评价指标
巴沙鱼煎制样本共计600个样本,训练集和测试集按照比例划分8:2,480个样本作为训练集、120个样本作为测试集。为了更客观地评估每个模型,引入准确率(Accuracy)、精确率(precision)、召回率(recall)、F1分数(F1 score)和损失率(Loss Function)作巴沙鱼煎制熟度阶段分类的评估指标,并通过绘制混淆矩阵图对模型结果进行可视化分析,以直观展示各熟度状态样本的分类正确率及误分类情况,从而全面评估模型的分类性能。
3. 结果与分析
3.1. 煎制过程中的一维光谱分析
Figure 4. Reflectance spectral curves under different frying states
图4. 不同煎制状态的反射光谱曲线
光谱曲线反映了巴沙鱼在不同煎制状态下对近红外光的响应特征[15]。其本质来源于鱼肉内部蛋白质、水分及脂肪等成分中官能团对特定波段近红外光能的选择性吸收[16]。如图4所示,在475~500 nm波段,鱼肉中少量血红素蛋白对光产生吸收,随着加热过程中蛋白逐渐发生热变性,吸收能力减弱,使该波段吸收特征逐渐降低。在550~700 nm波段,受少量肌红蛋白及蛋白变性影响,随着煎制进行,肌原纤维蛋白逐渐变性并导致组织结构改变,鱼肉由半透明状态逐渐转为不透明白色,散射增强,反射率升高;而在过熟阶段,由于油脂作用及美拉德反应影响,鱼肉颜色加深,反射率有所降低[17]。在700~900 nm波段,光谱变化主要与水分迁移及组织结构变化相关。随着煎制进行,蛋白变性和水分重新分布会改变组织内部光散射特性,从而引起反射率变化[18]。在900~1000 nm波段,光谱变化主要反映鱼肉水分含量变化过程,该区域对水分变化较为敏感,可反映煎制过程中水分逐渐减少的趋势[19]。
3.2. 煎制状态识别模型的分类性能分析
高光谱相机采集的煎制巴沙鱼HSI数据作为输入,利用煎制状态CsTModel分类模型实现对不同煎制状态的巴沙鱼熟度准确识别,并分别引入稀疏注意力机制和相对位置编码,构建单一改进策略模型,并融合相对位置编码和稀疏注意力机制,形成完整的巴沙鱼煎制状态CsTsrpModel分类模型。
结果如表2所示,原始CsTModel模型准确率达到86.67%,验证了该模型架构在巴沙鱼煎制状态判别任务中的可行性。在此基础上,通过引入不同改进策略进一步提升模型性能:采用稀疏注意力机制的CsTsModel模型准确率提升至90.83%,F1分数达到90.87%;引入相对位置编码的CsTrpModel模型准确率提高至92.50%,F1分数达到92.42%。结果表明,单一改进策略均能有效提升模型性能,其中增添相对位置编码的提升效果更为显著。当进一步融合相对位置编码和系数注意力机制时,所构建的CsTsrpModel模型取得了最优分类性能,其准确率和F1分数分别达到94.83%和94.79%。核心分类指标的显著提升充分表明RPE与SA模块在高光谱图像特征建模中的协同增效作用,验证了所提出模型改进方案的有效性与优越性。
Table 2. Performance comparison of different models for frying state classification based on HSI data
表2. 不同模型在HSI数据上的煎制状态性能对比
Data |
Model |
准确率 |
精确率 |
召回率 |
F1分数 |
损失率 |
HSI |
CsTModel |
86.67% |
86.91% |
86.67% |
86.52% |
0.0576 |
CsTrpModel |
92.50% |
92.53% |
92.50% |
92.42% |
0.0252 |
CsTsModel |
90.83% |
91.23% |
90.83% |
90.87% |
0.0971 |
CsTsrpModel |
94.83% |
94.94% |
94.83% |
94.79% |
0.0297 |
鉴于整体分类准确率难以全面反映不同煎制熟度状态的识别效果,通过混淆矩阵对各模型的分类性能进行分析,如图5所示。其中,Raw、Medium、Ripe和Overripe分别表示生、半熟、熟和过熟四种煎制状态,各类别在验证集中的样本数量均为30。原始CsTModel模型的混淆矩阵结果表明,Raw类别中有29个样本被正确识别,1个被误判为Medium;Medium类别中正确识别28个样本,1个误判为Raw,1个误判为Overripe;Ripe类别中仅正确识别22个样本,其中7个被误判为Medium,1个被误判为Overripe;Overripe类别中正确识别24个样本,另有6个被误判为Ripe,说明原始模型在Ripe与Medium以及Overripe与Ripe等相邻熟度状态之间存在较为明显的混淆。引入相对位置编码后,CsTrpModel模型在Medium类别上的正确识别数由28提升至29,Ripe类别的正确识别数由22提升至27,并有效减少了对Overripe的误判,但Medium类别中仍存在1个样本被误判为Ripe,同时Overripe类别中有2个样本被误判为Medium,表明引入相对位置编码在增强位置关系建模能力的同时,在部分相邻类别间仍可能引入新的误判。相比之下,引入稀疏注意力机制的CsTsModel模型在Overripe类别上的识别表现较为稳定,并将Medium类别的正确识别数由28提升至29,同时Ripe类别中正确识别25个样本,仅有4个被误判为Medium,说明稀疏注意力机制能够更有效地聚焦关键判别特征,从而缓解相邻熟度状态之间的混淆问题。当进一步融合相对位置编码和稀疏注意力机制时,CsTsrpModel模型在各类别上均取得了相对均衡的分类结果:Raw类别实现全部30个样本的正确识别;Medium类别正确识别28个样本,仅有1个误判为Raw、1个误判为Ripe;Ripe类别正确识别26个样本,仅有3个误判为Medium、1个误判为Overripe;Overripe类别实现完全正确识别。整体错分样本数量显著减少,充分表明相对位置编码和稀疏注意力机制在高光谱特征建模中的协同作用有效提升了模型对不同煎制状态的区分能力。
![]()
Figure 5. Confusion matrices of different models for frying state classification
图5. 不同模型煎制状态混淆矩阵图
4. 结论
本研究以中心温度作为巴沙鱼煎制状态的分类依据,基于高光谱成像(HSI)技术构建了巴沙鱼煎制状态分类模型。模型以高光谱数据作为数据输入,利用3D CNN对空间–光谱特征进行有效提取,并结合Transformer网络实现全局特征建模与分类判别。实验结果表明,基于高光谱数据构建的CsTModel模型能够较好地刻画不同煎制熟度状态下巴沙鱼的特征差异。在此基础上,通过引入相对位置编码增强模型对光谱–空间位置关系的感知能力,并采用稀疏注意力机制提升对关键判别特征的聚焦能力,最终构建的CsTsrpModel模型取得了最优分类性能,其准确率、精确率、召回率和F1分数分别达到94.83%、94.94%、94.83%和94.79%,显著提升了模型对不同煎制状态的识别能力。综上所述,本研究在仅依赖高光谱成像技术的条件下,实现了对巴沙鱼煎制状态的准确判别,验证了基于HSI与深度学习方法在鱼类煎制加工品质评估中的可行性与实用价值,并为其他食品煎制过程状态的智能识别提供了有益参考。
NOTES
*通讯作者。