1. 引言
伪装[1]作为自然界中生物适应环境的核心生存策略,生物通过隐蔽自身或模仿环境特征以规避捕食或捕获猎物[2],已成为进化生物学与生态学的重要研究课题。在计算机视觉领域中,伪装目标检测技术[3] (Camouflaged Object Detection, COD)由于其在复杂背景条件下识别与背景高度相似目标的挑战性,已逐步成为研究热点。现有研究成果表明,COD在医学图像分析、自然灾害检测、军事迷彩侦察和野生动物保护[3]等多个领域具有显著的应用价值。
然而,与动物和人类伪装相比,植物伪装的研究尚显不足。植物伪装检测[4] (Plant Camouflaged Object Detection, PCOD)的研究仍处于起步阶段。生物学研究表明,植物通过颜色融合(如叶绿素与背景植被的色谱匹配)、纹理拟态(如兰花模拟昆虫形态,蜜蜂兰模拟蜜蜂)、结构伪装(如石斛兰茎干模拟树皮纹理)等策略实现隐蔽,此类机制对传统COD模型提出特殊挑战。低信噪比特性,与动物相比,植物的伪装策略在光谱维度上更具局限性。动物可通过色素多样性(如变色龙)或动态调整体表结构(如章鱼皮肤)实现多波段光谱匹配,而植物主要依赖叶绿素主导的绿色光谱和固定形态特征。研究表明,植物伪装的光谱自由度较低[5],其绿色通道(RGB空间)的反射曲线与背景的差异度通常小于动物场景,这与其生理限制(如光合作用需求)直接相关。动态干扰敏感,自然光照变化与枝叶晃动导致表观特征不稳定。细粒度识别需求,需区分叶片边缘锯齿、半透明新芽等微观特征。
植物伪装检测研究具有重要的科学意义和广泛的应用价值。深入研究伪装植物的检测方法,不仅有助于理解植物适应环境的生存策略,还可为生态学研究提供新的视角,提升物种识别的准确性,为农业生产中的濒危植物保护和生长监控提供技术支持。此外,在军事与安全领域,该技术可用于伪装目标的侦查与监测。结合遥感与无人机技术,植物伪装检测在自然保护、植被恢复及非法采伐防控等方面也有着重要的应用潜力,对生态环境保护与可持续发展意义深远。
为了评估现有COD模型在植物伪装检测任务中的表现,我们基于专用数据集PlantCamo [4]对先进COD模型进行了训练与测试。实验表明,尽管这些模型在传统COD数据集(如COD10K [3]、CHAMELEON [3]、NC4K [6])上表现良好,但在PlantCamo数据集上的性能普遍较差,原因在于植物伪装的特征与传统数据集中以动物和人类为主的伪装特征存在显著差异。而对于最新的植物伪装检测框架PCNet [4],该模型采用了多尺度特征增强(MGFE)和多尺度特征细化(MFR)模块,尽管其在性能上有所提升,但仍存在计算复杂度高和内存需求大的问题,尤其在处理高分辨率图像时限制明显。另外,PCNet中的迭代反馈机制在实验中表现最佳时迭代次数为2次,这可能限制了模型在更复杂场景下的表现。为解决上述问题,本文提出了一种改进的植物伪装检测模型MFENet,通过多尺度频率分离、通道感知边缘注意力和优化迭代反馈机制,旨在进一步提升植物伪装检测的性能与效率。
本文的主要贡献如下:
提出了一种改进的植物伪装检测模型MFENet,进一步提升植物伪装检测的性能与效率。
设计了多尺度频率感知分离模块通过低频和高频信息的分离与融合,帮助网络从多尺度和多频率的角度理解图像,提升了网络对检测目标整体结构的感知能力。
设计了通道感知边缘注意力机制,有效提升了网络对检测目标边缘细节的敏感性。
提出了动态迭代反馈机制,根据图像复杂度实现精度与效率的自适应平衡。
2. 方法
Figure 1. Overall architecture
图1. 总体架构
如图1所示网络采用Pyramid Vision Transformer (PVT) [7]作为骨干网络,从输入图像中提取多层次特征(即F1,F2,F3,F4)。为了准确检测伪装植物,网络使用自下而上的方法,依次经过尺度感知频率分离模块(Scale-Aware Frequency Separation Module, SAFS),该模块负责处理提取的多尺度特征图,通过低频和高频信息的分离与融合,帮助网络从多尺度和多频率的角度理解图像,提高对伪装目标和背景之间微小差异的敏感性。随后在最高层处理完后,得到融合细化特征SFi以及预测图pref。SFi继续输入到CAEA模块(Channel-Aware Edge Attention Module)中,在SAFS模块输出的特征图基础上结合边缘特征优化高频细节,得到SFCi。SFCi作为反馈特征,如图所示继续输入到网络中。最终的特征图经过卷积操作(Conv)和激活函数(ReLU)处理后,输出伪装目标的检测结果。
2.1. SAFS模块
Figure 2. SAFS module
图2. SAFS模块
受图像处理中的锐化与对比度增强技术启发,我们设计了一种新颖的SAFS模块,用于同时提取图像中的低频背景信息和高频细节特征,从而提升植物伪装检测中对伪装物体与背景细微差异的敏感性。SAFS模块结构如图2所示。
作为SAFS模块的输入,首先经过下采样获得下采样特征图
。在图像处理中,常常通过取图像与其模糊版本的差异来增强高频部分。因此,SAFS模块采用类似的方法,通过对平滑的特征图
上采样到与
相同的空间分辨率以获得
特征。此时,通过计算输入特征图
与上采样后的特征图
之间的差异,能够突出细节部分,从而得到
(细节增强后的特征图),即高频部分。SAFS中的第二个分支(底部)致力于捕捉特征图中的低频区域。这对于强调伪装区域(如伪装物体的大致轮廓)至关重要。为了实现这一点,我们通过输入图像
与其模糊版本
的逐元素乘积操作,得到
(低频部分)。低频信息主要反映了图像的宏观结构,因此这一操作有助于保留和强化伪装物体的整体形状。之后,模块会对低频和高频信息分别进行不同尺度的卷积处理。这些卷积操作采用了不同大小的卷积核,包括3 × 3、5 × 5、7 × 7卷积核。这些不同尺度的卷积核分别用于提取不同尺度上的特征,使得网络能够从多角度捕捉伪装目标的局部和全局特征。较小的卷积核(3 × 3)能够有效捕捉细节信息,而较大的卷积核(5 × 5和7 × 7)则帮助捕捉更大范围的特征和背景信息。最后,经过不同尺度卷积后的特征图会被拼接在一起得到特征
。拼接操作将多个卷积核提取到的特征合并在一起,为后续的网络层提供更丰富的信息。拼接后的特征图会通过一个1 × 1的卷积进行通道压缩,减少特征图的通道数并输出最终的特征表示
。这一过程不仅有效地减少了计算量,还保持了特征的丰富性,最终生成适合用于后续任务的特征图。通过这一系列操作,SAFS模块成功地在多个尺度上提取和分离低频与高频信息,使得网络在面对植物伪装的挑战时,能够同时关注到伪装目标的整体结构和细节特征。低频特征帮助网络识别伪装目标的整体轮廓,而高频特征则增强了对细小伪装细节的感知,最终提升了模型在复杂背景下的鲁棒性和精度。
Figure 3. CAEA module
图3. CAEA模块
2.2. CAEA模块
输入图像在经过骨干网络特征提取和SAFS模块处理后,对伪装目标的整体感知效果有了明显提升,但仍存在边缘模糊与背景干扰等问题,CAEA (Channel-Aware Edge Attention)通道感知边缘注意力模块旨在通过融合边缘先验与多粒度通道注意力解决相关问题。如图3所示,给定
作为输入特征图,首先经过一个通道注意力,处理后的特征图通过split操作将
沿通道维度均匀分割成s个特征图子集,记为
(其中
)。每个特征子集具有与相同的空间形状,但具有
个通道。当i为1时,
经过Conv操作后输入到ELAM模块中得到
。接下来,将特征图子集
与输出
相加然后经过Conv操作再输入到ELAM中得到
。重复该过程直到处理完所有特征图子集。最后,通过拼接的方式,可以得到整个增强的多尺度特征图
。
2.3. ELAM模块
伪装目标通常与背景在颜色和纹理上高度相似,因此,边缘信息在伪装目标检测中起着至关重要的作用。为了增强模型对目标边缘的感知能力,我们设计了边缘学习注意力模块(Edge Learning Attention Module, ELAM),其目的是通过引导模型关注伪装目标的边缘区域,提升检测精度和鲁棒性。如图4所示,ELAM模块的设计包括两个主要步骤:边缘先验图的生成和边缘注意力的学习。首先,通过经典的索贝尔算子(Sobel Operator)对输入图像进行处理,生成边缘先验图(Edge Prior Map)。索贝尔算子能够有效地捕捉图像中的梯度变化,提取出伪装目标与背景之间的边缘特征,从而确保模型获得可靠的边缘信息。随后,ELAM模块接收边缘先验图和当前特征图作为输入。为了保证两者的一致性,边缘特征图首先被上采样至与当前特征图相同的尺寸,并与当前特征图进行逐元素相乘,生成边缘增强特征图。此增强特征图经过卷积、BatchNormalization和ReLU激活(CBR)处理后,生成初步特征表示。为了进一步优化特征表达,处理后的特征图通过注意力机制进行加权,并与原始输入特征图进行残差连接,确保原始信息的保留。最后,ELAM通过卷积块注意力模块(CBAM)进一步提升特征的辨识度,最终生成优化后的输出特征图。
Figure 4. ELAM module
图4. ELAM模块
2.4. 动态迭代反馈
针对植物伪装场景中光照变化与枝叶晃动导致的特征不稳定性,本文提出一种边缘强度驱动的动态迭代反馈机制。另外动态迭代反馈机制让网络在处理简单图像时能够高效运行,而在处理复杂图像时则能够进行更多次的迭代,从而获得更精确的特征表达。在实现上,首先将输入图像转为灰度图像
,然后使用Sobel滤波器提取图像的边缘信息。边缘信息的计算通过对灰度图像进行水平和垂直方向的边缘检测,得到并通过平方和开根号的方式计算图像的边缘强度
。然后通过对边缘强度的均值进行计算得
到当前图像的复杂度,计算方式如下:
接下来,根据当前图像的复杂度系统会动态调整迭代次数:
每次迭代中,特征图与之前迭代的输出进行相加,形成新的输入。
这种反馈机制使得网络能够根据前一次迭代的结果进行调整,从而逐步改进特征图的表达。通过引入动态迭代反馈机制,网络能够在复杂背景和动态变化的场景下,自动适应不同图像的复杂度,提升检测精度的同时,保持计算效率。这种灵活的计算过程使得模型能够在各种环境中表现出更强的鲁棒性,特别适用于植物伪装检测任务中的复杂场景。
3. 实验
3.1. 数据集
我们使用由Yang等人最新构建的PlantCamo数据集[4]。PlantCAMO数据集涉及58种伪装植物,涵盖了植物伪装研究中调查的大多数类型。PlantCamo数据集分为3个子集:PlantCamo-full、PlantCamotrain和PlantCamo-test。PlantCamo-full集包含1250张伪装植物图像的全部集合,主要用于评估COD模型的泛化能力。PlantCamo-train,包含1000张用于训练的图像,PlantCamo-test,包含250张指定用于测试的图像。
3.2. 实验细节和评价指标
我们采用了四种常见的评估指标,分别是Structure-measure (
) [8]、Adaptive E measure (
) [9]、Weighted F-measure (
) [10]和Mean Absolute Error (
) [11]。这些指标能够全面衡量MFENet在伪装目标检测任务中的性能,从结构、感知、准确率和误差等多个维度进行评估。
是一种基于结构相似性的评估指标,它衡量预测图和真实掩膜在空间结构上的相似性。
通过计算两者的区域相似性和边缘相似性,将局部和全局的结构信息结合起来进行评价,能够有效反映伪装目标检测中的空间结构一致性。
是一种结合感知和数学评估的指标,专门用于衡量预测结果与真实标签的相似性。
通过考虑全局和局部的像素对齐性,将用户的感知特性和计算结果结合起来,可以更加准确地反映模型的感知效果,特别是在复杂背景下伪装目标的分割能力。
综合了Precision和Recall,针对目标区域和背景的像素不均衡情况进行加权处理,旨在准确衡量模型在不同重要性区域的表现。通过对较难检测的伪装区域赋予更高权重,
能够更加准确地评估模型在伪装目标检测中的精确度和召回率。
主要用于衡量预测结果与真实标签在像素级的平均误差。它计算预测掩码与真实掩码之间的逐像素差异,能够直接反映模型的整体误差水平,是衡量伪装目标检测中分割精度的重要标准。这些评估指标从不同的角度出发,能够全面评估模型在伪装目标检测任务中的性能表现,确保在不同类型的场景和目标下都能取得优异的结果。
3.3. 实验细节
我们的模型使用PyTorch框架进行实现,并在两张NVIDIA GeForce RTX 3090 GPU上进行加速。在训练过程中,我们使用来自PlantCAMO-train的1000张伪装植物图像作为训练集。为了提高训练的泛化能力,我们对输入图像进行了数据增强操作,包括将图像分辨率调整为702 × 702,并应用了随机水平翻转策略。我们采用了Adam优化器,设置批次大小(batch size)为8,epoch为100,学习率设置为
,衰减率为0.1。
3.4. 实验结果
Table 1. Evaluation results of different network models on the PlantCamo dataset
表1. 不同网络模型在PlantCamo数据集上的评估结果
Model |
↑ |
↑ |
↑ |
↓ |
SINet [3] |
0.766 |
0.842 |
0.583 |
0.066 |
ZoomNet [12] |
0.798 |
0.874 |
0.680 |
0.049 |
SINet-V2 [13] |
0.801 |
0.873 |
0.678 |
0.050 |
BGNet [14] |
0.786 |
0.873 |
0.552 |
0.076 |
HitNet [15] |
0.854 |
0.929 |
0.794 |
0.034 |
PCNet [4] |
0.880 |
0.937 |
0.818 |
0.028 |
MFENet (Ours) |
0.886 |
0.939 |
0.816 |
0.028 |
为了证明模型的有效性,我们对MFENet与其他通用COD方法以及专门用于植物伪装检测任务的PCNet进行比较,实验结果如表1所示。其中,通用COD模型(SINet等)的评价指标均是模型在PlantCamo 数据集中进行了训练后测试的结果。可以发现,相较于通用COD模型,在植物伪装检测任务中,MFENet在各项指标均有大幅提升。MFENet以0.886的
值显著优于所有模型,这一优势主要归功于SAFS模块的多尺度频率分离策略,提升了模型对检测目标的整体结构感知能力。
结合局部像素对比度与全局统计量,动态调整误差权重,适用于评估复杂背景下的像素级预测准确性。MFENet以0.939的值达到最优,这一提升主要得益于动态迭代反馈机制和CAEA模块的边缘强化驱动,使得模型在边缘细节上拥有更好的表现。
通过平衡精度和召回率来评估分割结果的整体性能,实验结果显示,本文模型
值为0.816,略低于PCNet (0.818),但显著优于其他模型(HitNet: 0.794)。
是预测值与真实值之间差值的绝对值的平均值,MFENet值为0.028,与PCNet相同且优于其他模型。
3.5. 消融实验
为验证本文所提模块的有效性,我们在PlantCamo数据集上进行了系统的消融实验,分别测试SAFS模块、CAEA模块、ELAM模块及动态迭代机制对模型性能的影响。首先删除所有模块作为基准模型,随后依次在模型中添加SAFS模块、CAEA模块、ELAM模块。实验结果见表2。可以发现,引入SAFS后,
从0.862提升至0.877,
从0.034下降至0.031,降低了8.8%。表明其通过多尺度频率分离策略,有效缓解了低信噪比问题。SAFS与CAEA联合作用使MAE降低17.6% (0.034 → 0.028),表明了各模块协同对细粒度误差抑制的关键作用。表3反映了不同迭代次数对模型性能的影响,实验中,我们取固定迭代次数1,2,3次和动态迭代进行对比,结果也证明了动态迭代的有效性。
Table 2. Quantitative evaluation for ablation studies
表2. 消融研究的定量评估
SAFS |
CAEA (no ELAM) |
ELAM |
↑ |
↑ |
↑ |
↓ |
|
|
|
0.862 |
0.925 |
0.790 |
0.034 |
√ |
|
|
0.877 |
0.931 |
0.808 |
0.031 |
√ |
√ |
|
0.880 |
0.936 |
0.814 |
0.030 |
√ |
√ |
√ |
0.886 |
0.939 |
0.816 |
0.028 |
Table 3. Ablation study on different iteration numbers
表3. 不同迭代次数的消融研究
Iteration times |
↑ |
↑ |
↑ |
↓ |
iter = 1 |
0.879 |
0.927 |
0.808 |
0.032 |
iter = 2 |
0.884 |
0.939 |
0.812 |
0.029 |
iter = 3 |
0.880 |
0.934 |
0.814 |
0.030 |
Dynamic |
0.886 |
0.939 |
0.816 |
0.028 |
4. 结束语
本文提出一种新的植物伪装检测模型MFENet,设计的主要思想是通过SAFS模块的多尺度频率分离策略处理低信噪比问题,以让网络更好地感知目标整体结构,通过CAEA模块提高网络对微小边缘特征的敏感性。实验结果显示,本文提出的MFENet在PlantCamo数据集上表现明显优于通用COD模型,与专用于植物伪装的PCNet相比也有一定提升。尽管如此,在极端低信噪比的场景下,模型仍然存在细微的检测误差,未来的研究可以从多模态数据融合,三维形态感知增强、跨任务迁移与自监督学习等方面展开,以进一步提升模型性能。
NOTES
*通讯作者。