1. 引言
随着数字媒体的普及,隐写术作为一种秘密通信技术,能够将秘密信息嵌入图像、音频、视频等数字载体中来实现隐蔽通信的技术[1] [2]。隐写术在保障信息秘密传输的同时,对于外来信息的入侵则构成了信息安全潜在的威胁[2]。隐写分析旨在检测数字媒体中是否存在隐藏信息,图像隐写分析则是要检测出图像中通过隐写术轻微修改过的痕迹,往往这些痕迹当中隐藏着秘密信息。如今图像隐写分析是保障网络空间安全的关键技术之一。
现如今,随着深度学习技术的引入彻底改变了隐写分析的研究方向,使得端到端的自适应特征学习模型成为主流方向。2014年,Tan等人[3]首次尝试将卷积神经网络应用于隐写分析提出了TanNet图像隐写分析网络,该网络采用了三个卷积层和两个全连接层的设计在图像隐写检测中取得了很好的效果。2015年,Qian等人提出了GNCNN (Gaussian-Neuron Convolutional Neural Network) [4],GNCNN进一步丰富了网络结构并通过引入高斯激活函数增强对隐写噪声的敏感性从而加快了网络的收敛速度。2016年,Xu等人[5]提出了经典的XuNet架构,该网络在输入层引入高通滤波器(HPF)作为预处理层,有效抑制了图像内容对隐写信号的干扰,通过绝对值激活函数(ABS)保留隐写噪声的幅度信息。实验表明,XuNet在检测主流隐写算法上取得了显著效果。2017年,Ye等人[6]提出了YeNet,将SRM滤波器组嵌入网络的预处理层,结合截断线性单元(TLU)和批归一化技术,进一步提升了检测精度。2018年,Yedroudj等人提出了YedroudjNet网络[7],该网络融合了XuNet和YeNet的设计优势,构建了更加高效的隐写分析架构。YedroudjNet由预处理模块、五个卷积模块和全连接模块组成,在预处理阶段采用SRM的30个高通滤波器对输入图像进行滤波以提取噪声残差,同时继承了XuNet中的绝对值激活层和批归一化层的设计理念。通过这种架构融合,YedroudjNet在多个基准数据集上的检测性能均超越了XuNet和YeNet,展现出良好的特征提取和判别能力。同年,Boroumand等人提出了SRNet (Steganalysis Residual Network) [8],SRNet是首次采用了深度残差卷积神经网络的经典隐写分析模型,首次将传统隐写分析的核心思想与深度学习成功结合,其性能也超越了YeNet。SRNet这一设计模式为后续隐写分析网络设计提供了宝贵的经验。
然而,这些隐写分析模型的一个基本假设是模型训练和测试所用的载体图像都来源于同一个数据集。在实际应用中,这一假设往往不成立。例如,一个在标准隐写分析数据集上训练的隐写分析模型,当用于检测有着不同空间统计特性的数据集时,其性能会发生急剧衰退[9]。这种由于载体图像的空间统计特性不一致导致的性能下降现象,被称为载体源失配[10] (Cover-Source Mismatch, CSM)。载体源失配(CSM)时,隐写分析模型的检测准确率会显著下降。是因为分类器容易过拟合训练数据的分布特性,当测试数据的分布特性与训练数据的分布特性不同时,模型的检测能力会受到严重影响。
2. 相关工作
时至今日,基于深度学习的隐写分析方法虽然在同分布的数据上表现优异,但在面对载体源失配时往往表现出较差的泛化能力。目前大多数算法都采用基于深度学习领域的无监督域适应(UDA) [11]方法来解决CSM问题,这是因为载体源失配(CSM)和无监督域适配(UDA)之间存在相似的应用场景。CSM和UDA都面临同一个本质问题:当训练数据和测试数据来自不同的分布,导致模型在测试时性能下降,其次两者都需要在没有目标域标签的情况下,使模型适应新的数据分布。针对这一问题,研究者们提出了多种基于UDA的解决方案:张等人提出了一种无监督域自适应的方法J-Net [12],通过最小化源域和目标域之间的联合最大均值差异(Joint Maximum Mean Discrepancy, JMMD)来执行域对齐、于等人进行了重要改进提出的RCDD [13],用可靠隐写标注机制来替代传统UDA方法中不可靠的聚类伪标签生成方式,并且通过类感知的域对齐策略将源域和目标域中相同类别(载体或隐写)的样本在特征空间中拉近,将不同类别的样本在特征空间中推远,实现了更精细的类级别对齐,显著提升了跨域检测性能。这类方法逐步深化了对隐写分析特性的理解,在保持检测准确性的同时有效增强了模型的跨域泛化能力,为解决载体源失配问题提供了可行的技术路径。
近几年为了解决CSM的问题,研究者提出了多种方法,其中中间域生成(Intermediate Domain Generation)策略,通过在训练集和测试集之间构建过渡域,能够有效缓解域偏移问题。通过构建中间域解决CSM问题的典型代表是ISNet [14]和GDNet [15]。具体而言,ISNet通过局部特征级混合相关的补丁技术(LFMP)和域因子,生成多样化的中间域,从而在源域和目标域之间构建桥梁;GDNet则通过骨干网络提取的深层特征确定重要性高的判别性区域,并通过像素级混合源域和目标域图像来构建判别性中间域,实现域间的有效适应。ISNet和GDNet的成功表明,构建中间域是缓解CSM问题的有效途径。
基于这一观察,本文提出了一种频域感知自适应中间域生成方法(Frequency-Aware Adaptive Domain Generation, FADG)。该方法从频域的视角分析图像特性,利用光谱残差(Spectral Residual)检测图像中能量波动显著的区域。这些能量波动往往与隐写嵌入引起的统计变化密切相关,因此可作为隐写敏感区域的指示器。在此基础上,FADG采用自适应混合策略,对隐写敏感区域赋予更高的权重,生成更具判别力的中间域样本,从而有效提升模型在载体源失配场景下的检测性能。本文的主要贡献包括:
(1) 提出了基于频域光谱残差的隐写敏感区域检测方法,通过对图像进行傅里叶变换,计算频域光谱残差,能够有效识别能量波动剧烈的区域。这些区域通常对应着纹理复杂、边缘丰富的图像内容,正是隐写嵌入引起统计扰动最显著的地方从而为中间域生成提供了新的指导信息。
(2) 设计了自适应混合策略,根据隐写敏感度动态计算每个像素位置的混合权重,对隐写敏感区域(如纹理复杂区域)赋予更高的混合权重。这种差异化策略使得生成的中间域样本在保留判别性特征的同时,更有效地弥合了域间差距。
3. 提出方法
如图1所示是FADG网络的整体架构。FADG是专门为解决隐写分析中由于训练数据集和测试数据集的图像由于空间特性分布差异所造成的检测性能严重下降的问题,这也就是载体源失配的问题。其核心在于从频域分析的本质机制出发,通过光谱残差理论识别图像中频域能量波动大的区域,进而计算源域和目标域图像的频域隐写嵌入概率图,接着利用源域和目标域的嵌入概率图得到混合权重图用于生成中间域。最终通过这种频域感知自适应生成中间域的方法构建从源域到目标域的“桥梁”。下面将详细介绍其方法。
Figure 1. The overall architecture of the FADG network
图1. FADG网络的整体架构
3.1. 基于光谱残差计算隐写嵌入概率
现代隐写算法通常会选择纹理复杂和图像边缘等肉眼难以观察的区域进行隐写信号的嵌入。然而频域可以代表图像的能量分布,从图像的频域上分析这些隐写信号嵌入的敏感区域,可以发现这些区域的能量都是集中在中高频。所以量化出源域和目标域这种频域特性的差异尤为关键。如图2所示,通过光谱残差计算频域内位置适合嵌入隐写信息的概率。首先通过二维傅里叶变换也就是余弦变换,将一个高为
宽为
的图像
变换到频域
如公式(1)。得到的频率分量
包含幅度的能量和相位的结构信息,紧接着提取
的幅度频谱
如公式(2),其中
代表实部
代表虚部,这一步主要是为了提取能量信息,也就是频率的强度,通常低频能量大,高频能量小。因为低频数值远高于高频数值,所以后续残差计算就会被低频主导,这样就无法有效分析高频信息。因此在这里我们根据频谱
计算出对数频谱
这里
是一个常数。为了计算一个异常检测的基准,所以这里我们通过对对数频谱进行平均池化得到期望频谱
如公式(3),表示某个频率位置周围邻域的平均值,这里邻域是
区域内。
(1)
(2)
(3)
根据对数频谱和期望频谱我们就可以计算出光谱的残差
如公式(4),这也是FADG中最重要的一步。光谱残差
就代表该频域的能量异常程度。这里异常能量高的区域也就是隐写算法嵌入代价最小的地方,从而就能代表隐写信号嵌入概率高的区域。随后通过逆傅里叶变换返回得到空域光谱残差
,根据空域光谱残差得到嵌入概率图
如公式(5),
是归一化后的归一化后的概率表示,
为最大概率、
为最小概率。
(4)
(5)
Figure 2. Probability graph for steganographic embedding calculation based on spectral residuals
图2. 基于光谱残差计算隐写嵌入概率图
3.2. 生成自适应的中间域
根据以上方法我们可以得到源域嵌入概率图
和目标域嵌入概率图
。根据得到的嵌入概率图计算出混合权重图
,具体计算方式如公式(6)所示,我们将目标域和源域的嵌入概率图的差值也作为混合权重比例的参考,并且以0.3的权重比例和目标域的嵌入概率图相加得到最终的混合权重图
,为了混合生成中间域的有效性将混合权重的值进行了限制
。最后利用混合权重图生成中间域
如公式(7),其中
为目标域图像,
为源域图像。
(6)
(7)
3.3. 损失函数设计
对于混合生成的中间域样本的损失
如公式(8)所示,其中中间域样本的预测值是
,
表示源域的真实标签,
表示目标域的伪标签。
(8)
最终总损失
设计为源域损失
加上一定比例的中间域损失
,表示为公式(9)
(9)
4. 实验结果与分析
4.1. 实验设置
实验使用了三个公开数据集:Alaska (A) [16]包含80,000张各种格式的图像(实验中选择256 × 256像素的PGM格式灰度图像10,000张),BOSSBase1.01 (B) [17]包含10,000张PGM格式灰度图像,MIRFlickr 25k (M) [18]包含25,000张不同尺寸的彩色JPEG图像。
在空间域实验中,从每个数据集随机选择10,000张图像,共30,000张图像通过MATLAB的双线性插值重采样至256 × 256像素。使用四种内容自适应隐写方法S-UNIWARD [19]、HILL [20]、MIPOD [21]和WOW [22]在指定负载下分别生成10,000对图像数据,本实验是以0.4 bpp和0.2 bpp负载为例,每种隐写方法对应三个数据集,分别是Alaska (A)、BOSSBase1.01 (B)、MIRFlickr 25k (M),这样就一共会产生6种载体源适配(CSM)的场景。
在JPEG域中,BOSSBase1.01的10,000张图像首先用质量因子QF [23]为75、85、95进行压缩生成三个不同的压缩数据集,每个包含10,000张载体图像。在0.4 bpnc负载下使用J-UNIWARD [19]和UERD [24]生成6组载体/隐写图像对。
实验中使用SRNet作为FADG的骨干网络。在预训练阶段,每10,000对载体和隐写图像按8:2的比例划分为训练集和测试集,训练参数与SRNet原文献相同。在域适应训练阶段,特征提取部分参数用预训练的SRNet权重初始化,从训练集和测试集中随机选择500对图像分别代表源域和目标域。源域和目标域的批量大小均设为32,学习率设为0.0005。整个训练过程共进行100个epoch。所有实验在配备NVIDIA 3090的Pytorch 2.4.0环境中实现。
4.2. 空域实验结果
对于空间域,表1展示了每个载体源失配(CSM)场景下四种隐写分析算法在0.4 bpp负载下的准确率。对于S-UNIWARD、WOW、HILL和MIPOD隐写算法,FADG的整体性能有所提高。仅在少数情况下略低于RCDD。此外,与J-Net、RCDD相比,FADG在0.4 bpp负载下的平均性能分别取得了约6%~0.5%的提升。
Table 1. Accuracy rates of six steganalysis algorithms in each CSM scenario at a 0.4 bpp load
表1. 每个CSM场景下六种隐写分析算法在0.4 bpp负载时的准确率
|
Method |
A→B |
A→M |
B→A |
B→M |
M→A |
M→B |
AVG |
SUN |
Backbone |
75.60 |
68.00 |
55.10 |
53.50 |
59.50 |
80.90 |
65.43 |
J-Net |
82.40 |
70.00 |
54.60 |
55.90 |
59.93 |
85.00 |
67.97 |
|
RCDD |
76.40 |
70.00 |
64.00 |
70.40 |
64.70 |
79.90 |
70.90 |
FADG |
83.20 |
69.80 |
64.00 |
70.90 |
64.00 |
86.60 |
73.08 |
HIL |
Backbone |
83.78 |
64.90 |
55.10 |
64.30 |
65.10 |
73.50 |
68.68 |
J-Net |
84.00 |
70.30 |
61.60 |
58.70 |
65.10 |
85.10 |
70.80 |
RCDD |
83.00 |
72.10 |
64.80 |
73.50 |
63.40 |
82.50 |
73.22 |
FADG |
84.20 |
72.20 |
66.00 |
72.40 |
67.80 |
87.20 |
74.97 |
MIP |
Backbone |
81.30 |
65.50 |
63.90 |
62.88 |
63.23 |
74.48 |
68.55 |
J-Net |
82.70 |
71.10 |
65.70 |
67.90 |
64.80 |
82.30 |
71.43 |
RCDD |
81.40 |
73.20 |
67.80 |
72.50 |
64.80 |
72.10 |
71.97 |
FADG |
82.60 |
71.80 |
67.40 |
70.30 |
64.60 |
86.60 |
73.88 |
WOW |
Backbone |
84.33 |
68.50 |
54.65 |
51.58 |
59.43 |
86.90 |
67.57 |
J-Net |
87.30 |
71.60 |
58.60 |
63.20 |
64.80 |
86.00 |
71.92 |
RCDD |
76.20 |
69.40 |
64.00 |
69.10 |
62.80 |
73.40 |
69.15 |
FADG |
84.80 |
72.00 |
64.30 |
74.00 |
65.40 |
89.00 |
74.92 |
为了验证FADG在低负载下仍然有效,表2对比了四种隐写分析算法在使用S-UNIWARD算法0.2 bpp负载时的实验结果。FADG相比J-Net提高了约8%,FADG相比RCDD提高了约2%。
Table 2. Accuracy rates of four steganalysis algorithms at a 0.2 bpp load of the S-UNIWARD algorithm
表2. 四种隐写分析算法在S-UNIWARD算法0.2 bpp负载时的准确率
|
Method |
A→B |
A→M |
B→A |
B→M |
M→A |
M→B |
AVG |
SUN |
Backbone |
70.40 |
56.78 |
52.10 |
51.43 |
54.05 |
68.38 |
58.86 |
J-Net |
73.20 |
59.30 |
53.10 |
53.30 |
54.60 |
64.50 |
59.67 |
RCDD |
73.20 |
60.20 |
59.50 |
60.10 |
58.30 |
72.80 |
64.02 |
FADG |
74.00 |
61.20 |
59.00 |
62.80 |
60.00 |
78.00 |
65.83 |
4.3. JPEG域实验结果
为了验证FADG在JPEG域的优越性,我们在JPEG域的CSM场景将其与Stega-SL [25]进行比较,其中Stega-SL是专门为JPEG域中的CSM场景设计的。实验中JPEG压缩质量因子QF分别有75、85、95。表3展示了J-UNIWARD和UERD在0.4 bpnc负载下的比较结果。具体来说,与经典的Stega-SL方法相比,FADG在J-UNIWARD压缩算法中平均性能提升了约16%,在UERD压缩算法中平均性能提升了约13%。
Table 3. Accuracy rate of JPEG domain (J-UNIWARD and UERD) at a 0.4 bpnc load
表3. JPEG域(J-UNIWARD和UERD)在0.4 bpnc负载时的准确率
|
Method |
75→85 |
75→95 |
85→75 |
85→95 |
95→75 |
95→75 |
AVG |
JUN |
Backbone |
50.10 |
50.10 |
50.10 |
50.80 |
50.00 |
50.00 |
50.18 |
Stega-SL |
51.80 |
50.90 |
51.60 |
52.70 |
52.40 |
52.40 |
51.97 |
FADG |
80.10 |
60.00 |
84.50 |
63.70 |
62.20 |
72.00 |
70.42 |
UER |
Backbone |
50.85 |
50.00 |
50.03 |
50.03 |
50.00 |
50.00 |
50.15 |
Stega-SL |
59.70 |
50.80 |
51.80 |
51.60 |
52.00 |
53.40 |
53.22 |
FADG |
84.40 |
56.60 |
79.80 |
63.00 |
56.80 |
63.30 |
67.32 |
4.4. 消融实验
为验证FADG中基于光谱残差的频域感的有效性,表4对比了在J-UNIWARD隐写算法、0.4 bpnc嵌入率条件下,FADG与采用随机生成掩码策略(w/o)的检测准确率。实验结果表明在不采用FADG的方法时性能下降了约7%。
Table 4. Comparison of the accuracy rates of FADG and random mask generation strategy under 0.4 bpnc load for J-UNIWARD
表4. J-UNIWARD在0.4 bpnc负载下FADG与随机生成掩码策略的准确率比较
|
Method |
75→85 |
75→95 |
85→75 |
85→95 |
95→75 |
95→75 |
AVG |
JUN |
w/o |
72.60 |
54.20 |
74.80 |
56.40 |
54.30 |
68.10 |
63.40 |
FADG |
80.10 |
60.00 |
84.50 |
63.70 |
62.20 |
72.00 |
70.42 |
5. 结论
本文针对隐写分析中的载体源失配问题,提出了一种频域感知的自适应中间域生成方法(FADG)。该方法的核心创新在于利用频域光谱残差分析图像的能量分布特性,识别隐写敏感区域,并基于此设计自适应混合策略,生成更具判别力的中间域样本。该方法的核心创新在于将频域分析理论与中间域生成策略相结合,通过构建从源域到目标域的“桥梁”,有效缓解了载体源失配的问题。实验结果表明,FADG方法在检测S-UNIWARD、WOW、HILL和MIPOD等隐写算法时均取得了提升,验证了频域感知的自适应混合策略的有效性,为跨域隐写分析提供了新的研究思路。