1. 引言
在地球物理勘探实践中,受复杂地表地质条件、采集环境参数以及震源–接收系统等多重因素制约,原始地震记录中不可避免地存在显著的背景干扰。这类干扰波场与有效反射波产生时频混叠效应,导致地层界面反射特征模糊化,不仅劣化了数据的信噪比(SNR)和频带宽度,更对后续的速度建模、偏移成像等关键处理环节产生系统性误差。在此背景下,地震噪声抑制技术(特别是针对非相干噪声的压制)成为提升地震资料品质、保障解释可靠性的核心预处理环节。当前主流的去噪方法体系可划分为两类:基于物理模型的正演–反演框架的传统算法,以及依托神经网络特征提取能力的数据自适应学习方法。
传统方法涵盖时域去噪(如非局部均值滤波) [1]、变换域去噪(利用信号在傅里叶变换[2]、小波变换[3]、曲波变换[4]等固定基函数变换域的稀疏性)、低秩矩阵分解去噪[5]、空间域/f-x域去噪(如结合EDM和多道奇异谱分析)以及稀疏表示去噪(使用K-SVD、在线字典学习等自适应字典[6])。具体应用如同步挤压小波变换结合双边随机投影或自适应奇异值收缩、经验模态分解结合降秩处理等。
尽管应用广泛,传统方法在特征提取能力、处理复杂噪声和避免有效信号损伤方面存在局限。深度学习方法则通过构建端到端映射或挖掘数据内部信息,利用大量数据学习含噪到无噪的映射关系,近年来发展迅猛。卷积神经网络(CNN) [7]及其变体是核心,基础CNN已被成功用于地震随机噪声压制。去噪CNN (DnCNN)通过引入残差学习和批量归一化(BN),有效解决了深度网络训练中的梯度消失/网络退化问题,加速收敛并提升效果,其残差学习[8]框架提高了处理未知噪声和特定任务的灵活性,衍生出密集扩张卷积残差网络、多分支去噪CNN (DBBCNN [9])等变体。此外,其他深度架构如稀疏自编码器、深度神经网络、长短时记忆网络(LSTM)、去噪自动编码器(结合稀疏正则化或范数正则化)以及生成对抗网络(GAN)及其变种(如DC-GAN [10]、无需成对数据的Cycle-GAN——虽可能影响信号、结合自监督学习的条件对抗网络)也得到应用。研究者们不断探索改进策略,包括利用时频域稀疏性(如Deep Denoiser)、采用双通道网络与空洞卷积增大感受野、设计联合时频域损失函数避免过度平滑、结合全局上下文和注意力机制保护细节[11]、应用迁移学习等,以提升特征提取能力、保护有效信号并改善训练效率和稳定性。面对日益增长的勘探难度和对高保真智能化处理的需求,发展高效、自适应且能保护有效信号的深度学习去噪技术,特别是不断演进的CNN/DnCNN架构及其应用创新,已成为地震资料处理领域的重要发展方向。
针对以上问题,本文提出了一种结合Swin-Transformer和生成对抗网络(GAN)的去噪方法。该方法采用Swin-Transformer作为生成网络对地震数据进行去噪,Swin-Transformer的自注意力机制可进行全局操作,有效提取地震数据的全局特征,且与生成对抗网络的局部操作互为补充,提升了特征提取的能力,并有效避免了过度平滑引发的同相轴假象。通过将该方法应用于地震数据去噪,并与现有方法进行对比,实验结果表明,该方法在特征提取能力上具有明显优势,能够在有效抑制随机噪声的同时,恢复和保留更多的细节信息,从而提高了地震信号的信噪比。
2. 基本原理
2.1. 模型特征
模型通过特征选择,只有少数与前景高度相关的代表性特征被用于输入转换器建模。为了保留采样特征的位置信息,本文将位置嵌入添加到F中。然后,本文采用Transformer结构,通过注意力机制聚合来自同一实例的特征。
基本形式是一个由四个Transformer编码器层的堆叠网络,它们由自我注意模块、前馈层和规范化层组成。本文实现了自我注意模块,即:
其中
表示带位置嵌入的采样特征,
是通道数。Q、K和V表示不同的线性层。
对于以前的方法,在特征地图上应用注意操作的核心问题
是所有空间位置的计算复杂性。
在原DETR [12]编码器中,注意操作的复杂度为
,与空间大小呈二次方关系。
然而,如图1所示,在本文的方法中,它只与所选特征的数目N有关,复杂度变为
。在本文的实现中,选定的数字
,因此可以显著降低Transformer的复杂性。最后,输出的文本特征被送入两个预测头,用于分类和文本识别。文本识别头由完全连接层和Sigmoid函数组成。
Figure 1. Model framework based on Swin Transformer [13]
图1. 基于Swin Transformer的模型框架[13]
2.2. 注意力机制
Transformer基于窗口计算自注意力的方式虽然很好地解决了内存和计算量的问题,但是窗口与窗口之间没有了通信,没能达到全局建模的效果,这就限制了模型的能力。
移动窗口被提出后,先进行一次窗口的自注意力计算,再进行一次移动窗口后的自注意力计算,这样就实现了窗口与窗口之间的通信,从而达到了全局建模的效果。
Figure 2. Framework based on calculating self-attention with a moving window
图2. 基于移动窗口计算自注意力的框架
如图2所示,通过循环移位,Window Partition图变成了Cyclic Shift图,图片重新分为4个窗口。由于移动窗口前后窗口数量都是4个,因此窗口数量是固定的,这降低了计算难度。
循环移位后仍然存在一些问题:A、B、C三个窗口中包含了原本就在该位置的元素和从很远的地方移位过来的A、B、C三个元素。窗口中原本和移位过来的元素之间没有较大的关系,因为距离较远,所以不需要对它们进行注意力的计算。针对这一问题,Swin-Transformer作者团队提出了掩码操作,这样就能让一个窗口内的不同区域通过一次前向传递来进行自注意力操作,并且相互之间不会干扰。
2.3. 生成对抗网络
Figure 3. Network model combining Swin-Transformer and generative adversarial network
图3. 结合Swin-Transformer和生成对抗网络的网络模型
生成对抗网络是由Goodfellow等人[14]提出的,它的整个训练过程是生成器(Generator, G)和判别器(Discriminator, D)两个竞争网络之间的博弈过程。在生成对抗网络的架构设计中,系统由两个深度神经网络模块构成协同优化体系。生成模块(Generator)通过将潜在空间中的随机向量z作为输入信号,经多层非线性变换后输出合成数据分布G(z);与之对应的鉴别模块(Discriminator)则构建二元分类决策边界,同时对来自真实数据分布p_data(x)的样本和生成分布p_g(z)的样本进行可微分的概率判定。这种对抗训练机制本质上构成一个极小极大博弈问题,其纳什均衡解的达成对应于生成器学习到数据流形的本征结构。当鉴别器的分类准确率逼近随机猜测水平时,表明生成器已具备从隐变量到目标分布的稳定映射能力,能够实现输入噪声向量到多样化合成样本的语义级转换。
随着深度学习的不断发展,生成对抗网络也衍生出了一系列新颖的生成对抗网络,同时,这些生成对抗网络也成功被应用到各项视觉任务中,如生成人脸照片[15]、图像转换[16]、文字图片转化[17]、图像修复[18]等。结合Swin-Transformer和生成对抗网络的网络模型如图3所示。
3. 数据集构建与评价方法
3.1. 数据集建立
网络模型的性能表现与训练数据集的质量密切相关。本研究采用合成地震数据构建数据集,通过在纯净的合成数据上分别添加15、20和25 dB三个等级的高斯白噪声,建立了含噪数据与无噪数据之间的对应关系。如图4所示,在数据预处理阶段,采用步长为1、窗口大小为64 × 64的滑动裁剪策略,并对数据进行幅值归一化处理。本文使用图像批量大小为8的图像对模型进行训练。
Figure 4. Sample display from the training dataset
图4. 训练集中样本展示
使用以下数据增强策略:1) 随机缩放;2) 随机旋转;3) 随机裁剪。在训练期间,本文还应用了其他策略,如随机亮度、对比度和饱和度,共获得10215个有效样本,按照8:2的比例划分为训练集和测试集,确保数据特征得到充分覆盖。训练样本涵盖了断层、薄层和褶皱等多种典型地质构造特征,为模型训练提供了多样化的数据支持。
3.2. 试验评估
在数字图像处理领域,峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)作为量化图像保真度的经典参数,其计算原理基于参考图像与处理后图像的像素级差异分析。该指标首先建立两幅图像对应像素点的均方差模型,继而将误差值转换为对数域的信噪比表征形式。从数学本质上说,PSNR的数值结果与图像失真程度呈负相关关系,具体表现为:当PSNR测量值提升时,表明经处理的图像在结构保真度方面更接近原始未压缩图像。
在图像质量评估领域,结构相似性度量(Structural Similarity Index Measure, SSIM)作为第二代全参考评价体系的核心算法,其创新性体现在多维特征空间的联合建模。该指标突破传统单维度评价局限,通过建立亮度函数、对比度函数和结构相关函数的乘积模型,实现了对图像退化现象的立体化诊断。从数学表征来看,SSIM的取值范围严格限定在[0, 1]闭区间内,其数值趋近于1时表征测试图像在视觉感知层面与参考图像达到渐进等价状态。
3.3. 实验环境
关于本文的地震噪声压制方法都是在Ubantu 22.04操作系统下进行,所有模型都是基于Pytorch框架实现,见表1。
Table 1. Experimental environment statistics
表1. 实验环境统计
实验环境 |
配置信息 |
操作系统 |
Ubuntu 22.04 LTS |
CPU |
Intel Xeon E5-2640 |
GPU |
NVIDIA GeForce RTX 2080Ti × 4 |
显存 |
44 G |
内存 |
64 G |
编程语言 |
Python 3.7.11 |
深度学习框架 |
Pytorch 1.11.0 |
3.4. 试验结果
Table 2. Peak Signal-to-Noise Ratio (PSNR) and Structural Similarity Index (SSIM) results for different models
表2. 不同模型峰值信噪比与结构相似度指数测量结果
模型 |
峰值信噪比(PSNR) |
结构相似度指数测量(SSIM) |
小波阈值去噪 |
22.16 |
0.606 |
CNN |
25.39 |
0.723 |
Swin-Transformer |
27.54 |
0.816 |
Swin-GAN |
30.19 |
0.883 |
根据四个模型的结果,使用不同的去噪方法对地震数据进行处理,得到的峰值信噪比(PSNR)和结构相似度指数(SSIM)表现出了逐步提高的趋势。见表2,小波阈值去噪模型的PSNR为22.16,SSIM为0.606,表现较为一般;而CNN模型在PSNR上提高至25.39,SSIM为0.723,显示出一定的性能提升。更为先进的Swin-Transformer模型则在两项指标上进一步提升,PSNR达到了27.54,SSIM为0.816,表现出较强的去噪效果。最后,Swin-GAN模型的效果最为显著,PSNR达到30.19,SSIM为0.883,显示了生成对抗网络在地震噪声压制中的优势。因此,随着模型的复杂度提升,去噪效果也有了显著的改善,Swin-GAN模型在本次实验中表现最佳。
4. 结论
本文针对传统卷积神经网络在地震数据去噪中难以有效捕捉全局特征的问题,提出了一种结合Swin-Transformer与生成对抗网络(GAN)的新型去噪方法。该方法利用Swin-Transformer中基于自注意力机制的全局建模能力作为生成网络,有效弥补了CNN局部感受野的局限;同时借助GAN结构提升了模型对复杂噪声模式的表达能力与特征还原能力,避免了过度平滑带来的同相轴假象。
在实验对比中,本文方法在峰值信噪比(PSNR)与结构相似度指数(SSIM)方面均优于传统的小波阈值、CNN和Swin-Transformer等模型。具体而言,Swin-GAN模型取得了30.19的PSNR和0.883的SSIM,在抑制随机噪声的同时更好地保留了地震信号的细节特征。结果表明,随着模型结构的优化与全局信息建模能力的增强,地震数据去噪效果得到了显著提升。本文提出的方法为高精度地震信号恢复提供了新的技术路径,具有良好的应用前景。