1. 引言
露天矿区的生产作业班组通常是在夜间工作,但夜间监控面临着图像质量退化的显著问题。导致图像质量退化的原因一方面是由于低光照条件下的不足,另一方面是摄像设备为了满足防爆标准而牺牲的性能。这种图像质量退化不仅包括光照不足造成的图像可见度降低,同样包括生产过程中的震动造成的运动模糊。这两种因素的叠加造成了露天煤矿监控图像的严重退化。
葛军超[1]等人的研究发现,井下瓦斯、粉尘和照度不足等复杂环境因素会导致井下图像质量下降,图像变暗且模糊,无法清晰观察到图像中的细节。为了解决这一问题,他们提出了一种基于自适应Retinex算法的解决方案,结合使用Unet网络提取多尺度图像特征,从而恢复图像质量。苗作华[2]团队在研究中发现,随着井工开采逐渐进入深部开采阶段,巷道内存在光照不均且开采过程中尘雾飞扬等现象,导致巷道中的图像对比度低、细节不清晰等问题。针对这些问题,该研究团队提出了一种基于CLAHE-PCA的图像增强算法。该算法能够有效优化处理后图像的对比度和亮度,使其相比处理前的图像有明显改善,从而大大提高了井下作业的安全性。Wei Yang等人[3]的研究聚焦于提升煤矿井下人员安全监控的图像质量与检测精度。研究团队发现,由于井下光照不足,传统的监控图像往往存在识别困难和检测精度低的问题。为此,他们提出了一种创新的低照度图像增强方法。该方法采用了自适应增强策略,包括一个本地增强模块和一个基于Transformer的全局调整模块。通过本地增强模块,该方法能够在像素级别上将低照度映射为正常照度,尽可能保留图像的细节。而全局调整模块则用于防止亮区的过度增强和暗区的照度不足,同时避免色彩偏差。此外,为确保图像增强不会对人员检测产生负面影响,研究团队还引入了特征相似性损失,来维持目标特征的一致性。
在现有的方法中,大多数是独立处理低光照增强和图像去模糊这两个问题,而没有考虑到它们之间的相互作用和共同退化现象。大多数方法主要通过提高亮度和去噪来改善图像,但往往忽略了由运动引起的空间退化问题,特别是在过曝的区域中,增强后的图像可能会因为模糊而变得更加模糊。此外,过度平滑的去噪过程有可能移除对去模糊有用的高频信息。大多数的去模糊方法大多基于仅包含白天场景的数据集训练,难以直接应用于夜间图像去模糊任务,因为暗区域中的运动线索不易察觉,加之夜间模糊图像中的饱和区域与白天数据学习的模糊模型不吻合,使得这些方法在夜间图像上的效果大打折扣[4]。
为了解决这些问题,特别是在露天矿这种特殊环境下的图像增强需求,提出了一个新型的数据合成流程,专门模拟低光照和运动模糊共存的场景;通过结合露天矿监控的特定需求,设计了一种新的模糊模拟方法,着重模拟饱和区域的模糊,以更真实地反映夜间图像的特点;进而提出了一个统一的网络架构Low-light Enhancement and Deblurring Network (LEDNet),该网络旨在联合处理低光照增强和去模糊任务,通过一个专门的编码器对图像中的模糊及低照度部分进行评估及信息压缩拆分,和一个解码器对模糊及低照度信息进行处理,二者通过多尺度特征融合相连,确保了增强的光照特征能有效用于去模糊[4]-[6]。
2. 图像增强算法
在图像去模糊方面,随着专门的训练数据集的开发,无核的端到端网络成为了主流方法,其能够有效处理由于摄像机抖动或场景动态变化导致的模糊问题。尤其是多尺度策略和无下采样的层次结构被广泛采用来应对大模糊,而基于GAN的方法则旨在增强图像细节。为了更好地处理空间变化模糊,提出了空间变化RNN和滤波自适应卷积(FAC)层,这些方法为动态处理非均匀模糊提供了新的途径。
在低光照增强领域,深度学习网络已经成为推动技术进步的主要力量。早期的LL-Net通过自编码器学习去噪和光照增强,而后续研究则基于Retinex [7]-[9]理论,通过分解图像为反射和照明图来独立处理,进而提高图像的整体亮度和清晰度。此外,还探索了无监督学习方法,如EnlightenGAN和Zero-DCE,这些方法通过灵活的训练策略能够在没有成对训练数据的情况下进行光照调整,提高了方法的泛化能力[10] [11]。
虽然低光照增强和去模糊通常被视为两个独立的任务,但在实际应用中,这两个问题往往是相互关联的,特别是在动态场景和低光照条件下拍摄的图像中。因此,结合这两项技术的研究具有重要意义。在神经网络的发展过程中,残差网络的出现,解决了因为网络结构过深而出现的特性特征丢失问题[12]-[15]。这种问题在图像处理领域就表现为,图像中物体的细节丢失,边缘模糊,经过神经网络处理后的图像,尽管在亮度上已经出现了明细的改善,但是在物体的边缘上出现了大量的模糊。而残差网络的出现,能够将神经网络浅层的信息传递给网络的深部,在一定程度上避免了特性信息丢失的问题。受到残差网络的启发,LEDNet采用了残差网络的信息交流能力,在去模糊和图像增强的编码结构中,引入了类残差的结构,使得两种功能的编码结构在联合处理上实现了可能。
随着Diffusion Model和Transformer大模型的发展,给出了图像增强及去模糊联合处理的解决思路。Diffusion Model和Transformer展现出了极强的表达能力。Diffusion Model的图像处理方法主要通过在前向传播的过程中添加多轮高斯噪音,将图像转化为纯高斯噪声图,其反向传播则是通过减少高斯噪声,并对减后的部分进行微分,调整模型参数,从而生成图像。而Transformer的主要发展方向是不断提高模型的表达能力,并非生产式网络[16]。Transformer的核心结构是自注意力模型,基本单元包括Q、K、V三个向量矩阵。这三个矩阵的设计灵感来源于信息检索,其中Q代表查询,其目的是向K提供一个关系查找的指令,K中则记录着所有token之间的关系。Q与K的矩阵相乘实际上代表了所需检索的向量与其他向量之间的关系,即注意力程度。QK的结果与V相乘后,便得到了最终的注意力输出。通过QKV三个矩阵,不同token之间的关系被显式地分类、查询和表达,从而获得非常强大的泛化能力。这两种方法在露天矿环境下的监控图像退化处理同样能实现图像增强及去模糊联合处理的目的,但是在数据的真实性方面,Diffusion Model不及Transformer大模型。
3. 基于LEDNet的图像增强模型
3.1. 数据集准备
数据集的准备主要分为,训练数据集,以及验证数据集。其都是来自于GoPro相机拍摄拍摄的高帧率高清视频,及矿区监控系统拍摄的真实视频。
首先,在露天矿区的不同位置和不同时间段,特别是在放煤期间,使用GoPro相机拍摄了一系列高帧率的视频。这些视频能够反应在放煤过程中的具体场景。同时,还收集了矿区监控系统在夜间光照不足条件下记录的低质量视频,这些视频进一步补充了的数据集,确保了数据的多样性和真实性。
通过这些步骤,共获得了一定数量的视频用于训练和测试。每个视频包含多帧,通过这些连续的帧,能够模拟不同程度的放煤,而产生的视觉退化,如尘雾遮挡造成的亮度降低,以及放煤过程中的大量震动造成的图像模糊。与现有方法相比,采用的数据收集策略更加贴近露天矿实际工作环境,能够更真实地反映该环境下所面临的图像退化问题。
在数据集的制作阶段,LEDNet选取放煤过程中的图像质量最好的帧作为标签图像。选取连续的图像帧,并进行进一步退化,作为原始图像。因标签图像及原始图像在时间尺度上距离极近,因此可以组成图像对。原始处理如下。
(1)
其中:B表示生成的模糊图像;T是被平均的帧数;
是观测到的sRGB图像序列的第i帧;g()是相机响应函数用于将潜在的信号
映射到观测到的sRGB图像
中;g−1()是g()的逆函数,用于从sRGB图像中恢复原始的潜在信号。
原始图像并且经过伽马变换模拟夜间的环境,其变换公式如下:
(2)
其中:Iout为处理后的图像;c为常数系数;Iout为模糊处理后的图像。
最终,成功构建了一个包含多种动态场景、不同尘雾浓度和光照条件下的数据集。
3.2. 网络结构
在处理露天矿监控中捕获的低质量照片时,面对的主要挑战包括由于光照不足产生的图像低照度现象,以及由于监控设备固有性能限制和环境因素(如风吹或设备振动)引起的图像模糊。这些因素导致从露天矿监控系统获得的图像往往存在可见性差和纹理细节丢失的问题,进而影响了监控效果和后续分析的准确性。
为了有效改善监控视频中的低质量问题,本文提出了一种名为Low-light Enhancement and Deblurring Network (LEDNet)的统一网络架构。这是一个专为联合处理低光照增强和去模糊设计的Transformer网络结构。LEDNet的主体包括一个编码器和一个解码器,其基本结构为轴向Transformer块。编码器和解码器通过多尺度特征融合块,将不同尺度地特征,通过重要性的不同有选择地融合在一起,其目的是对图像模糊的特征进行一个丢弃,让编码和解码阶段有用特征得以保留。并且LEDNet在中间加入中间监督层,将8倍下采样的图像和监督图像的8倍下采的图进行损失计算,其目的是在编码阶段对图像的照度进行恢复,以便在之后解码阶段能够跟容易的对图像模糊进行去除。
LEDNet中的轴向Transformer块结构是一种小型化的Transformer结构,它通过将图像张量信息分别投影到两个正交的维度(水平和垂直方向),有效地降低了信息处理的复杂性。这种方法不仅保留了Transformer结构强大的表达能力,还能够充分利用图像的二维特性,使得模型在处理图像时更加高效。
LEDNet网络结构如图1所示:
Figure 1. Network architecture diagram
图1. 网络结构图
3.2.1. 轴向Transformer结构
在图一中红色块部分代表最基础的Transformer单元,因为Transformer网络的规模很大,如果采用将所以像素展开,从而建立自注意力关系,那么网络的大小是随着像素的数量几何倍数增加的。LEDNet基本为轴向Transformer块结构,基本的轴向Transformer块结构是一种针对图像处理的小型Transformer结构,它不仅保留了Transformer结构强大的表达能力,而且通过将张量信息分别投影到水平和竖直两个正交方向上,有效降低了信息处理的复杂性。这种方法的核心优势在于,图像的像素本质上是二维的,将注意力结构同样投影到二维空间,能够更自然地处理图像信息,从而优化了计算和存储资源。
轴向Transformer的思想来源于传统的Transformer结构,后者通过将信息分别投影到查询(Query)、键(Key)和值(Value)三个不同的维度,进行属性分类处理,具备了极强的表达能力。轴向Transformer结构类似于这种处理方法,它将图像信息沿着水平方向和竖直方向分别应用注意力机制。这种处理方法不仅能够对图像信息进行分类处理,减少了因展开处理(如平铺和卷积)带来的高维数据的计算和存储开销,而且在保持或提高模型的表达能力的同时,显著提高了模型的计算效率。
通过这种方式,轴向Transformer结构能够充分利用图像的二维特性,从而在计算效率、存储需求和表达能力之间取得平衡。由于图像信息天然是二维的,将注意力机制投影到两个正交的方向可以最大限度地保留图像的空间结构信息,降低了传统高维展开方式带来的计算复杂性,同时也保留了Transformer模型处理复杂关系的能力。这种方法不仅提高了模型对图像特征的表达能力,还降低了内存和计算资源的消耗,使得在图像处理任务中更加高效。
因此LEDNet使用轴向Transformer结构,这种结构的应用主要分为两个部分,高轴自注意力结构和宽轴自注意力结果,其结果为将,全特征图注意力正交分解为两个轴的注意力。其具体结构为:将输入的特征图(C × H × W)分别卷积为QKV三个矩阵,在经过变形得到高轴注意力得分在乘以值,再以同样的方式得到宽轴注意力分数及最后的结果。其结构图2所示。
3.2.2. 多尺度特征融合结构
图3所示结构为编码器和解码器特征选择性相互融合结构。首先,LEDNet将经过上采样后的解码特征L1和同尺寸的编码阶段的特征L2输入这个结构。并且使用1 × 1的卷积使得两个特征图的通道数保持一致。之后进行矩阵相加融合,目的是计算出不同特征图内通道的重要性。LEDNet将加和后的特征图进行全局平均池化,得到一个1 × 1 × c的逐通道统计矩阵。接下来,应用一个通道缩减卷积层来生成紧凑的特征表示z,最后,特征向量z通过两个并行的通道增强卷积层(每个分辨率流一个)并提供了两个特征描述符v1和v2。之后作应用softmax函数到v1和v2上,产生注意力激活s1和s2,使用它们来自适应地重新校准多尺度特征图L1和L2。特征重新校准和聚合的整个过程定义为:U = s1*L1 + s2*L2。完成编码阶段和解码阶段不同尺寸特征图融合。
Figure 2. Axial Transformer architecture
图2. 轴向Transformer结构
Figure 3. Multi-scale feature fusion architecture
图3. 多尺度特征融合结构
3.2.3. 损失函数
LEDNet的总损失包括低光照增强损失和模糊损失。低光照增强的损失在编码阶段的最小特征图与监督图像的8倍下采样进行L1损失和感知损失的计算。模糊损失是计算监督图像与推断图像的L1损失和感知损失。
1) 低光照增强损失
为了在编码阶段对图像的照度进行恢复,LEDNet使用中间特征监督,LEDNet在8倍降采样尺度上使用L1损失和感知损失。LEDNet在编码阶段预测的最小尺度的图像
,使用与尺度对应的真实图像
进行损失计算,具体如公式所示:
(3)
其中:ϕ()表示预训练的VGG19网络。起作用是对VGG19网络进行蒸馏,加快网络的收敛。
2) 去模糊损失
使用L1损失和感知损失作为去模糊损失
:
(4)
然后通过对低光照增强损失与模糊损失进行加权相加,计算总损失函数如下:
4. 实验与讨论
LEDNet针对露天矿监控场景下低光照与运动模糊的共存问题,提出了一种将光照增强和去模糊任务在网络结构中分离处理的方法,从而实现联合处理的效果。在编码阶段,LEDNet对最小的下采样特征图和8倍下采样的监督图进行损失计算,以增强图像的照度。其原理在于,由于8倍下采样的特征图尺寸极小,运动模糊的影响已被忽略,因此只需在中间层恢复图像的照度。在解码阶段,通过多尺度特征融合,LEDNet通过全局平均池化和卷积,对不同尺度的特征图赋予不同的重要性。该网络也类似于Transformer结构,通过为不同通道分配注意力分数,从而舍弃或弱化某些通道内的特征图。在去模糊阶段,LEDNet保留了增强图像清晰度的特征图,并去除了对图像清晰度无益的特征图。
为了全面评估该网络的效果,LEDNet采用了四种关键评价指标,并在两种典型的实验场景中进行了验证:一是露天矿的室外监控图像,二是生产系统内筒仓的监控图像。所采用的评价指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)、平均绝对误差(MAE)以及学习感知图像块相似度(LPIPS),以确保LEDNet的方法能够在这些挑战性场景下实现高质量的图像恢复与增强。
实验结果如下图4所示。
在图4中的露天矿监控图像中可以清晰地看出,在极低照度的情况下,依旧可以清晰分辨出物体的轮廓。如第一行放煤图像中的货车,构筑物以及放煤口。第二行受煤坑的下部阴影部分,以及最后一行坑内工作面情况。并没有现大面积噪点。其他方法在亮度较高的地方出现了噪点,在亮度较低的地方出现了大面积的无法识别区域。如图4第一行的车辆阴影面与车厢内,出现了大面积无法识别的区域。而在第三行的矿卡车身亮度较高出,则出现了大面积噪点。在图4第一和第三行车辆运动部分,尤其是第三行的轮胎,我们可以清晰看出轮胎的轮廓,其他方法在轮胎部分以及严重丢失细节。因此,LEDNet在去模糊方面也有不错的表现。
通过使用峰值信噪比(PSNR)、结构相似性指数(SSIM)、平均绝对误差(MAE)和学习感知图像块相似度(LPIPS)四种关键指标进行评估,方法结果对比如表1所示。
通过将LEDNet的方法与其他技术在露天矿的室内外环境中对比,结果显示LEDNet的方法在这两种场景中均显著超越了比较的方法,特别是在PSNR和MAE两个指标上,展示了其在图像恢复与增强任务中的高精度和优质输出。同时,SSIM和LPIPS指标的良好表现进一步证实了LEDNet的技术能够
Figure 4. Results of experiments
图4. 实验结果图
Table 1. Results comparison table
表1. 结果对比表
方法 |
露天矿室内场景 |
露天矿室外场景 |
PSNR |
SSIM |
MAE |
LPIPS |
PSNR |
SSIM |
MAE |
LPIPS |
论文方法 |
41.8 |
0.93 |
0.002 |
0.1136 |
43.58 |
0.97 |
0.002 |
0.1210 |
DRBN |
26.65 |
0.82 |
0.044 |
0.2104 |
22.65 |
0.51 |
0.051 |
0.2154 |
DSLR |
23.56 |
0.83 |
0.028 |
0.3502 |
24.71 |
0.73 |
0.018 |
0.4312 |
EnlightGAN |
25.12 |
0.79 |
0.024 |
0.3211 |
22.02 |
0.80 |
0.024 |
0.3121 |
EBDB |
25.23 |
0.80 |
0.024 |
0.2901 |
25.23 |
0.82 |
0.020 |
0.1501 |
PDPD |
27.34 |
0.90 |
0.035 |
0.2145 |
22.34 |
0.76 |
0.022 |
0.2200 |
JNB |
22.53 |
0.86 |
0.023 |
0.3416 |
23.53 |
0.76 |
0.029 |
0.1862 |
有效地重建图像,同时优秀地保留了图像的结构和感知质量。这些成果强调了LEDNet提出的网络架构在应对图像恢复、增强及去模糊任务方面的高效性和先进性。
5. 结论
本研究通过融合在网络中间层提升照度,在解码阶段遗忘不重要特征,从而实现图像的去模糊与照度提升。相关方法显著提升了在复杂露天矿监控环境下的图像质量,特别是在低光照和运动模糊场景中。该方法不仅显著提高了图像的亮度和清晰度,还保留了关键特征,如设备细节和人员特征,确保了高质量图像恢复的实用性。
相比现有技术,LEDNet的方法在增强后的图像中更接近于真实场景,极大提高了露天矿监控系统的可靠性和准确性。同时在极端低光照条件下展现出卓越的抗噪能力,显著减少了噪点和图像失真,优于DRBN、DSLR和EnlightGAN等现有方法。经过在多种露天矿场景和不同光照条件下的测试,该方法证明了其广泛的适用性和灵活性,能够在各种复杂环境中实现高效图像处理。
研究的LEDNet在去除伪影方面仍有一定的不足,在后续研究中将持续改进,针对性地提升LEDNet的伪影去除能力。
NOTES
*通讯作者。