1. 引言
低照度成像条件下,视觉信息严重衰减,极大限制了计算机视觉在安防监控、自动驾驶及移动摄影等关键应用中的性能[1]。亮度不足、信噪比低、色彩失真和细节模糊等问题,不仅影响主观视觉体验,也阻碍目标识别与场景理解等高级任务的实现。为此,开发能有效恢复光照、抑制噪声、保留细节的图像增强算法成为研究热点。
当前技术主要包括:早期基于直方图均衡化及其变体[1]-[3],旨在扩展动态范围,但易导致局部过曝或细节损失;Retinex理论[4]通过照度与反射分离实现增强,但存在色彩偏差和边缘光晕问题。图像融合方法[5] [6]通过合成多曝光或多处理版本,提升细节表现,但对极暗区域提亮有限,源图选择影响效果。深度学习方法,特别是卷积神经网络和GAN [7]-[9],通过端到端学习或无监督训练,取得显著提升,但存在泛化差、伪影生成和颜色失真等问题。结合深度模型和传统技术的混合策略[9] [10],逐步改善鲁棒性与还原度。
尽管取得进展,但极端低光环境下的图像处理仍面临核心难题:如何在提升整体亮度的同时,确保微弱细节的充分保留,抑制噪声且不引入色彩扭曲。单尺度或单一色彩空间的处理难以有效解耦这些复杂因素,促使研究者探索新的范式。为此,本文借鉴人类视觉系统的处理特点,优先在HSV空间对亮度(V)通道进行专项处理以保持色度(H, S)的稳定;同时,利用多尺度的图像结构信息,结合非下采样剪切波变换(NSST) [11]等多尺度几何分析工具,利用其优异的时频局部化和多方向性,为不同尺度的光照、噪声及结构优化处理提供技术支撑。
基于此,本文提出一种针对低光图像增强的新框架,其核心在于多尺度分解引导下的候选信息融合与后处理优化。该框架首先通过分析预处理后的亮度信息生成多样化的增强候选,随后利用NSST进行深度特征解耦,并在不同子带采用定制化的融合策略,最后通过对比度调整和色彩重构生成高质量输出。本文的关键贡献体现在:
饱和度引导的差异化候选生成:通过结合多尺度高斯滤波估计的照度信息与图像饱和度,自适应地生成两幅在亮度和对比度上具有差异化增强特性的候选亮度图。这种基于饱和度的引导机制,能更灵活地适应不同光照条件,为后续融合提供更丰富且互补的信息源。
NSST域低频PCA融合:针对NSST分解得到的低频子带,运用主成分分析(PCA)自适应确定融合权重,有效整合候选图像中的全局光照成分,实现鲁棒的亮度恢复。
NSST域高频引导滤波融合:对于高频子带,采用一种引导滤波结合平均的策略。对每个候选图像的高频系数进行自引导平滑以抑制噪声,然后平均融合以保留共有的精细结构和边缘信息,避免了单一增强引入的伪影。
对比度后处理增强:在融合重构亮度通道后,引入自适应直方图均衡化(AHE)进一步优化图像的局部对比度,提升视觉效果。
本文后续章节将对所提框架的技术细节进行详细的阐述。为验证其有效性,将在包括LOL、ExDark在内的多个公开基准数据集上展开全面的实验评估,通过多个客观指标以及细致的主观视觉比较,系统地衡量本方法相较于当前代表性算法的性能优势。同时,也将对其计算效率和在促进下游视觉任务性能提升方面的潜力进行探讨,以期全面展现该框架的理论价值与实际应用前景。
2. 多尺度均衡弱光图像增强
2.1. 预处理与候选亮度图生成
为了在增强过程中有效保持原始图像的色彩信息并避免引入色偏,本框架首先在HSV色彩空间中对亮度(Value, V)通道进行主要操作。
设输入的低照度RGB图像为
。首先,将其转换至HSV色彩空间:
其中,
分别代表色调、饱和度和亮度分量。
同时,为了初步扩展图像的动态范围,对输入图像
进行通道级线性拉伸。对于每个颜色通道
,计算其最小值
和最大值
,然后进行归一化处理得到拉伸后的通道
:
组合拉伸后的通道得到预处理图
。随后,再次将
转换至HSV空间,获取其对应的亮度分量
以及色调
和饱和度
:
这一步有助于后续处理对亮度信息的更好利用。接下来,基于拉伸后的亮度分量
,估计其照度分量
。采用多尺度高斯滤波策略,通过对
应用三个不同尺度参数(例如:
)的高斯滤波器
并取平均,得到平滑的照度估计:
该多尺度策略旨在捕捉不同频率的光照变化,获得更鲁棒的全局和局部光照估计。为了生成具有互补增强特性的候选图像,利用估计的照度
和拉伸后的亮度
,并结合图像的平均饱和度
,生成两幅候选亮度图
和
。增强过程采用饱和度自适应调整,通过定义两个不同的增强因子
和
(例如:
)来实现。候选亮度图在每个像素点
按下式计算:
(1)
(2)
其中,
操作用于防止分母过小或为零。
这种方式旨在根据图像整体饱和度调整对比度增强的强度,生成两幅在亮度提升和对比度表现上有所侧重的候选图,为后续融合阶段提供更丰富的信息源。这两幅候选亮度图
和
将作为下一阶段NSST融合的输入。
2.2. NSST的多尺度分解
为了在不同尺度和方向上精细地处理图像信息,实现光照、噪声与细节的有效分离与整合,本框架采用非下采样剪切波变换(NSST)对上一步生成的两幅候选亮度图
和
进行分解。
NSST作为一种先进的多尺度几何分析工具,具有多尺度、多方向性、平移不变性以及优异的稀疏表示能力,能有效捕捉图像的各向异性特征,如边缘和纹理,其分解过程如图1所示。
Figure 1. NSST decomposition of low-light image
图1. 低照度图像NSST分解
设NSST分解操作为
,它将输入图像分解为一系列子带。该过程通常包含一个非下采样金字塔(NSP)进行多尺度分解和一个剪切波滤波器(SF)进行多方向分解。对每个候选图
,进行
层分解,每
层(除最低频层外)包含
个方向
。分解结果包含一个低频子带
和
组高频子带
:
原始图像通过多级非下采样金字塔(NSP)分解得到不同尺度的低频分量和高频子带。
2.2.1. 低频子带融合
低频分量表征图像的全局亮度分布与对比度特征,其融合效果直接决定增强结果的均匀性与自然性。主成分分析作为一种正交线性变换方法,通过协方差矩阵的特征分解提取主成分方向,能够以最大方差保留原则实现数据的自适应降维与特征重构。在本文方法中,两幅亮度候选图的低频分量经PCA处理后,第一主成分(方差贡献率最高)可有效捕捉候选图的共性亮度分布特征,而次主成分则反映候选图间的差异信息。相较于传统线性加权方法,PCA通过特征空间的投影变换实现了多维信息的非冗余融合,既避免了因固定权重导致的光晕效应,又能自适应抑制局部过增强现象。低频子带
和
集中了图像的主要能量和全局光照信息。为了鲁棒地融合这两个子带,保留共有的基础结构并实现平滑的亮度过渡,采用基于主成分分析(PCA)的自适应加权融合策略。
首先,将两个低频子带分别按列展开成向量
和
。计算这两个向量构成的矩阵的协方差矩阵
:
对协方差矩阵
进行特征值分解。选取与最大特征值
对应的特征向量
。将该特征向量的分量进行归一化,得到融合权重
和
:
融合后的低频子带
通过加权平均得到:
(3)
这种基于PCA的策略能够根据低频子带的主要能量分布自适应地确定融合权重,有效整合两幅候选图的全局光照成分。
2.2.2. 高频子带融合
高频分量包含图像的边缘纹理与噪声成分,其处理需平衡细节增强与噪声抑制的矛盾。引导滤波通过局部线性模型建立引导图像与输入图像的关系,利用引导图像的结构信息对输入图像进行边缘保持的平滑操作。本文方法中,高频子带采用引导滤波处理,可将亮度候选图的梯度特征作为引导信号,抑制高频噪声的同时强化边缘响应。针对多尺度分解后的高频分量,平均融合策略通过加权叠加保留不同候选图的显著性细节,避免单一候选图可能导致的纹理丢失。此外,NSST的多方向分解特性与引导滤波的边缘导向性形成互补,进一步增强了高频分量的结构化表达能力。高频子带
主要包含了图像的边缘、纹理等细节信息,但也混杂了噪声。为了在融合过程中有效抑制噪声、保留清晰的结构信息并避免引入伪影,本框架采用一种基于自引导滤波与平均的融合策略。对于每个尺度
和方向
的对应高频子带对
,执行以下操作:
对每个高频子带应用引导滤波器(Guided Filter)进行平滑处理。特别地,这里采用“自引导”方式,即引导图像与输入图像相同。
设引导滤波操作为
,其中
为输入图像,
为引导图像,
为邻域半径,
为正则化参数(控制平滑程度)。对两个高频子带分别进行自引导滤波:
自引导滤波利用图像自身的结构信息作为引导,能够在平滑噪声的同时较好地保持边缘结构。将经过自引导滤波平滑后的两个高频子带进行简单的平均融合,得到最终的融合高频子带
。平均操作旨在保留两幅候选图中共同存在的结构和纹理细节,并能进一步抑制在滤波后可能残留的随机噪声。对所有尺度
和方向
的高频子带重复此融合过程。将融合得到的低频子带
和所有融合后的高频
子带
输入到NSST逆变换
中,重构得到初步增强的亮度图
:
(4)
为了进一步优化增强图像的局部对比度,提升细节的可见性和整体视觉效果,对融合重构得到的亮度图
应用自适应直方图均衡化(Adaptive Histogram Equalization, AHE)。AHE通过在图像的每个局部邻域内计算直方图并进行均衡化,能够有效增强局部细节,避免全局直方图均衡化可能导致的对比度过度拉伸和噪声放大问题。设AHE操作为
,则经过后处理的亮度图
为:
最后一步是将增强后的亮度分量
与原始图像的色度信息相结合,恢复图像的色彩。根据具体实现,可以选择使用原始的色调分量
和饱和度分量
,或者使用通道拉伸后的
和
。
假设选用
和
,则将它们与增强后的亮度
合并,形成最终的HSV图像:
然后,将该HSV图像转换回RGB色彩空间,得到最终的增强图像
:
(5)
综上针对低照度图像存在的亮度不足、噪声显著及细节丢失问题,本文提出一种基于NSST多尺度分解与自适应引导融合的增强框架,算法各步骤的效果如图2所示。
3. 实验结果与分析
本章节旨在全面评估所提出的基于NSST与自适应引导融合的低光图像增强方法(后文简称“Ours”或“本文方法”)的有效性。我们首先系统地介绍实验所采用的数据集、评价指标、对比基准算法以及具体的实施配置。随后,通过定量指标和定性视觉效果两个维度,深入展示并分析本文方法与现有代表性算法的性能差异。此外,通过消融实验验证了框架关键组件的贡献,并对算法的计算效率和在促进下游视觉任务(目标检测)方面的潜力进行了评估。
Figure 2. Flowchart of algorithm effect
图2. 算法效果流程图
3.1. 实验配置
实验采用混合数据集验证框架,训练集包含合成数据[12]和真实低光场景采集数据[13] [14]。测试集涵盖三大类场景:1) 极端暗光;2) 混合光源干扰(城市夜景、室内复杂照明);3) 噪声耦合场景。算法基于MATLAB R2021a实现,NSST分解采用maxflat低通滤波器,分解层数L = 2,每层方向数K = 6。对比方法选取PCA [15]等7种经典与前沿方法,所有实验均基于RGB色彩空间进行标准化处理。
3.2. 定量评估
定量结果清晰地展示了本文方法的优势。根据表1,在存在真实参考图像的LIME数据集上,本文方法在PSNR和SSIM两项关键指标上均取得了最优成绩,显著超越了所有对比算法,这证明了其在恢复图像结构信息和降低失真方面的卓越能力。
表2的无参考指标评估结果进一步佐证了这一点,在ExDark、MEF和DICM等多样化的真实低光场景中,本文方法在NIQE指标上始终保持最低值表明增强后的图像具有最佳的视觉自然度。虽然某些方法(如HE、CLAHE)可能获得较高的信息熵,但这往往是以牺牲图像质量、放大噪声为代价的(见3.3节定性分析),而本文方法在提升信息量的同时,能更好地维持图像的整体质量。
Table 1. Reference-based metric evaluation on the LIME dataset (average value)
表1. LIME数据集上的有参考指标评估(平均值)
方法 |
PSNR (↑) [21] |
SSIM (↑) [22] |
HE [16] |
11.659 |
6.9682 |
CLAHE [17] |
13.063 |
6.9930 |
MSRCR [18] |
8.2743 |
6.5627 |
DCP [19] |
11.387 |
5.3805 |
FEA [20] |
12.214 |
6.8479 |
PCA [15] |
12.287 |
7.4670 |
Ours |
13.091 |
7.5062 |
Table 2. No-reference metric evaluation on ExDark, MEF, and DICM datasets (average value)
表2. 在ExDark、MEF、DICM数据集上的无参考指标评估(平均值)
数据集 |
指标 |
HE |
CLAHE |
MSRCR |
DCP |
FEA |
Ours |
ExDark [12] |
NIQE (↑) [23] |
3.4252 |
2.9767 |
3.2957 |
3.2110 |
3.1380 |
3.0919 |
Entropy (↑) [24] |
7.1149 |
7.1926 |
6.6658 |
5.6655 |
7.0471 |
7.6523 |
MEF [13] |
NIQE (↑) [23] |
4.6694 |
3.6963 |
4.1988 |
3.6024 |
4.3915 |
4.1138 |
Entropy (↑) [24] |
6.0520 |
6.3104 |
6.5807 |
5.0974 |
5.7097 |
7.4055 |
DICM [14] |
NIQE (↑) [23] |
3.7864 |
3.3442 |
3.5427 |
2.9597 |
3.4047 |
3.0916 |
Entropy (↑) [24] |
6.7533 |
6.9085 |
6.4303 |
5.7837 |
6.4035 |
7.3896 |
Figure 3. Boxplot of the distribution of key indicators on the LIME dataset (1 represents our method, 2 represents PCA, 3 represents HE, 4 represents CLAHE, 5 represents MSRAR, 6 represents DCP, 7 represents FEA)
图3. 关键指标在LIME数据集上的分布箱线图(1表示我们的方法,2表示PCA,3表示HE,4表示CLAHE,5表示MSRAR,6表示DCP,7表示FEA)
图3展示了在LIME测试集上,不同增强方法所得结果的指标分布。箱体表示四分位距(IQR),中间线为中位数,虚线延伸至1.5倍IQR内的最远点,圆点为异常值。本文方法不仅在中位数上领先,且IQR较小,表明其增强效果不仅平均水平高,且在不同图像上表现更为稳定。图3的箱线图进一步揭示,本文方法不仅平均性能优越,其结果的波动性也相对较小,鲁棒性更强。
3.3. 定性分析
为了直观比较不同方法的视觉增强效果,我们在图4中展示了从ExDark、DICM和MEF数据集中选取的代表性低光图像及其增强结果。如图4所示,各种方法在视觉效果上存在显著差异。HE和CLAHE (图4(b),图4(c))虽然能大幅提升全局亮度,但往往伴随着严重的噪声放大(尤其在[例如:ExDark图像的暗处])和色彩失真,导致视觉效果不自然。MSRCR (图4(d))和DCP (图4(e))在某些场景下表现尚可,但MSRCR可能在边缘区域产生光晕,而DCP有时会引入不期望的色偏或暗区细节丢失。FEA (图4(f))的效果在对比度和色彩上有所改善,但噪声抑制仍显不足。PCA (图4(g))作为简化版本,效果优于HE/CLAHE,但相比完整方法,其细节恢复和噪声抑制能力较弱。
相比之下,本文方法(图4(h))在各种测试图像上均表现出优异的综合性能:亮度提升适度且自然,暗区细节得到有效恢复,噪声被显著抑制,色彩还原真实,并且未引入明显的伪影,充分体现了NSST多尺度分解与针对性融合策略的优势。
3.4. 消融实验
为探究本文框架中各个关键设计组件的实际贡献,我们在LOL数据集上进行了一系列消融实验,评估了以下模型变体:
Figure 4. Comparison of enhancement effects of different methods on low-light images with low representativeness ((a) represents the original image, (b) represents HE, (c) represents CLAHE, (d) represents MSRAR, (e) represents DCP, (f) represents FEA, (g) represents PCA, (h) represents our method)
图4. 不同方法在代表性低光图像上的增强效果对比((a) 表示原图,(b) 表示HE,(c) 表示CLAHE,(d) 表示MSRAR,(e) 表示DCP,(f) 表示FEA,(g) 表示PCA,(h) 表示我们的方法)
1) Ours (Full):完整的提出方法。
2) W/O AHE:移除最终的AHE对比度后处理步骤。
3) W/O NSST (PCA Fusion):不使用NSST分解,直接对候选亮度图Iven1、Iven2应用PCA融合(即PCA-fusion Baseline),然后进行AHE。
4) W/O NSST (GF Fusion):不使用NSST分解,直接对候选亮度图应用自引导滤波融合,然后进行AHE。
Figure 5. Comparison of image enhancement effects under the context of ablation experiments
图5. 消融实验下的图像增强对比
Table 3. Results of the ablation experiment (average indicators on the LOL dataset)
表3. 消融实验结果(在LOL数据集上的平均指标)
组件变体 |
PSNR (↑) |
SSIM (↑) |
NIQE (↓) |
Ours (Full) |
12.837 |
0.49588 |
3.1594 |
W/O AHE |
11.428 |
0.42289 |
3.4561 |
W/O NSST (PCA Fusion) |
11.844 |
0.43819 |
3.3450 |
W/O NSST (GF Fusion) |
10.870 |
0.43171 |
3.0981 |
W/O PCA-LF |
11.429 |
0.42290 |
3.4593 |
W/O GF-HF |
11.843 |
0.43833 |
3.3400 |
5) W/O PCA-LF:在完整NSST框架内,将低频子带的PCA融合替换为简单的平均值融合。
6) W/O GF-HF:在完整NSST框架内,将高频子带的自引导滤波 + 平均融合替换为简单的平均值融合。
图5和表3的消融研究结果清晰地量化了各组件对整体性能的贡献。
首先,移除AHE后处理(W/O AHE)导致PSNR、SSIM和NIQE指标均出现下降,表明AHE对于提升最终图像的对比度和主观质量至关重要。其次,不采用NSST分解而直接使用PCA融合(W/O NSST (PCA Fusion))或引导滤波融合(W/O NSST (GF Fusion))的模型变体,其性能远劣于完整方法,这强有力地证明了NSST多尺度分解在有效分离和处理光照、细节与噪声方面的核心作用。
在NSST框架内部,将低频融合策略从PCA替换为简单平均(W/O PCA-LF),或将高频融合策略从自引导滤波 + 平均替换为简单平均(W/O GF-HF),同样会导致性能显著下滑。这分别验证了我们设计的PCA策略对于鲁棒整合全局光照信息,以及自引导滤波策略对于精细保持高频细节并抑制噪声的有效性。
3.5. 客观量化指标分析
本研究主要采用LOL (Low-Light)数据集对所提方法的图像增强性能进行客观量化评估。LOL数据集是一个广泛使用的配对数据集,包含500组高质量的低光照图像与其对应的正常光照参考图像。这种配对特性使得我们可以计算图像增强领域常用的客观量化指标:峰值信噪比(PSNR)和结构相似性指数(SSIM)。PSNR用于衡量增强图像与参考图像之间的像素级差异,数值越高表示图像质量越好;而SSIM则关注图像结构、亮度、对比度等感知维度的相似性,数值越接近1表示视觉质量越好。
为进行公平对比,我们将LOL数据集按照80% (400组图像)用于模型训练、20% (100组图像)用于模型测试的标准策略进行划分。所有客观量化指标的计算均基于此测试集,将模型增强后的图像与对应的真实正常光照参考图像进行对比。得到的PSNR 28.6 dB和SSIM 0.91均为在此LOL测试集上获得的均值,反映了本方法在像素精度和感知质量上的优越性。
Table 4. Quantitative performance comparison of different methods on the test set of the LOL dataset
表4. 不同方法在LOL数据集测试集上的量化性能对比
方法 |
PSNR (dB) |
SSIM |
原始低光 |
21.3 |
0.75 |
MSRCR |
24.5 |
0.81 |
AHE |
23.8 |
0.79 |
URetinex |
26.1 |
0.85 |
Ours |
28.6 |
0.91 |
表4展示了本方法与多种对比算法在LOL数据集测试集上的PSNR和SSIM性能对比。从表4可以看出,本方法在PSNR和SSIM两项指标上均显著优于所有对比算法。具体而言,本方法取得了28.6 dB的PSNR和0.91的SSIM,相较于性能次优的URetinex方法,PSNR提升了2.5 dB,SSIM提升了0.06。相较于原始低光图像,PSNR提升了7.3 dB,SSIM提升了0.16。这表明本方法在像素级别的精度和感知质量上均达到了领先水平,能够有效恢复低照度图像的细节和色彩信息。这些结果强有力地支持了本方法在图像增强方面的优越性。
3.6. 计算效率评估
为评估本文方法的实际运行效率,我们测试了其处理一张标准尺寸图像(分辨率为600 × 400像素)所需的平均时间,并与主要对比方法进行了比较。所有时间均在3.1节所述的CPU平台上使用MATLAB实现测得。
如表5所示,本文方法在CPU上的平均处理时间为0.25秒。虽然慢于结构极其简单的HE和CLAHE方法,但与MSRCR、DCP等较为复杂的传统方法相比更快。相较于其带来的显著性能提升,这一计算成本被认为是可接受的。
当前的MATLAB实现在CPU上可能尚未达到严格意义上的实时处理,但算法的主要耗时部分在于NSST分解/重构和引导滤波,这些操作具有良好的并行计算潜力。预期通过代码优化和利用GPU加速,可以大幅缩短处理时间使其具备在需要快速响应的应用场景中部署的潜力。
3.7. 下游任务验证
为了验证本文增强方法对后续高级视觉任务的实际助益,我们以目标检测为例进行了实验。选用ExDark数据集作为测试平台,该数据集包含多种在低光环境下拍摄的目标。我们使用了预训练的检测器,分别在原始低光图像和经由本文方法增强后的图像上进行目标检测,并采用标准的平均精度均值(mAP@0.5)指标进行性能评估,具体结果见表6。
Table 5. Comparison of average processing time (unit: seconds)
表5. 平均处理时间对比(单位:秒)
Table 6. Comparison of object detection
表6. 目标检测对比
输入图像类型 |
mAP@0.5 (↑) |
原始低光图像 |
0.35 |
增强后图像(Ours) |
0.58 |
增强后(CLAHE) |
0.39 |
3.8. 讨论
综合上述定量、定性、消融实验及下游任务评估结果,本文提出的基于NSST与自适应引导融合的低光图像增强框架表现出显著的有效性和优越性。该方法的核心优势在于:
1) 在HSV颜色空间对亮度通道进行处理,并结合饱和度自适应生成多样化的候选输入,有效保护了色度信息;
2) 利用NSST强大的多尺度、多方向分解能力,将图像分解为包含不同物理意义的子带;
3) 针对低频和高频子带的特性,设计了定制化的融合策略——PCA融合,鲁棒地整合了全局光照信息,而自引导滤波结合平均的策略则精巧地平衡了高频细节的保留与噪声的抑制;
4) 最终的AHE后处理进一步优化了局部对比度,提升了整体视觉效果。
实验结果全面证实,与多种基准算法相比,本文方法能够在有效提升图像亮度的同时,更好地抑制噪声、保留细节、还原色彩,生成视觉效果自然、信息丰富的增强图像。消融实验验证了框架中NSST分解、特定子带融合策略及AHE后处理等关键组件的不可或缺性。计算效率分析显示了其具备优化后应用于实际场景的潜力。更重要的是,下游目标检测任务性能的显著提升,直接体现了该增强方法对于改善整个视觉系统在低光环境下工作效能的实际价值。
4. 局限性与未来工作
尽管本文方法取得了良好的结果,但仍存在一定的局限性和改进空间。首先,算法中部分参数目前为固定值或基于经验设定,未能实现完全的场景自适应。未来研究可探索参数的自动优化或根据图像内容自适应调整的机制。其次,对于混合极端噪声或同时存在运动模糊等其他类型退化的低光图像,增强效果可能仍有提升空间。未来的工作可以考虑将更先进的噪声模型或探索将本文框架的优势与深度神经网络强大的特噪模块集成到框架中,特征学习和端到端映射能力相结合的混合模型,以期在更广泛和更复杂的低光场景下实现性能的进一步突破。
NOTES
*通讯作者。