1. 引言
近年来,随着人工智能的发展以及对红外成像技术研究的不断深入,红外成像系统因其隐蔽性好,抗电子干扰能力强,可全天候工作等特性被广泛的应用于目标识别,目标检测,目标跟踪,遥感成像,安全监控等各个领域。但由于红外成像设备工艺的问题,以及成像过程中容易受到干扰,使得红外图像会出现非均匀性、对比度低、细节模糊、信噪比低等问题。低质量的红外图像难以完成目标检测、人体姿态估计等机器视觉任务。因此对红外图像进行细节增强、提高图像对比度从而使其更适应人眼观察过机器识别,提高上述任务的效率和精度显得格外重要。
深度学习流行前,传统的红外图像增强算法主要分为两大类:空域和频域。空域是指对图像的像素值进行直接调整,主要以基于灰度变换的直方图均衡(histogram equalization, HE)算法 [1] 为主。然而,对于低对比度的红外图像,HE在增强时容易出现放大噪声,局部过度增强的不良结果。为解决这个问题,研究人员提出了许多基于HE算法的变体,如DPHE [2] ,ACLSHE [3] 。频域指对图像进行傅里叶变换后在频谱空间内处理。主要有引导滤波 [4] ,小波变换 [5] 等技术。然而,基于频域的算法,具有计算量较大且参数难以优化等缺点,难以批量处理图像。而模拟人眼视觉系统的Retinex [6] 算法,在应用于红外图像增强时,能够较好地保留图像的细节信息,丰富图像的纹理,但其效果严重依赖于光照分量的估计,模型泛化性不佳,难以自适应的优化图像。
近年来,随着深度学习理论的不断进步,其在图像去噪、图像识别等方面取得了优秀的效果,故研究人员将深度学习运用于红外图像增强。其中,Choi等人 [7] 首次设计了一个浅层卷积网络进行红外图像增强。Kuang等人 [8] 在卷积神经网络结构中加入生成对抗网络,有效抑制了背景噪声,并增强图像对比度和细节,但损失函数过于复杂。部分学者基于Retinex算法提出了LLNet算法 [9] 和RetinexNet算法 [10] ,依靠卷积网络自提取的特性,一定程度上解决了参数难以优化以及公式复杂的问题,但对图像空间信息的捕获能力不足,容易造成目标边缘模糊以及光晕等问题。于是,韩伟娟等人 [11] 进一步引入CBAM模块提升网络对目标的捕获能力,但CBAM模块的引入增加了参数量,且空间注意力和通道注意力串联的形式不符合人脑两种注意力协同工作的模式。由此,本文提出改进的RetinexNet算法,一方面,引入SimAM注意力模块,在不增加参数的条件下,为每个神经元适配权重,另一方面,使用增加循环残差结构的U-Net的编解码网络在不增加过多参数的情况下,提升网络的深度,增强网络对特征信息的学习能力,最终生成高质量的增强红外图像。
2. 本文算法理论
2.1. Retinex理论
Retinex理论的基本假设是任何一幅图像都可以分解为反射图像R (物体的本身特性)和光照图像I (光照对物体成像的影响),所以Retinex算法的核心就是从原始图像S中估测并去除I分量,得到原始反射分量R。该模型可被表示为:
式中:I(x,y)为光照分量;R(x,y)为反射分量;S(x,y)为观察者所观测到的图像。
2.2. RetinexNet网络结构
基于Retinex理论衍生了许多改进算法,其中传统算法如SSR算法、MSR算法、MSRCR算法等。但是传统算法处理图像耗时较长,难以批量处理图片,于是,有学者提出了一种基于Retinex理论的卷积神经网络模型——RetinexNet。
RetinexNet模型包含三部分:分解网络、增强网络和重建,如图1所示。分解网络的作用是进行反射分量R和光照分量I的分解。该网络由首尾2层卷积层、5层有激活函数的卷积层以及sigmoid输出函数构成,成对的低/正常光照图样本使用相同分解网络并共享参数,输出各自的反射分量R和光照分量I。

Figure 1. RetinexNet network model
图1. RetinexNet网络模型
调整网络主要对低光照图像的反射分量Rlow中放大的噪声进行抑制及其光照分量Ilow进行调整,网络采用encoder-decoder架构,引入多尺度的连接以增强对光照分布的上下文信息的大范围捕获能力,进而提高其自适应调整能力。
重建模型则是将反射分量Rlow和光照分量Ilow相乘得到输出图像。
2.3. RetinexNet的不足
RetinexNet的设计之初是用于低照度图像增强,虽然红外图像与低照度图像有一定相似,但红外图像为灰度图像,所含的信息更少,使用原始RetinexNet网络的增强效果不佳。
3. 改进网络结构
3.1. 激活函数改进
本算法选择ELU作为激活函数,ELU函数在负区间存在输出,避免了神经死亡的问题,对噪声有一定的鲁棒性,同时输出均值接近于0,可以快速收敛,ELU函数如公式(1)所示:
(1)
3.2. 损失函数的重构
在网络的学习过程中,构造合适的损失函数对能否得到预想的训练效果至关重要。由于红外图像增强和低照度图像增强的差异性,需对损失函数进行重构,原分解网络的损失函数由重建损失、反射分量一致性损失和光照分量平滑损失三部分组成,如公式(2)所示:
(2)
重建损失Lrecon主要用于确使分解网络分解出来的对应反射分量R和光照分量I相乘后可还原对应的低/正常光图像;反射分量一致性损失Lir是确保Retinex理论所描述的,物体的反射分量应不受光照分量的影响,保持一致;光照分量平滑损失Lis则认为理想光照分量在纹理细节上应尽可能平滑,同时仍能保持整体结构边界。
但将其用于红外图像时,很容易出现细节丢失,噪点过多等问题,因此在重构中引入了MS-SSIM损失函数,使其能更好地保留高频分量(边缘和细节),并加上有一定的权重的L1损失函数,来维持亮度和颜色不变化,具体函数如公式(3)所示,其中G为高斯分布函数:
(3)
重构后的损失函数由L和LMix共同组成。
3.3. 增强网络改进
3.3.1. Attention U-Net网络结构
考虑到原RetinexNet的增强网络部分Enhance-Net在用于红外图像的光照图增强时,容易丢失边缘信息。因此增强网络引用加入注意力机制以及循环残差结构的U-Net架构 [11] ,如图2所示。上下采样层之间设有“复制与修剪通路(copy and crop)”,使得特征层可以在采样路径之间传递,减少数据丢失,通路中加入注意力模块提高对目标特征的学习能力。
3.3.2. SimAM注意力模块
为了更好地捕捉红外图像的特征,有效增强光照图像的信息,且不增加参数,引入无参数的注意力模块(SimAM)。如图所示,SimAM为每个神经元分配了唯一权重,融合了通道注意力和空间注意力的优势。其区别如图3所示:

Figure 2. Attention U-Net network structure
图2. Attention U-Net网络结构

Figure 3. Differences between SimAM and channel attention and spatial attention
图3. SimAM与通道注意力和空间注意力的区别
根据神经科学理论,信息丰富的神经元具有和其他神经元不同的放电方式,会抑制周围其他神经元。因此为每个神经元定义了一个能量函数,如公式(4)所示:
(4)
求解得最小能量如公式(5)所示:
(5)
其中
,
,公式(5)表示,能量越低,神经元t与周围神经元区别越大,越重要。因此,神经元的重要性可以通过1/e*得到。则按照注意力机制的定义,特征矩阵的增强如公式(6)所示:
(6)
3.3.3. 循环残差卷积
通过引入循环结构(recurrent卷积)在不增加参数的情况下增加网络深度,提高非线性表达能力,更好的拟合特征。通过引入残差结构(residual)避免网络随深度增加而出现梯度消失的问题。改进后的循环残差卷积(recurrent residual block, RRB)结构如图4所示:

Figure 4. Structure of cyclic residual convolution (RRB)
图4. 循环残差卷积(RRB)结构
最终网络结构如图5所示:

Figure 5. Improvement of RetinexNet network structure
图5. 改进RetinexNet网络结构
4. 实验结果与分析
4.1. 实验环境
实验使用的计算机配置:AMD i5 5800H CPU、16GB内存和RTX 3060GPU。实验时小批量设置为16,使用Adam优化器进行优化,学习率的初始化值为0.001。RetinexNet算法和改进算法均使用pytorch框架来实现,深度学习算法均训练100个epoch。
4.2. 主观视觉评价
实验使用FLIR公司提供的无人驾驶红外数据集进行测试,分别使用传统方法HE、CLAHE,基于Retinex算法的MSR算法,以及基于深度学习的RetinexNet和本文算法进行横向对比。实验结果如图6所示。
从视觉效果上看,深度学习算法要明显由于HE,CLAHE和MSR,HE和CLAHE失真较大,对比度由较好的改善,但纹理细节并不突出,且容易增强噪声,MSR算法对亮度以及对比度有一定提升,但增强后后方小目标车辆增强效果一般,原RetinexNet算法曝光过度,处理后照片过亮,改进后的RetinexNet算法,效果较好,亮度适中,较为符合人眼的观察习惯。
4.3. 客观评价
对于图像增强任务,通常采用峰值信噪比(PSNR)和结构相似性(SSIM)定量评价网络模型的性能。PSNR是基于对应像素点之间的误差,其值越大,表示图像质量越好,PSNR如公式(7)所示。
(7)
结构相似性(SSIM)是衡量2幅图片相似度的指标,SSIM值越接近1,表示2张图片越相似,输出图片更吻合真实标签图片,SSIM如公式(8)所示。
(8)
本文以平均PSNR和平均SSIM作为客观评价指标,与红外增强典型传统方法HE [12] ,CLAHE [13] ,MSR [14] ,改进前的RetinexNet网络进行定量对比。随机选取10次实验结果取平均值,结果如表1所示:

Table 1. Comparison of reconstruction indicators of different algorithms
表1. 不同算法的重建指标对比
由表1可见,文中方法在PSNR和SSIM上,较基于灰度变化的CLAHE算法分别提升了15.05 dB和0.03,较基于Retinex算法的MSR分别提升了16.7 dB和0.05,在同样训练100个epoch的条件下,较基于深度学习的RetinexNet算法,分别提升了10.07 dB和0.02。文中方法较CLAHE算法和RetinexNet算法分别提升了41.52%、3.2%和27.79%、2.1%。证明本文算法,明显由于传统算法和其他深度学习算法,能够提高信噪比,实现低质量红外图像的有效增强。
5. 结语
为突出红外图像的细节信息,同时使其更符合人眼观察的习惯,本文算法改进RetinexNet算法,通过引入无参数注意力机制(SimAM)更好地捕捉红外图像的空间特征,在不增加参数的情况下有效地增强光照分量;重构损失函数,引入MS-SSIM损失函数,在训练过程中更好地保留高频分量;引入循环残差卷积,在不增加参数下,提高网络深度,增强网络的拟合能力,有效提高图像的细节纹理及清晰度。实验表明,本文方法的PNSR和SSIM较典型的传统算法和深度学习算法有明显提升。在FLIR红外数据集上,较CLAHE算法和RetinexNet算法分别提升了41.52%、3.2%和27.79%、2.1%。在提升图像对比度的同时增强了图像的细节信息,更有利于人眼的观察,对低质量红外图像进行了有效增强。
基金项目
国家自然科学基金面上项目(61673007)。
NOTES
*第一作者。
#通讯作者。