基于二通道不可分小波与深度学习的红外与可见光图像融合方法
Infrared and Visible Image Fusion Method Based on Two Channel Non-Separable Wavelet and Deep Learning
DOI: 10.12677/JISP.2021.104018, PDF, 下载: 401  浏览: 905  国家自然科学基金支持
作者: 刘 斌, 郝昱权, 王 震, 周圆昊:湖北大学,计算机与信息工程学院,湖北 武汉
关键词: 红外图像可见光图像图像融合不可分小波深度学习Infrared Image Visible Image Image Fusion Non-Separable Wavelet Deep Learning
摘要: 红外与可见光图像融合在武器检测、目标识别领域中扮演着重要角色,而融合的关键是通过适当方法从源图像中提取显著特征并将其组合生成融合图像,因此提出了基于不可分小波与深度学习的红外与可见光图像融合方法。首先,构造不可分小波滤波器组,通过二通道不可分小波滤波器将源图像分解为高频子图和低频子图;然后,利用深度学习网络提取高频子图的深度特征,采用多层融合的策略得到权值映射,利用权重图和高频细节得到融合后的高频子图;最后,对融合后的低频子图和高频子图进行重构,得到最终的融合图像。实验结果表明,与其他相关方法相比,本文方法在主观视觉和客观指标评价上都取得了更好的结果。
Abstract: Infrared and visible image fusion is playing an important role in the field of weapon detection and target recognition, and the key of fusion is to extract significant features from the source images and generate fused image by appropriate methods, so the fusion method of infrared and visible image based on non-separable wavelet and deep learning is proposed. First, the non-separable wavelet filter banks are constructed; the source images are decomposed into high frequency sub-image and low frequency sub-image by two channel non-separable wavelet filter. Then, the deep learning network is used to extract the depth features of the high frequency sub-image, and the multi-layer fusion strategy is adopted to obtain the weight mapping, and the fused high frequency sub-image is obtained by using weight graph and high frequency detail. Finally, the low frequency sub-image and high frequency sub-image are reconstructed to obtain the final fused image. The experimental results show that compared with other related methods, the proposed method in this paper achieves better results in both subjective and objective evaluation.
文章引用:刘斌, 郝昱权, 王震, 周圆昊. 基于二通道不可分小波与深度学习的红外与可见光图像融合方法[J]. 图像与信号处理, 2021, 10(4): 166-175. https://doi.org/10.12677/JISP.2021.104018

1. 引言

红外和可见光图像融合是将红外相机和可见光相机获取的图像进行结合,从而生成信息丰富的融合图像,以供进一步处理与识别。红外图像可基于辐射差异将目标与背景区分开来,同时可见光图像可提供符合人类视觉感知的具有高空间分辨率和清晰度的纹理细节 [1]。红外和可见光图像融合旨在将红外图像中的热辐射信息与可见光图像中的细节纹理信息进行结合,因此合理的图像信息提取方法是提升红外和可见光图像融合性能的关键。

近来年,基于多尺度的融合方法在红外与可见光图像融合领域应用越来越来广泛,常用的多尺度变换方法包括金字塔分解的融合方法 [1]、非下采样轮廓波 [2]、小波变换 [3] 等变换。近几年,刘等人 [4] 将不可分小波用于图像融合中。不可分小波在对图像分解时,不仅强调水平和垂直两个方向,而且强调各个方向,即各向同性;可同时具有紧支撑、正交性,能使融合结果图像不发生偏移;在对图像进行分解和重构时,能获得具有较高空间分辨率的图像,克服了张量积离散小波变换不能获得高的空间分辨率图像的缺点。

随着深度学习的兴起,将源图像提取的深度特征作为一种显著特征常用于图像融合中。Yu Liu等人提出了一种基于卷积稀疏表示(CSR)的融合方法 [5],该方法利用CSR提取多层特征,然后利用这些细节特征得到融合图像。Yu Liu等人 [6] 也提出了一种基于卷积神经网络(CNN)的融合方法,该方法利用CNN网络提取图像的多层特征,将图像融合中活动水平测量和权重分配两个关键问题作为一个整体来实现,解决了传统融合方法中复杂融合框架设计的困难。Gatys等人 [7] 提出了一种基于CNN的图像风格转移方法,使用VGG-Net [8] 分别从内容图像、风格图像和生成图像中提取不同层次的深度特征,通过迭代减小生成图像与源图像深度特征的差异。黄迅等人 [9] 利用VGG-Net和自适应实例归一化构造了一种新的样式传递网络框架。这些方法有一个共同点,它们都利用深度学习提取图像不同层次的深度特征,并将这些特征用于图像融合中。

鉴于不可分小波和深度学习的特点,本文提出了一种新的基于二通道不可分小波与深度学习的红外与可见光图像融合方法。首先,利用二通道不可分小波将源图像分解为低频图像和高频图像,使用基于L1范数取大的融合规则对低频图像进行融合;其次,将不可分小波分解得到的高频图像,用在ImageNet上训练固定的VGG-19深度学习网络提取高频图像多层特征,尽可能保留更多高频图像特征信息,对于每一层的特征,我们使用soft-max算子得到权重图,并得到候选的融合高频子图;然后,将相同的操作应用于前三层,我们将得到三个候选的融合高频子图,采用最大值选择策略得到最终的高频图像;最后,做不可分小波逆变换,融合低频图像和高频图像得到最终的融合图像。实验结果表明,与其他方法相比,本文方法在主观视觉和客观指标评价上都取得了更好的结果。

2. 具有紧支撑、正交性的二维二通道不可分小波与滤波器组

2.1. 不可分小波变换

x = ( x 1 , x 2 ) T R 2 , ψ ( x ) L 2 ( R 2 ) 为二维母小波函数,M为 2 × 2 抽样矩阵。设 b = ( b 1 , b 2 ) T R 2 为平移向量,令: ψ M , b ( x ) = 1 / | det ( M ) | ψ [ M 1 ( x b ) ] 。若 f ( x 1 , x 2 ) L 2 ( R 2 ) ,则其二维小波变化定义为:

W T f ( M , b ) = ( f ( x ) , ψ M , b ( x ) ) = R 2 f ( x ) ψ M , b ( x ) d x 。在离散小波变换时,M表示小波变换后的抽样方式,

因此M也称为抽样矩阵。

M = ( 1 1 1 1 )

det ( M ) = 2 。根据二维小波变换理论及多尺度分析的理论 [4],此时对图像进行一个低通通道和一个高通通道的小波分解。若设分解的一个低通滤波器和一个高通滤波器分别为: H 0 = { h 0 ( k ) k z 2 } H 1 = { h 1 ( k ) k z 2 } ,则有图1的图像二通道不抽样小波分解和图2的图像二通道不抽样小波重构过程,其中 A j + 1 A j A j 1 分别为尺度指标为 j + 1 、j、 j 1 时的图像的近似分量,即图像的低频成分, D j D j 1 分别为尺度指标为j、 j 1 时的图像的高频成分,M为抽样矩阵, H 0 H 1 分别为二通道小波分解的低通和高通滤波器, H 0 * H 1 * 分别为 H 0 H 1 相对应的二通道小波重构低通滤波器和高通滤波器。图1图2中只给出了两层分解,实际上还可以进行多层小波分解与重构。

Figure 1. Image two-channel wavelet decomposition

图1. 图像的二通道小波分解

Figure 2. Image reconstruction based on two-channel wavelet

图2. 图像的二通道小波重构

从以上二通道小波多尺度分解的理论可以看出,小波分解的实质是近似分量图像分别在低通滤波器和高通滤波器的作用下,分解出低频成分和高频成分;小波重构的实质是下一层的低频成分和高频成分分别在重构低通滤波器和重构高通滤波器的作用下,把所得的滤波结果相加得到上一层的近似分量。其对小波分解和重构的过程不涉及到尺度函数和小波的具体形式,因此在诸如图像融合等实际应用的问题中,我们主要关心的是如何构造尺度低通滤波器和小波高通滤波器。

2.2. 紧支撑性、正交性滤波器组的构造

因为Daubechie [10] 证实了小波分解的实现是信号或图像和离散滤波器进行卷积完成的,所以利用小波对图像进行处理的核心问题就是小波低通滤波器和高通滤波器的构造。Chen等是将MRA作为基础,采取矩阵扩充的方法,提出了一种高维不可分小波滤波器组的一般构造方法 [11],其在理论上来说可以构造出无数组滤波器。刘等人在此基础上给出了二维不可分小波滤波器的具体构造形式。

二维不可分小波变换可以由二维不可分滤波器组实现。假设不可分小波变换过程中的抽样矩阵

M = ( 1 1 1 1 ) 不可分小波滤波器组为 m j ( x , y ) , j = 0 , 1 则具有紧支撑、正交性的二维二通道不可分滤波器的

形式可构造如下:

( m 0 ( x , y ) , m 1 ( x , y ) ) = 1 2 ( 1 , x y ) j = 1 k ( U j D ( x , y ) U j T ) V (1)

式中: m 0 ( x , y ) , m 1 ( x , y ) 分别为滤波器 H 0 H 1 所对应的频域形式。设 x = e i w 1 y = e i w 2 U j ( j = 1 , 2 , , K )

为正交阵, D ( x , y ) = ( 1 0 0 x y ) V / 2 = ( V 0 , V 1 ) / 2 为正交阵, V 1 2 × 1 向量, V 0 = ( 1 , 1 ) T

为构造二通道的小波滤波器组取,K=1,构造

U j = ( cos ( α j ) sin ( α j ) sin ( α j ) cos ( α j ) ) ( j = 1 ) , V = ( 1 1 1 1 ) (2)

显然 U j 为正交矩阵, V / 2 为正交阵。则可构造无穷多个滤波器组, α j 取不同的值得到不同的具有紧支撑、正交性的小波滤波器组 H 0 H 1 。当 α 1 = 3 / π 时的一组滤波器的时域形式如下:

H 0 = ( 0.0915063509461097 0 0 0 0.750000000000000 0 0 0 0.341506350946110 )

H 1 = ( 0.341506350946110 0 0 0 0.433012701892219 0 0 0 0.0915063509461097 )

此滤波器组是不可分的,不能分解为两个一维小波滤波器的张量积,具有紧支撑的性质,是一组能能够完全重构的滤波器。

3. 基于二通道不可分小波与卷积神经网络的融合方法

图3所示用二通道不可分小波分解红外与可见光源图像,将红外与可见光源图像分别分解为低频系数 L 1 ( x , y ) L 2 ( x , y ) 和高频系数 H 1 ( x , y ) H 2 ( x , y ) 。低频系数采用基于L1范数取大的融合规则得到融合低频系数 F 1 。高频系数送入预训练好VGG-19网络进行深度特征提取,分离出多个relu层得到不同尺度的特征图,特征图通过求L1范数操作后得到更为稀疏的特征图 T k i ,通过soft-max算子计算和上采样法得到与输入高频图像一样大小不同尺度的权重图 W k i ,用获得的权重图对源图像高频系数进行融合得到最终的高频系数。为了获得更加丰富的高频特征,本文将三个relu层的融合结果进行最大值策略得到最终的融合高频系数 F 2 。最后融合低频系数和融合高频系数做不可分小波逆变换得到最终的融合图像F。

Figure 3. Flow chart of fusion algorithm

图3. 融合算法流程图

4. 详细的融合规则

4.1. 低频系数融合规则

能量能较好地表征亮度,图像作小波分解后的主要能量集中在低频部分,另外,红外图像中的目标是以区域的形式存在的,单个像素不能形成目标,因此,对源图像分解得到的低频图像采用基于L1范数取大的融合规则,这样既能很好地吸收可见光图像的亮度信息,又能体现红外图像的目标特性。L1范数计算公式如下:

E C L 1 ( x , y ) = x α y β | I ( x + x , y + y ) | (3)

式(3)中, i { 1 , 2 } α × β ( x , y ) 的邻域系数。利用区域能量的大小来判断系数的活动水平,能量越大表示保留的信息越多,融合系数计算公式如下:

F 1 ( x , y ) = { L 1 ( x , y ) , E C L 1 ( x , y ) E C L 2 ( x , y ) L 2 ( x , y ) , E C L 1 ( x , y ) < E C L 2 ( x , y ) (4)

4.2. 高频系数融合规则

1) 利用VGG网络提取红外与可见光图像的深度特征,如图4所示 ψ k i , m 表示第i层提取的第k个高频细节内容的特征图,m为第i层的通道号, m = { 1 , 2 , 3 , , M } M = 64 × 2 i 1

ψ k i , m = φ i ( H k ) (5)

其中每个 φ i ( ) 表示VGG-network中的一个层, i { 1 , 2 , 3 } k { 1 , 2 }

Figure 4. High frequency detail multilayer fusion strategy diagram

图4. 高频细节多层融合策略图

2) 由VGG-Net网络结构可知,VGG-19网络有5个block构成,本文使用前三个relu层的结果 ψ k i ( x , y ) i { 1 , 2 , 3 } ,通过对每层的L1范数计算得到初级活动图 T k i ( x , y ) ,其中i表示为第i个relu层,k为待融合图像个数k = 2, ( x , y ) 为对应像素点。

T k i ( x , y ) = ψ k i , 1 : M ( x , y ) (6)

3) 对初级活动图 T k i ( x , y ) 进行区域均值操作求得最终的活动图,使结果更加具有鲁棒性。

T k i ( x , y ) = β = r r θ = r r T k i ( x + β , y + θ ) ( 2 r + 1 ) 2 (7)

式中r决定区域的大小,本文中r = 1。

4) 对刚得到的最终活动图进行soft-max操作得到初始权值图 W k i

W k i ( x , y ) = T k i ( x , y ) n = 1 N T n i ( x , y ) (8)

式中N为活动图的个数, N = 2 , k { 1 , 2 } W k i ( x , y ) 为[0,1]范围内的初始权值映射值。

5) 由于每一个relu层的大小不一样,将得到的初始权重图上采样调整为输入高频图像大小的最终权重图 W k i ,n为上采样的倍数。

W k i ( x , y ) = u p s a m p l e ( W k i , n ) (9)

6) 对于每一对 W k i ,初始融合高频系数由式(10)得到, k { 1 , 2 } i { 1 , 2 , 3 }

F 2 i ( x , y ) = n = 1 Z W ( x , y ) × H k ( x , y ) , Z = 2 (10)

7) 用最大值选择策略从三个初始融合高频系数中获得最终的融合高频系数 F 2 ( x , y )

F 2 ( x , y ) = max [ F 2 i ( x , y ) | i { 1 , 2 , 3 } ] (11)

用融合的低频系数 F 1 和融合的高频图像 F 2 做不可分小波逆变换得到最终的融合图像F。

5. 仿真实验与测试

为了验证本文算法的有效性,在TNO开源数据库下进行仿真实验。实验平台是Intel (R)处理器、CPU主频2.10 GHz、内存16 GB的计算机,使用Matlab2020a仿真软件进行算法实现。本文将于近几年4种经典的融合方法进行实验比较,包括:交叉双边滤波融合方法(CBF) [12]、基于稀疏域显著性检测融合方法(SD) [13]、基于加权最小二乘优化方法(WLS) [14] 和基于联合稀疏表示的图像融合方法(JSR) [15]。本文做了大量融合实验选取其中3组红外和可见光图像,如图5所示。这些都是在红外与可见光图像融合领域常用的图像,可在网站https://figshare.com/articles/dataset/TNO_Image_Fusion_Dataset/1008029上下载到。

(a) 第一组源图像 (b) 第二组源图像 (c) 第三组源图像

Figure 5. Three groups of infrared and visible light source images

图5. 3组红外与可见光源图像

5.1. 实验结果及分析

5.1.1. 主观评价

实验结果如图6~8所示,CBF, SD, JSR, WLS和本文方法的实验结果依次为每组实验结果中的(a)到(e)。

(a) CBF (b) SD (c) JSR (d) WLS (e) 本文方法

Figure 6. The first group of experimental results

图6. 第一组实验结果

第一组实验结果如图6所示。图6(a)、图6(d)红色区域内可见光信息丢失严重,融合效果较差。图6(b)、图6(c)整体偏亮,目标边缘模糊,对比度差。而本文方法所得融合图像整体更加自然,云层与建筑物的亮度和对比度适中,且红色区域内可见光信息丰富。

(a) CBF (b) SD (c) JSR (d) WLS (e) 本文方法

Figure 7. The second group of experimental results

图7. 第二组实验结果

(a) CBF (b) SD (c) JSR (d) WLS (e) 本文方法

Figure 8. The third group of experimental results

图8. 第三组实验结果

第二组实验结果如图7所示。图7(a)人物信息丢失严重,场景信息模糊。图7(b)、图7(c)图像整体亮度偏亮,对比度较差。图7(d)人物信息明亮,但与本文相比左下角红色框内路面细节信息模糊。图7(a)左上红框内树枝信息模糊,对比度较差。图7(e)与图7(b)、图7(c)、图7(d)相比左上红框内树枝显示更加清晰。图7(e)与图7(d)相比,左下角红框内路面更加清晰。本文方法能较好的反映源图像中所包含的所有信息,视觉效果更好。

第三组实验结果如图8所示。图8(a)、图8(b)、图8(c)图像信息比较模糊,视觉效果很差。图8(d)与图8(e)相比红色框内人物信息偏暗。本文方法目标提取完整,纹理清晰,图像亮度适中,对比度高,整体融合效果较好,更适合人类视觉感知。

5.1.2. 客观评价

鉴于红外与可见光图像融合没有统一的评价指标,因此采用了多指标评价方法,以使评价结果更加客观。为定量比较所提出的方法和现有的融合方法,本文选择信息熵EN、小波特征互信息FIM [16]、噪声评估指标Nabf [17]、结构相似性指数SSIM [18] 和边缘信息保留度QAB/F 5个常用指标来对性能进行评估。其中,信息熵是度量图像包含信息量多少的一个客观评价指标。信息熵的值越大,表示融合图像的质量越好。小波特征互信息是指融合图像中包含的信息量,值越大表明融合图像中的信息越丰富;噪声评估的融合性能值小,说明融合图像含有较少的人工信息和噪声。结构相似性指数越大,说明融合图像保存原图结构信息越多。边缘信息保留度数值越高,表示融合图像的质量越好。表1给出了3组红外与可见光源图像融合结果的客观评价结果。表中数据是每种方法在3组源图像上的平均得分。

Table 1. Objective evaluation of experimental results by different fusion methods

表1. 不同融合方法的客观评价实验结果

6. 结束语

本文提出了基于二通道不可分小波与深度学习的红外与可见光图像融合方法,将不可分小波与深度学习相结合运用到红外与可见光图像融合中。本文方法能较好的提取图像的高频特征,使得到的融合图像具有更清晰的细节信息,因此能够获得较好的融合效果。综合实验结果表明,该方法具有较好的融合性能。

基金项目

国家自然科学基金面上项目(NO. 61471160)。

参考文献

[1] Liu, G.X., Zhao, S.G. and Chen, W.J. (2004) Multi-Resolution Scheme Appropriate of Using Infrared and Visible Light Images. Journal of Optoelectronics Laser, 15, 980-984.
[2] Zhang, Q. and Guo, B. (2009) Multifocus Image Fusion Using the Nonsubsampled Contourlet Transform. Signal Processing, 89, 1334-1346.
https://doi.org/10.1016/j.sigpro.2009.01.012
[3] Li, H., Manjunath, B.S. and Mitra, S.K. (1995) Multi-Sensor Image Fusion Using the Wavelet Transform. Graphical Models and Image Processing, 57, 235-245.
https://doi.org/10.1006/gmip.1995.1022
[4] 刘斌, 彭嘉雄. 基于二通道不可分小波的多光谱图像融合[J]. 中国科学, 2008, 36(12): 2273-2284.
[5] Liu, Y., Chen, X., Ward, R.K., et al. (2016) Image Fusion with Convolutional Sparse Representation. IEEE Signal Processing Letters, 23, 1882-1886.
[6] Liu, Y., Chen, X., Peng, H., et al. (2017) Multi-Focus Image Fusion with a Deep Convolutional Neural Network. Information Fusion, 36, 191-207.
[7] Gatys, L.A., Ecker, A.S. and Bethge, M. (2016) Image Style Transfer Using Convolutional Neural Networks. IEEE Computer Vision and Pattern Recognition (CVPR), Las Vegas, 27-30 June 2016, 2414-2423.
https://doi.org/10.1109/CVPR.2016.265
[8] Simonyan, K. and Zisserman, A. (2014) Very Deep Convolutional Networks for Large-Scale Image Recognition.
[9] Huang, X. and Belongie, S. (2017) Arbitrary Style Transfer in Real-Time with Adaptive Instance Normalization. 2017 The IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017, 1501-1510.
https://doi.org/10.1109/ICCV.2017.167
[10] Libalu, H. (2017) Risk Upper Bound for a NM-Type Multi-Resolution Classification Scheme of Random Signals by Daubechies Wavelets. Engineering Applications of Artificial Intelligence, 62, 109-123.
[11] Liu, B. and Liu, W.J. (2018) The Lifting Factorization of 2D 4-Channel Nonseparable Wavelet Transforms. Information Sciences, 456, 113-130.
[12] Kumar, B.K.S. (2015) Image Fusion Based on Pixel Significance Using Cross Bilateral Filter. Signal, Image and Video Processing, 9, 1193-1204.
https://doi.org/10.1007/s11760-013-0556-9
[13] Liu, C.H., Qi, Y. and Ding, W.R. (2017) Infrared and Visible Image Fusion Method Based on Saliency Detection in Sparse Domain. Infrared Physics & Technology, 83, 94-102.
https://doi.org/10.1016/j.infrared.2017.04.018
[14] Ma, J., Zhou, Z., Wang, B., et al. (2017) Infrared and Visible Image Fusion Based on Visual Saliency Map and Weighted Least Square Optimization. Infrared Physics & Technology, 82, 8-17.
https://doi.org/10.1016/j.infrared.2017.02.005
[15] Zhang, Q., Fu, Y., Li, H., et al. (2013) Dictionary Learning Method for Joint Sparse Representation-Based Image Fusion. Optical Engineering, 52, Article ID: 057006.
https://doi.org/10.1117/1.OE.52.5.057006
[16] Haghighat, M. and Razian, M.A. (2014) Fast-FMI: Non-Reference Image Fusion Metric. 2014 IEEE 8th International Conference on Application of Information and Communication Technologies (AICT), Astana, 15-17 October 2014, 1-3.
https://doi.org/10.1109/ICAICT.2014.7036000
[17] Kumar, B.K.S. (2013) Multifocus and Multispectral Image Fusion Based on Pixel Significance Using Discrete Cosine Harmonic Wavelet Transform. Signal, Image and Video Processing, 7, 1125-1143.
https://doi.org/10.1007/s11760-012-0361-x
[18] Li, H., Wu, X.J. and Kittler, J. (2018) Infrared and Visible Image Fusion Using a Deep Learning Framework. 2018 24nd International Conference on Pattern Recognition (ICPR), Beijing, 20-24 August 2018, 2705-2710.
https://doi.org/10.1109/ICPR.2018.8546006