基于语义感知的图像压缩算法研究
Research on Semantic-Aware Image Compression Algorithms
DOI: 10.12677/csa.2024.1412241, PDF, HTML, XML,    科研立项经费支持
作者: 宋媛萌, 贾正正*, 贾召弟, 王宇辰, 韩卓航:北华航天工业学院计算机学院,河北 廊坊;杨少华:北华航天工业学院航空宇航学院,河北 廊坊
关键词: 语义感知网络VAE图像压缩深度学习Semantic-Aware Networks VAE Image Compression Deep Learning
摘要: 图像压缩的目的是尽量保持图像质量的前提下减少图像数据的存储空间。传统的图像压缩方法主要依赖于对图像像素进行编码和量化,无法利用图像中高级语义信息。本文提出了一种基于语义感知的图像压缩算法,具体步骤为:首先,通过卷积神经网络对图像进行语义分析,然后,通过语义感知模块提取出图像的语义级别,即主要语义区域和次要语义区域。最后,将语义级别带入VAE图像压缩网络模型中,根据语义区域信息,对图像中的主要语义区域进行轻度压缩,而对次要区域进行更大幅度的压缩,以确保在减少文件体积的同时,最大程度地保留图像中的关键信息和视觉质量。在Kodak等公开数据集上进行实验,实验表明基于语义感知的图像压缩算法在提供更好的图像质量方面具有显著优势。
Abstract: The goal of image compression is to reduce the storage space of image data while preserving image quality as much as possible. Traditional image compression methods primarily rely on encoding and quantizing image pixels, and are unable to leverage advanced semantic information within the image. This paper proposes a semantic-aware image compression algorithm, with the following steps: First, a convolutional neural network is used to perform semantic analysis on the image. Then, a semantic-aware module extracts the semantic levels of the image, identifying primary and secondary semantic regions. Finally, these semantic levels are incorporated into a VAE image compression network model, where the primary semantic regions of the image are lightly compressed, and the secondary regions are more heavily compressed, ensuring that while reducing file size, the key information and visual quality within the image are retained to the greatest extent possible. Experiments conducted on public datasets such as Kodak demonstrate that the semantic-aware image compression algorithm has a significant advantage in providing superior image quality.
文章引用:宋媛萌, 贾正正, 贾召弟, 王宇辰, 杨少华, 韩卓航. 基于语义感知的图像压缩算法研究[J]. 计算机科学与应用, 2024, 14(12): 67-75. https://doi.org/10.12677/csa.2024.1412241

1. 引言

图像压缩在现代数据处理和通信领域中具有重要的应用。随着数字图像获取和存储设备的发展,图像数据的大小不断增加,给存储和传输带来了巨大的压力。因此,如何对图像进行高效压缩以减小文件大小、提高存储和传输效率成为了亟待解决的问题。

图像压缩技术一般可分为无损压缩和有损压缩。无损压缩通过去除图像中的统计冗余来压缩图像,该过程是可逆的,通常用于图像清晰度较高的场景,如医学图像,数据稀少的图像等;有损压缩算法根据人眼对某些视觉特征不敏感的原理,对图像信息进行冗余处理。国内外研究者们对图像压缩进行了大量的研究和探索,提出了许多创新性的压缩算法、技术和方法,如最早的经典图像压缩算法是JPEG [1]算法,在这之后便有了很多改进版本,包括JPEG 2000 [2]、JPEG XR [3]等。不仅如此,还有许多新型的压缩算法WebP [4]、BPG [5]等也逐渐得到了广泛的应用。近年来,深度学习技术得到飞速发展,基于深度学习的图像压缩算法也成为了研究的热点,研究者们运用先进的神经网络架构和训练策略,成功地开发出了一系列高效的图像压缩算法。Cheng等人[6]提出了一种基于离散化高斯混合似然的方法来参数化潜在码的分布,这使得熵模型更加精确和灵活,同时引入了最新的注意力机制,并将其嵌入到网络架构之中,以进一步提升系统的性能表现。Huang等人[7]提出了一种全新的端到端学习图像压缩编解码器,该编解码器通过联合训练分析变换和对象分类任务来实现,质量评估方面可以与基于深度神经网络(Deep Neural Network, DNN)的定制质量指标相媲美。尽管上述方法显著提升了图像压缩的性能表现,但上述的技术尚未针对引人注目的图像细节进行优化的比特分配,也未充分考虑到人眼对图像不同区域的差异化关注度。一般来说,人眼对图像的每个区域都有不同程度的关注。例如,在人像图片中,前景中人物的清晰度和纹理细节比背景更引人注目。然而,当前的图像压缩技术往往对图像的每一个像素执行统一的处理,导致在那些背景相对不那么重要的图像中,压缩位的分配并非最优。因此,开发能够根据前景和背景的明显区分对图像进行更有效的压缩位分配的技术显得尤为重要。

本文提出了一种基于语义感知的图像压缩算法,该网络模型通过对图像内容的深入分析精准地区分出图像中的主要信息和次要信息,进而分配不同的压缩以便更有效地进行压缩处理。

2. 相关工作

传统的压缩方法一般是取输入图像 x R n ,常规变换有损编码方法执行变换 z=f( x ) 。如此获得的变换表示z经过量化 q=Q( z ) 以实现离散值向量 q Z D 。为了存储或传输,q向量被二进制化并串行化为熵编码比特流b以减少其中的统计冗余。在解码过程中,执行相反的步骤,即去量化 z ^ = Q 1 ( q ) ,然后进行逆变换 x ^ =g( z ^ ) 以重建输出图像 x ^ R n 。图像编解码器的关键组件包括编码器和解码器,编码器将原始图像变换为更可压缩的表示,解码器从该新表示的可能量化版本重构图像。一些常用的图像编解码器包括JPEG、JPEG 2000、PNG [8]和FLIF [9]等。

语义分析在图像压缩中起着重要的作用。传统的图像压缩方法通常只关注像素级别的信息,忽略了图像中的语义信息,这导致在某些情况下压缩效果并不理想。而基于语义的图像压缩方法则能够更好地利用图像中的语义信息,从而实现更好的压缩效果。具体来说,语义分割技术可以将图像中的不同区域分割为具有相似语义特征的部分,如人物、背景、文字等。基于语义分割的图像压缩方法可以对不同的语义区域进行不同的压缩策略,从而实现更好的压缩效果。例如,对于背景区域,可以采用更宽松的压缩策略,而对于人物和文字等重要区域,则可以采用更严格的压缩策略,以进一步提高图像的质量和可用性。大多数现有的编解码器在编码或解码期间不显式地利用高级语义。Prakash等人[10]提出了用于内容加权比特率控制的方法,而不显式地利用高级语义。Agustsson等人[11]探索了在图像压缩中显式地利用语义,但是在有限的程度上。具体来说,该方法只在某种程度上受约束的设置中使用了比特率分配的语义,要求用户选择保留一些语义区域而忽略其他区域。

本文将语义感知网络添加到图像压缩框架中来作为一个基本的补充视觉,提高PAD的性能,而不仅仅是作为一些辅助边信息。其次,本文利用不同的语义区域来对用户表达不同区域的重要性。

3. 基于语义感知的图像压缩

3.1. 语义感知网络

语义感知网络采用了一种基于分类的网络结构,用于识别出人眼视觉注意力集中的区域,并为这些区域分配更多的压缩比特位,达到对图像进行差异化压缩的目的。图1是语义感知网络结构,由卷积层、simAM模块、全局平均池化层(GAP)、Softmax层以及RELU层组成。

Figure 1. Architecture of the semantic awareness network

1. 语义感知网络的架构

图1中卷积层共有5组卷积用于提取图像特征,经过simAM模块将特征图记为X,形状为 C×H×W ,其中C是通道数,H和W是特征图的高度和宽度,计算每个像素位置的注意力权重 A c,i,j ,公式如下:

A c,i,j = α c ( X c,i,j - μ c )+ β c (1)

其中, α c β c 是加权参数; μ c 是每个通道的均值。

将注意力权重应用到原始特征图上,得到增强后的特征图Y,公式如下:

Y c,i,j = X c,i,j A c,i,j (2)

simAM模块输出增强的特征图F,每个feature map都具有原始图像中某一类特征的能力。全连接层将特征图转换成一个一维特征向量,得到公式(3):

Z=WF+b (3)

其中,Z是全连接层的输出,每一个元素对应一个类别的原始预测分数;W是权重矩阵;F是卷积层的输出;b是偏置项。

对每个特征图 F k 应用全局平均池化(GAP),得到每个特征图对类别C的重要性权重。具体公式如下:

α k c =GAP( Grad )= 1 H×W i=1 H j=1 W y C F ij k (4)

其中, α k c 是每个特征图对类别C的重要性权重;HW分别是特征图的高度和宽度; F ij k 是特征图元素。

将GAP层得到的权重分配回特征图,以便突出那些对分类决策最有影响的部分,应用ReLU激活函数以增强正相关区域。为了可视化网络对原始图像的影响,对于某个特定的C类,本文使用权重 α k c 和特征图 F k 的线性加权和 H C 来表示图像中每个像素属于C类的概率。

H C =RELU( K α k c F k ) (5)

通过将 H C 上采样到原始图像的大小,并将其与原始图像叠加得到语义图,本文通过语义分析网络得到kodak数据集的语义显著图,如图2所示。突出显示的程度表示语义重要性的程度,其中,热力图中红色越深表示模型该区域对于最终预测结果的贡献越大,对此部分图像关注度越高;黄色部分图像的关注度次之;蓝色部分特征表示对目标检测识别的影响较小,模型认为此部分为冗余信息。

Figure 2. Semantic saliency map of Kodak dataset

2. Kodak数据集的语义显著图

3.2. 语义融入图像压缩

通过语义图计算自我信息加权SSIM (简称SI-SSIM指数[12]),这一过程有助于评估压缩图像在保留语义重要区域质量的同时对压缩比进行优化。给定输入图像大小为 H×W ,图像被分成N个块,每块大小为8 × 8,则 N= H×W 8×8 。设 M ¯ 为图像的平均压缩水平,块i的压缩水平为 M i 。为保证压缩比的一致性,应将所有图像块的压缩水平之和定义为:

i=1 N M i = M ¯ ×N (6)

将语义重要性映射转换为灰度图,像素 ( x,y ) 的语义重要性越高,其灰度 g( x,y ) 就越高,i属于人眼感兴趣的语义类别的概率就越大。设块i的语义重要值 V i 为属于块的每个像素 ( x,y ) 对应的灰度值 g( x,y ) 之和,然后将一个块的语义级别 L i 定义为公式(7):

L i = V i i=1 N V i = ( x,y )i g( x,y ) i=1 N ( x,y )i g( x,y ) (7)

将语义级别 L i 整合到图像压缩网络中,该图像压缩网络采用变分自编码器(VAE) [13]模型。在编码阶段,编码器根据语义级别 L i 对图像进行压缩,并生成均值μ和方差σ。然后,结合均匀噪声ϵ生成潜在变量Z。最终,这些信息被转换成比特流。解码器接收比特流并进行解码,以重建图像。图3展示了融入语义感知的图像压缩网络的结构。

Figure 3. Image compression network incorporating semantic awareness

3. 融入语义感知的图像压缩网络

SI-SSIM是基于语义重要性的结构相似性(SSIM)。它实际上是每个块i对应的SSIM的平均总和,由语义级别Li加权。SI-SSIM定义为(8):

SI-SSIM( x, x ^ )= i=1 N L i ×SSIM( x i , x ^ i ) (8)

其中,x x ^ 为原始图像和重建图像; x i x ^ i 分别是图像x x ^ 中的块i

图像压缩中编码器和解码器含有μσ参数,最终的损失函数将定义为(9):

argmin μ,σ D ( x, x ^ ;μ,σ ) (9)

为了执行判别压缩,D,(9)中x x ^ 之间的失真通过在(8)中已经定义的SI-SSIM来测量,将SI-SSIM作为损失函数的一部分,用于训练网络模型,这使其能够自适应地分配更多的位到图像中语义上最重要的区域。损失函数可以定义为:

D( x, x ^ ;μ,σ )= E x~ p x SISSIM( x, x ^ ) (10)

4. 实验结果与分析

4.1. 实验设置及参数设置

本实验研究使用NVIDIA GeForce RTX 3090 24 GB显存的GPU。实验环境采用Ubuntu 22.04操作系统,搭载PyTorch 1.10.0作为深度学习框架,并支持CUDA 12.1加速。本文使用了OpenCV等图像处理库,以及Python 3.9编程语言和NumPy、matplotlib等库进行算法实现和实验控制。

在常用的测试集上评估模型:① Kodak [14]。该数据集包含24张图像,分别具有512 × 768或768 × 512像素。② Tecnick TESTIMAGES [15]。本文使用RGB OR 1200 × 1200分割,它包含100张图像,1200 × 1200像素。

4.2. 评价指标

1) 本文采用MS-SSIM (Structural Similarity Index)即为结构相似性来评估压缩后的图像质量,它是一种衡量两幅图像相似度的指标。MS-SSIM值越接近1,表示图像的结构相似性越高,即图像在结构上与原始图像越相似。SSIM的计算公式如下:

SSIM( x,y )= ( 2 μ x μ y + c 1 )( 2 σ xy + c 2 ) ( μ x 2 μ y 2 + c 1 )( σ x 2 σ y 2 + c 2 ) (11)

其中 μ x x的平均值, μ y y的平均值, σ x 2 x的方差, σ y 2 y的方差, σ xy xy的协方差, c 1 c 2 是用于保持稳定性的两个变量。

MS-SSIM的计算公式如下:

MS-SSIM( x,y )= 1 N 1 N SSIM ( x i , y i ) 1 N (12)

其中,xy分别是原始图像和失真图像,N是尺度的数量, x i y i 分别是原始图像和失真图像在第i个尺度上的版本。

2) 本文采用峰值信噪比(PSNR)来测量已经被压缩的重构图像的质量。每个图片元素(像素)都有一个颜色值,当图像被压缩–解压缩时,颜色值可以改变。信号可以具有很宽的动态范围,所以PSNR通常以分贝(dB)表示。两个图像之间PSNR值越大,则越相似。图像压缩中典型的峰值信噪比值在30到40之间。普遍基准为30 dB,30 dB以下的图像劣化较为明显。

给定一个大小为m × n的干净图像I和噪声图像K,均方误差(MSE)定义为:

MSE= 1 mn i=0 m1 j=0 n1 [ I( i,j )K( i,j ) ] 2 (13)

PSNR公式如(14)所示:

PSNR=10*( MAX I 2 MSE ) (14)

其中, MAX I 为图片可能的最大像素值。如果每个像素都由8位二进制来表示,那么就为255。通常,如果像素值由B位二进制来表示,那么 MAX I = 2 B 1

4.3. 实验及结果分析

本文将在kodak数据集上通过对比传统图像压缩技术JPEG、JPEG2000以及BPG的峰值信噪比(PSNR)和结构相似性指数(MS-SSIM),全面评估本文模型的压缩性能,评估结果如图4所示。

Figure 4. Evaluation of PSNR (left) and MS-SSIM (right) on the Kodak test set

4. 在Kodak测试集上评估PSNR (左)和MS-SSIM (右)

实验结果表明,本文提出的模型(Ours)在图像压缩性能上表现出色。在图4左侧图像中,横坐标表示的是比特率(Bit-rate),单位是比特每像素(bpp),它反映了图像压缩的程度。比特率越高,意味着每个像素所分配的比特数越多,通常能够提供更高的图像质量。纵坐标表示的是峰值信噪比,PSNR值越高,表示压缩后的图像与原始图像之间的差异越小,图像质量越好。在不同的比特率(Bit-rate)下,本文模型的峰值信噪比(PSNR)始终高于JPEG、JPEG2000和BPG,这表明在保持较高图像质量方面,本文模型具有显著优势。在图4右侧图像中,结构相似性指数(MS-SSIM)的比较进一步证实了本文模型的优越性。在所有测试的比特率下,本文模型的MS-SSIM值都高于其他三种压缩技术,尤其是在低比特率时,本文模型的优势更加明显。这表明在图像压缩过程中,本文模型能够更好地保留图像的结构信息,从而提供更高质量的图像重建。

综合两张图表的数据,可以得出结论,本文提出的模型在图像压缩的质量和效率上均优于传统的JPEG、JPEG2000和BPG技术。无论是在PSNR还是MS-SSIM的评价标准下,本文模型都展现出了其在图像压缩领域的领先地位。

Figure 5. Comparison of decompressed image details with bpp = 0.189

5. 在bpp = 0.189情况下,解压图片细节对比图

图5展示了在比特率为0.189的情况下,本文提出的模型与JPEG2000和BPG两种压缩技术解压后输出的图像细节对比。通过这种细节放大的展示,可以更清晰地观察到不同压缩技术在图像质量上的差异。其中,图片下方数字表示PSNR和MS-SSIM的评价指标数据。从图5的细节放大图中可以明显看出,本文的语义感知网络模型在图像细节的保持和色彩的准确性上具有显著优势。尤其是在花朵和叶片的边缘部分,本文模型展现出了更精细的纹理捕捉能力,细节清晰可见,而相比之下,其他压缩技术则在这些区域出现了模糊和细节丢失的现象。这表明,基于语义感知的图像压缩技术能够有效地利用图像内容的语义信息,优化压缩过程,从而在低比特率下仍然能够保持较高的图像质量。这种优势不仅体现在量化指标上,更在视觉感知上为用户带来更优质的图像体验。

为了全面评估不同图像压缩技术的性能,本文提出的模型与三种现有的技术——DSSLIC [16]、EDMS [17]和DeepSIC [18]在Tecnick TESTIMAGES数据集上进行了详细的对比测试,对比结果如表1所示。

Table 1. Comparison of metrics on the Tecnick TESTIMAGES dataset

1. 在Tecnick TESTIMAGES数据集上的指标对比

评价指标

bpp

Ours

DSSLIC

EDMS

DeepSIC

PSNR (dB)

0.846

39.10

38.54

37.56

38.67

MS-SSIM

0.846

0.996

0.994

0.987

0.992

在Tecnick TESTIMAGES数据集上的对比测试中,本文提出的图像压缩技术在多个评价指标上均展现出了其优越性。表格数据显示,在相同的比特率(bpp)条件下,本文模型不仅在峰值信噪比(PSNR)上以39.10 dB的高分领先于其他三种技术,而且在结构相似性指数(MS-SSIM)上也达到了0.996的高分,这两项指标均表明本文模型在图像压缩过程中能够更好地保留图像的细节和结构信息。相比之下,DSSLIC、EDMS和DeepSIC的PSNR和MS-SSIM值均低于本文模型,这进一步证明了本文模型在图像压缩领域的技术优势。这些结果表明,本文的图像压缩技术在保持图像质量的同时,能够有效地降低比特率,实现更高效的图像压缩。

5. 结论

为了实现图像压缩中的语义信息优化,本文提出了一种基于语义感知网络的图像压缩算法。通过与其他图像压缩方法的对比,本文的语义感知网络在提升图像重建质量方面显示出了显著的效果。实验结果表明,在相同的压缩条件下,本文的方法能够显著提高图像中语义重要区域的视觉质量。未来,我们期望将这一框架扩展到更广泛的智能任务中,以进一步挖掘语义信息在图像处理中的潜力。

基金项目

北华航天工业学院2023年硕士研究生科研创新项目(项目号:YKY-2023-40);北华航天工业学院2023年硕士研究生科研创新项目(项目号:YKY-2023-39);北华航天工业学院2024年硕士研究生科研创新项目(项目号:YKY-2024-70);北华航天工业学院2024年硕士研究生科研创新项目(项目号:YKY-2024-40)。

NOTES

*通讯作者。

参考文献

[1] Wallace, G.K. (1991) The JPEG Still Picture Compression Standard. Communications of the ACM, 34, 30-44.
https://doi.org/10.1145/103085.103089
[2] Rabbani, M. and Joshi, R. (2002) An Overview of the JPEG 2000 Still Image Compression Standard. Signal Processing: Image Communication, 17, 3-48.
https://doi.org/10.1016/s0923-5965(01)00024-8
[3] Perra, C., Pes, P.A. and Giusto, D.D. (2011) High-Frequency Error Recovery in JPEG XR Coded Images. 2011 18th IEEE International Conference on Image Processing, Brussels, 11-14 September 2011, 2217-2220.
https://doi.org/10.1109/icip.2011.6116076
[4] Ginesu, G., Pintus, M. and Giusto, D.D. (2012) Objective Assessment of the WebP Image Coding Algorithm. Signal Processing: Image Communication, 27, 867-874.
https://doi.org/10.1016/j.image.2012.01.011
[5] Yee, D., Soltaninejad, S., Hazarika, D., Mbuyi, G., Barnwal, R. and Basu, A. (2017) Medical Image Compression Based on Region of Interest Using Better Portable Graphics (BPG). 2017 IEEE International Conference on Systems, Man, and Cybernetics (SMC), Banff, 5-8 October 2017, 216-221.
https://doi.org/10.1109/smc.2017.8122605
[6] Cheng, Z., Sun, H., Takeuchi, M. and Katto, J. (2020) Learned Image Compression with Discretized Gaussian Mixture Likelihoods and Attention Modules. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 7936-7945.
https://doi.org/10.1109/cvpr42600.2020.00796
[7] Huang, C.-H. and Wu, J.-L. (2024) Exploring Compressed Image Representation as a Perceptual Proxy: A Study. arXiv:2401.07200.
https://doi.org/10.48550/arXiv.2401.07200
[8] Arnavut, Z. (1999) Lossless Compression of Color-Mapped Images. International Conference on High Capacity Optical Networks & Enabling Technologies, 38, 1001-1005.
https://doi.org/10.1117/1.602141
[9] Sneyers, J. and Wuille, P. (2016) FLIF: Free Lossless Image Format Based on MANIAC Compression. 2016 IEEE International Conference on Image Processing (ICIP), Phoenix, 25-28 September 2016, 66-70.
https://doi.org/10.1109/icip.2016.7532320
[10] Prakash, A., Moran, N., Garber, S., Dilillo, A. and Storer, J. (2017) Semantic Perceptual Image Compression Using Deep Convolution Networks. 2017 Data Compression Conference (DCC), Snowbird, 4-7 April 2017, 250-259.
https://doi.org/10.1109/dcc.2017.56
[11] Agustsson, E., Tschannen, M., Mentzer, F., Timofte, R. and Van Gool, L. (2019) Generative Adversarial Networks for Extreme Learned Image Compression. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 27 October-2 November 2019, 221-231.
https://doi.org/10.1109/iccv.2019.00031
[12] Peng, P. and Li, Z. (2011) Self-Information Weighting for Image Quality Assessment. 2011 4th International Congress on Image and Signal Processing, Shanghai, 15-17 October 2011, 1728-1732.
https://doi.org/10.1109/cisp.2011.6100607
[13] Kingma, D.P. and Welling, M. (2014) Auto-Encoding Variational Bayes.
https://doi.org/10.48550/arXiv.1312.6114
[14] Rabbani, M. (2002) JPEG2000: Image Compression Fundamentals, Standards and Practice. Journal of Electronic Imaging, 11, 286.
https://doi.org/10.1117/1.1469618
[15] Nicol, A., Andrea, G. (2014) TESTIMAGES: A Large-Scale Archive for Testing Visual Devices and Basic Image Processing Algorithms. The Eurographics Association.
https://doi.org/10.2312/stag.20141242
[16] Akbari, M., Liang, J. and Han, J. (2019) DSSLIC: Deep Semantic Segmentation-Based Layered Image Compression. ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, 12-17 May 2019, 2042-2046.
https://doi.org/10.1109/icassp.2019.8683541
[17] Hoang, T.M., Zhou, J. and Fan, Y. (2020) Image Compression with Encoder-Decoder Matched Semantic Segmentation. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Seattle, 14-19 June 2020, 619-623.
https://doi.org/10.1109/cvprw50498.2020.00088
[18] Luo, S., Yang, Y., Yin, Y., Shen, C., Zhao, Y. and Song, M. (2018) DeepSIC: Deep Semantic Image Compression. Neural Information Processing, Siem Reap, 13-16 December 2018, 96-106.
https://doi.org/10.1007/978-3-030-04167-0_9