1. 引言
逆问题在图像处理中居于核心地位,旨在从退化的观测中重建高质量图像。形式上,给定一张低质量(LQ)的观测图像y和一个退化算子
,逆问题可以通过以下模型定义
传统方法由于其模型表达能力有限,严重依赖手工设计的先验知识或特定退化函数估计。这些方法往往无法在不同任务和数据类型之间泛化。相比之下,深度学习的出现彻底改变了这一领域,它引入了数据驱动的方法,能够从大型数据集中学习复杂的模式。
值得注意的是,各种图像恢复任务,如超分辨率[1] [2]、着色[3]、修复[4]、去模糊[5]和去噪,都可以被视为解决逆问题的具体实例。这些任务都涉及从退化的版本中恢复原始图像,从而突出了逆问题解决方案在图像处理中的重要性。
传统的基于严格数学框架的方法主要采用变分公式[6]、小波多尺度分析[7]、逆滤波算法、优化范式以及范围零空间分解[8] [9]来解决不适定的重建任务[10]。尽管这些方法取得了显著的成果,但它们往往由于依赖手工设计的先验知识和对退化过程的假设而受到限制。
相比之下,深度学习方法利用数据驱动的方法直接从大型数据集中学习复杂的模式,克服了传统方法的局限性。例如,深度学习模型可以通过非凸正则化(例如Lp-范数约束)和自适应参数选择策略,在压缩感知重建中实现卓越的边缘保持和噪声抑制。例如,混合TV-L1正则化模型在图像去模糊应用中展示了1.2~2.5 dB的峰值信噪比(PSNR)提升[11]。
最近,扩散模型[12] [13]因其在图像处理中,特别是在解决逆问题方面的卓越表现而受到广泛关注。这些模型在建模复杂数据分布方面表现出色,使得最先进的方法能够以无监督的方式解决逆问题[10] [14]-[18]。
在本工作中,我们提出了一种新颖的投影方法,称为范围零空间融合方法,它增强了在DDNM [10]中介绍的方法。将预测图像
与时间变化参数
结合起来,动态调整一致性约束的强度。在全局布局生成的早期阶段,强约束将粗略恢复的图像投影到退化子空间上,确保输入对齐。在精细纹理合成的最后阶段,模型利用扩散的生成能力来产生高保真细节。
为了验证范围零空间融合方法的有效性,我们在CelebA和ImageNet上进行了广泛的实验,涵盖了各种逆向任务,如超分辨率、着色和去模糊。结果表明,范围零空间融合方法在无噪声任务中与先进方法的效果相匹配。值得注意的是,我们的方法有效地消除了退化模式中的领域变化,使得能够灵活地处理复杂的现实世界退化,如历史照片修复。
2. 预备知识
2.1. 去噪扩散隐式模型
去噪扩散隐式模型(DDIM) [19]是一种以隐式方式模拟数据扩散过程的生成模型。由Song和Ermon于2020年提出,DDIM旨在提高扩散模型的采样效率。与传统的扩散模型相比,DDIM通过减少采样步骤的数量来加速生成过程,同时保持生成数据的质量。
DDIM模型包括正向过程和反向过程。在正向过程中,通过逐步添加噪声,数据
逐渐转换为高斯噪声
。这个过程可以表示为:
这里,
表示预定的方差调度,而
表示从标准正态分布中采样的随机噪声。在相反的过程中,模型从噪声
开始,逐步去除噪声以恢复原始数据
。反向过程的每一步都可以表示为:
在这个方程中,
是神经网络预测的噪声,通过最小化以下目标函数来训练:
2.2. 用零样本方法求解逆问题
一般逆问题旨在从已知退化算子
的退化测量
恢复高质量图像
:最近的方法已经探索利用来自预先训练的模型的生成先验来进行零样本图像恢复。GAN反演为输入图像识别GAN空间中最接近的潜在向量,使技术能够实现出色的恢复保真度[20] [21]。与GAN相比,扩散模型提供了一种结构化的前向过程,将图像映射到高斯噪声,促进了直接的潜在空间操作。例如,DDRM [22]采用奇异值分解(SVD)来处理退化算子并在光谱空间中执行扩散,而DDNM[18]使用范围零空间分解来迭代地细化零空间分量,同时保持范围空间中的一致性。
扩散模型的最新进展进一步提高了恢复精度[23]。例如,IR-SDE(图像恢复随机微分方程)引入了一种均值恢复SDE框架,该框架直接将退化建模为从高质量(HQ)到低质量(LQ)图像的正向过程[16] [17] [24]。这种方法避免了特定任务的先验,实现了可处理得分函数的闭式解,通过最大似然目标实现了高效训练。通过将广义的Ornstein-Uhlenbeck桥集成到IR-SDE中来扩展这一点,提高稳定性和感知质量。
引导扩散方法也仍然很突出。MCG [16]在每个去噪步骤中集成了基于梯度的测量一致性,平衡了感知质量和保真度。同样,语言引导的恢复利用文本描述来指导生成过程,通过将内容从损坏中分离出来来解决分布外(OOD)降级问题。最近的工作将稳定扩散先验与特征控制模块相结合,以在复杂的现实世界退化下改进恢复。
虽然这些方法在感知质量方面表现出色,但挑战依然存在。由于迭代细化,计算成本仍然很高(例如,IR-SDE需要数值求解逆时SDE),OOD的鲁棒性受到合成训练数据的限制,这些数据无法覆盖现实世界的损坏。新兴的解决方案,如混合语言视觉模型和自适应SDE设计,旨在弥合这些差距,为未来的研究提供有前景的方向。
3. 方法
3.1. 范围零空间融合(RNSF)
在扩散模型中,早期阶段专注于全局布局和颜色,中期阶段专注于中间结构和外观,最后阶段专注于细微纹理。
在影像复原中,给定输入
,目标是生成一个满足两个约束的影像
:1) 一致性:
。2) 真实性:
。这里,
表示原始图像的分布。
以前的范围零空间分解方法,通过以下方式解决了无噪声逆问题:
该依赖于对操作员
的准确估计。它们满足了一致性和现实性的约束。但在噪声或复杂的情况下,由于噪声的影响,精确的
估计变得困难,导致这些方法尽管仍满足一致性约束,但无法满足真实性约束。为了解决这个问题,我们将控制论凸组合理论与零空间理论相结合,提出了范围零空间融合理论。
定理3.1范围零空间融合 使用退化算子
,我们提出了范围零空间融合,将中间估计分解为可测量和创新子空间,形式上:
其中
投影到
的零空间,
投影在范围空间。
我们将图像
分解为
的范围空间分量
和零空间分量
。退化图像
投影到
的范围空间上的
,确保
,从而保证了解的一致性。零空间分量
融入了图像先验信息。通过引入时间变化参数
,我们可以灵活地在当前图像
和基于投影的修正项之间进行平衡。当
作用于更新后的图像时,零空间分量消失,剩下
。无论
的值如何,
始终成立,从而确保了一致性。零空间分量的灵活性使我们能够调整
,在一致性约束下优化重建质量和真实性。
当结合扩散模型时,它们提供了一个“干净”的图像
,而不是噪声图像
。我们将范围空间固定为
,并保持零空间不变。零空间分量
为重建提供了额外的自由度。通过
,我们可以在估计图像
和基于投影的修正项之间灵活平衡。在
算子估计不准确的情况下,扩散模型的固有生成能力满足真实性约束,从而产生一个修正后的估计
。
3.2. 时间权重设计
由于在扩散模型中,早期阶段专注于全局布局和颜色,中期阶段专注于中间结构和外观,最后阶段专注于细微纹理,介于这个特点我们设计了时变参数
的相应取值:
无噪声:早期阶段(低
)优先考虑特征恢复,然后逐渐增加约束(提高
)以进行细节细化。
无噪声情况(渐进约束增强):
4. 算法
算法1:范围零空间融合算法 |
需求:扩散模型参数
,时间表
,噪声水平
|
1) For
do |
2)
|
3)
|
4) 采样: |
5) End for |
6) 输出
|
5. 实验
我们的实验评估分析了范围零空间融合在多个影像复原任务中的性能,包括超分辨率(SR × 4, SR × 8)、去模糊和着色。通过与当前最先进的方法进行基准测试,我们表明范围零空间融合提供了高度有竞争力的结果。
5.1. 实验设置
预训练模型和数据集 我们在两个具有不同分布特征的数据集上评估了我们方法的性能:包含人脸图像的数据集CelebA 256×256 [25],自然图像数据集ImageNet 256 × 25包含自然图像。每个数据集都有1k个独立于训练集的验证图像。对于CelebA 256 × 256 [25],我们使用VP-SDE [13]去噪网络。对于ImageNet 256 × 256,我们使用导向扩散去噪网络[23]。我们对几个红外图像处理任务进行了系统评估,包括超分辨率(缩放因子分别为4×和8×)、着色、去模糊以及噪声和复杂退化条件下的任务。
为了提高可重复性,我们使用了CelebA上预训练的VP-SDE去噪网络,适用于CelebA 256 × 256。预训练的模型可以从GitHub的SDEdit存储库下载。对于ImageNet 256 × 255,我们使用了ImageNet上预训练的guide-diffusion去噪网络。其预训练模型可以在GitHub的guide-diffusion存储库下载。
评估 为了定量评价影像复原性能,我们采用PSNR [26]、FID和LPIPS [27]作为主要评价指标。值得注意的是,由于PSNR在色度重建过程中捕捉色彩保真度方面的固有局限性,FID和LPIPS在色度评价中特别有用。
比较方法 我们使用预训练的扩散模型:DPS [17],DDNM [10],DDRM [15],SSD [28]严格比较了所提方法与最先进的零拍影像复原方法的复原性能。为了确保实验的严谨性,我们使用相同的预训练的去噪网络架构和退化算子,在相同的实验配置下对所有基准方法进行了评估。
5.2. 无噪声影像复原
表1,表2展示了我们在CelebA和ImageNet数据集上针对四种典型图像复原任务的定量评估结果。我们将所提出的范围零空间融合方法(RNSF)与包括DPS、DDRM、DDNM和SSD在内的最先进方法进行了比较。
实验结果表明,RNSF在感知质量指标(FID和LPIPS)上表现尤为出色。
首先,在CelebA数据集上,RNSF-100在SR × 4和SR × 8任务中均取得了最低的FID和LPIPS分数(例如SR × 4的LPIPS为0.202),证明了其在人脸细节恢复方面的优势。
其次,在去模糊(Deblur)任务中,我们的方法在两个数据集上均展现了统治级的表现。特别是在ImageNet的去模糊任务中,RNSF-100不仅在感知指标上领先(FID3.03/LPIPS0.039),同时在PSNR上也超越了对比方法(40.32 dB)。
Table 1. Quantitative evaluation of typical image restoration tasks on the CelebA dataset
表1. CelebA数据集上典型图像复原任务的定量评估
CelebA Method |
SR × 4 PSNR/FID/LPIPS |
SR × 8 PSNR/FID/LPIPS |
Deblur (gauss) PSNR/FID/LPIPS |
Colorization PSNR/LPIPS |
|
28.02/128.22/0.301 |
24.77/153.86/0.460 |
19.96/116.28/0.564 |
43.99/0.197 |
DPS |
24.71/34.69/0.304 |
22.38/41.01/0.348 |
24.89/32.64/0.288 |
N/A |
DDRM-100 |
28.84/40.52/0.214 |
26.47/45.22/0.273 |
36.17/15.32/0.119 |
25.88/0.156 |
DDNM-100 |
28.85/35.13/0.206 |
26.53/44.22/0.272 |
38.70/4.48/0.062 |
23.65/0.138 |
SSD-100 |
28.84/32.41/0.202 |
26.44/42.42/0.267 |
38.62/4.36/0.060 |
23.62/0.138 |
RNSF-100 |
28.74/32.08/0.202 |
26.42/42.14/0.267 |
38.62/4.36/0.060 |
23.88/0.137 |
DDRM-30 |
28.62/46.72/0.221 |
26.28/49.32/0.281 |
36.05/15.71/0.122 |
36.48/0.237 |
DDNM-30 |
28.76/41.36/0.213 |
26.41/48.25/0.277 |
37.40/6.65/0.084 |
25.25/0.184 |
SSD-30 |
28.71/36.77/0.208 |
26.32/44.97/0.271 |
38.34/4.98/0.065 |
24.11/0.159 |
RNSF-30 |
28.70/36.87/0.207 |
26.24/45.27/0.271 |
38.34/4.92/0.065 |
24.05/0.162 |
Table 2. Quantitative evaluation of typical image restoration tasks on the ImageNet dataset
表2. 数据集上典型图像复原任务的定量评估
ImageNet Method |
SR × 4 PSNR/FID/LPIPS |
SR × 8 PSNR/FID/LPIPS |
Deblur(gauss) PSNR/FID/LPIPS |
Colorization PSNR /LPIPS |
|
26.26/106.01/0.322 |
22.86/124.89/0.469 |
19.33/102.33/0.553 |
27.40/0.231 |
DPS |
20.34/72.33/0.485 |
18.38/76.89/0.538 |
24.89/32.64/0.288 |
N/A |
DDRM-100 |
27.40/43.27/0.260 |
23.74/83.08/0.420 |
36.48/11.81/0.121 |
36.44/0.224 |
DDNM-100 |
27.44/39.42/0.251 |
23.80/80.09/0.421 |
40.48/3.33/0.041 |
36.46/0.219 |
SSD-100 |
27.45/37.69/0.248 |
23.76/82.11/0.409 |
40.32/3.07/0.039 |
35.40}/0.215 |
RNSF-100 |
27.39/38.75/0.248 |
23.72/83.12/0.412 |
40.32/3.03/0.039 |
36.46/0.223 |
DDRM-30 |
27.17/46.14/0.269 |
23.50/84.53/0.426 |
35.90/13.35/0.130 |
36.48/0.237 |
DDNM-30 |
27.22/40.12/0.256 |
23.53/74.60/0.414 |
37.67/6.91/0.081 |
36.46/0.229 |
SSD-30 |
27.13/38.24/0.251 |
23.44/76.35/0.411 |
39.23/4.64/0.053 |
36.22}/0.223 |
RNSF-30 |
27.07/41.37/0.230 |
23.41/82.56/0.422 |
39.24}/4.63/0.053 |
37.14/0.230 |
Figure 1. Qualitative comparison of noise-free linear inverse problems on the CelebA dataset
图1. CelebA数据集上无噪声线性逆问题的定性比较
此外,我们还评估了加速采样下的性能。即便将采样步数减少至30步(RNSF-30),我们的方法依然保持了极具竞争力的结果,在去模糊任务中甚至优于许多100步的基线方法。这表明RNSF能够在推理效率和重建质量之间取得良好的平衡。
结合图1的定性结果可见,RNSF能够有效抑制伪影并恢复逼真的纹理,这与表中的低FID/LPIPS分数相一致。
6. 结论
本文提出了一种创新的范围-零空间融合框架,旨在解决基于扩散模型的图像复原挑战。该核心机制通过精细调节反向投影的一致性与生成先验的融合,显著提升了图像的感知质量。作为一种即插即用(plug-and-play)的解决方案,该方法无需任何额外的模型重训练或微调,即可适应多种图像逆问题。广泛的实验表明,我们的方法不仅在推理效率上表现突出,更在恢复高频细节和纹理方面超越了现有的基准方法,为高质量图像重建提供了一种稳健且高效的新途径。