基于少样本学习的图像修复技术综述
A Review of Image Inpainting and Restoration Based on Few-Shot Learning
DOI: 10.12677/airr.2026.152048, PDF, HTML, XML,   
作者: 王永超, 曹 鹏*:北京印刷学院信息工程学院,北京
关键词: 图像修复深度学习GAN少样本学习微调Image Inpainting Deep Learning GAN Few-Shot Learning Fine-Tuning
摘要: 针对图像修复任务中普遍存在的数据获取难及退化模式复杂多变等挑战,少样本学习为模型在新场景下的快速泛化与适应提供了新思路。本文系统梳理了该领域的最新研究进展:首先探讨了元学习如何通过优化初始化策略实现对新任务的快速参数适配;其次分析了生成先验如何利用预训练模型的潜在空间,在极低样本下重构高频细节;同时阐述了自监督与对比学习如何挖掘数据内部相关性以增强表征稳健性,以及迁移学习如何将大规模域外知识有效映射至特定修复任务。尽管现有方法在纹理一致性与结构复原上取得显著突破,但仍受限于过拟合风险、未知退化建模及推理效率等瓶颈。展望未来,模型的高效微调及持续增量学习将是突破当前局限的关键方向。
Abstract: Research on few-shot learning-based image inpainting and restoration aims to tackle the challenges of completion and recovery under data scarcity and highly variable degradation distributions, thereby improving a model’s generalization and rapid adaptation to new scenarios. This review summarizes recent advances, covering meta-learning approaches that enable fast parameter adaptation with only a few samples; generative-prior methods that reconstruct fine details from extremely limited data; self-supervised and contrastive learning that enhance training stability via internal pseudo-supervision and representation constraints; and transfer learning that leverages pretrained knowledge and auxiliary-domain data for cross-domain adaptation. These methods have improved texture consistency, structural integrity, and perceptual realism, yet they still face challenges in controlling overfitting, modeling unseen degradations, selecting appropriate evaluation metrics, and achieving efficient inference. Finally, we highlight unified modeling of multiple degradations, efficient adaptation of foundation models, and continual/incremental learning as key future directions.
文章引用:王永超, 曹鹏. 基于少样本学习的图像修复技术综述[J]. 人工智能与机器人研究, 2026, 15(2): 490-501. https://doi.org/10.12677/airr.2026.152048

1. 引言

随着计算机视觉技术的飞速发展,图像修复作为底层视觉处理的核心任务,在医学影像诊断、遥感监测、安防监控以及文物数字化保护等领域发挥着不可替代的作用[1]。高质量的图像不仅是人类视觉感知的需求,更是目标检测、语义分割等下游高级视觉任务取得优异性能的前提[2]。然而,在实际的成像与传输过程中,受限于硬件设备精度、环境光照干扰以及信道噪声等物理因素,获取的图像往往伴随着噪声、模糊、雨雾遮挡或分辨率不足等退化现象[3] [4]。如何从退化的观测数据中恢复出清晰的潜在图像,一直是图像处理领域亟待解决的关键科学问题。

早期图像修复方法主要依赖于手工设计的先验知识和数学优化模型,具有良好的解释性,但在处理复杂的非线性退化时往往力不从心[5]。近年来,以深度卷积神经网络CNN和Transformer为代表的数据驱动方法,凭借其强大的特征提取与非线性映射能力,在图像去噪、超分辨率和去模糊等任务上取得了突破性进展[6] [7]。然而,这些主流的深度学习模型通常遵循全监督学习范式,其性能高度依赖于海量且高质量的成对训练数据,即严格对齐的“退化–清晰”图像对。在现实应用场景中,获取大规模的像素级标注数据不仅耗时费力,在某些特定领域,如医学造影、历史档案修复等,甚至面临“无数据可用”的困境。这种对大数据的过度依赖,严重制约了现有的图像修复模型在开放环境下的泛化能力与实际部署。

针对“数据孤岛”与标注成本高昂的挑战,研究者们开始探索在样本极度匮乏情况下的模型训练策略,少样本学习(Few-Shot Learning, FSL)因此被引入图像修复领域[8]。与全监督学习不同,少样本图像修复旨在让模型具备类似于人类的快速学习能力,即通过分析极少量的参考样本,甚至仅利用单张测试图像自身的内部统计特性,就能挖掘出从退化空间到清晰空间的映射规律[9]。这种学习范式不仅能够缓解对大规模数据集的依赖,还能显著提升模型在面对未知退化类型时的自适应能力。

在过去五至十年间,基于少样本策略的图像修复研究呈现出多路径发展的态势。元学习(Meta-Learning)方法试图通过在多任务间的知识迁移,学习通用的模型初始化参数或优化策略,从而实现对新场景的快速适应[10];自监督学习(Self-Supervised Learning)与零样本学习(Zero-Shot Learning)则转向挖掘图像内部的递归统计信息和自相似性,在完全无需外部数据的情况下实现特定图像的物理模型反演[11] [12];生成式对抗网络GAN的引入,使得模型能够在单幅图像的流形分布上进行采样与生成,为纹理恢复提供了强大的幻觉填充能力[13];此外,对比学习(Contrastive Learning)通过最大化样本间的互信息,为在非配对数据条件下提取鲁棒的内容特征提供了新的解决思路[14]。这些方法从不同角度重新定义了图像修复的边界,使得在小样本甚至零样本条件下的高质量重建成为可能。

尽管该领域已涌现出大量创新性工作,但目前仍缺乏对这一新兴方向的系统性梳理。现有的综述大多聚焦于特定任务(如超分辨率)或特定架构(如GAN),鲜有文章从“少样本”这一数据规模的视角出发,全面总结各类低资源图像修复技术。鉴于此,本文将对近五至十年来基于少样本学习的图像修复研究进行全面综述。我们将深入探讨元学习、生成模型、自监督学习及迁移学习等核心策略在解决数据匮乏问题时的内在机理,分析各类方法在去噪、去雨、去雾及图像补全等任务中的适用性与局限性,并归纳总结当前的性能瓶颈,旨在为该领域的未来研究方向提供有价值的参考与展望。

2. 图像修复中的少样本学习方法

2.1. 元学习方法

元学习通过在训练阶段模拟少样本情景,使模型学会“快速学习”的能力,从而能在遇到新任务时以极少的样本快速适应[15]。许多工作将元学习思想引入图像修复,以提升模型在新退化类型或新数据域下的泛化性[16]。其中,模型学习通常被分为两个阶段:元训练阶段和元测试阶段。在元训练阶段,模型会接触到大量不同的学习任务,并学习如何快速适应这些任务;在元测试阶段,模型会接触到新的任务,并利用在元训练阶段学到的知识来快速适应这些新任务,如图1所示。

Figure 1. Meta-learning process

1. 元学习过程

该框架将少样本图像修复映射为“跨任务学习 + 任务内快速适配”的两层优化问题。首先假设真实应用中的修复场景(如不同掩膜形态、退化类型或数据域)可由任务分布  p( T )  描述。在元训练(Meta-Train)阶段,算法从  p( T )  采样多个任务  { T i }  ,并将每个任务的数据划分为支持集 S i 和查询集 Q i 。支持集仅包含极少样本,用于内循环更新:从共享参数θ出发,通过 1~K 步梯度下降得到任务自适应参数。随后在查询集上计算损失,并在外循环中对共享参数进行更新,使得模型在经过少量内循环更新后,仍能在同任务的未见样本上保持良好表现。在元测试阶段(Meta-Test),当模型遇到新任务时,仅需利用少量支持集进行快速微调获得新的共享参数,即可完成新任务。与传统“在单一大数据集上训练、遇到分布变化即失效”的范式相比,该元学习策略的核心优势在于:学习到更易适配的参数初始化,从而在少样本条件下实现更稳健的跨场景泛化与快速部署。

元学习的主要目标是在接触到新的任务时,通过利用之前学到的知识和经验来快速适应和学习新的任务。例如,Soh等人提出的MZSR方法将元学习与零样本超分辨率相结合[17]。他们在大规模外部数据上进行元训练,学习一个良好的初始化参数,使模型对任意单张图像的内部训练更高效——在测试时对给定低分辨率图像仅一次梯度更新即可获得显著超分效果。通过这种元迁移学习策略,MZSR利用外部和内部信息,实现对不同降质内核、噪声条件的快速自适应。

又如,Gao等人提出MLDN (Meta-Learning Deraining Network),将元表示学习和关系学习网络引入单幅去雨任务[18]。MLDN先用元学习提取雨天/晴天图像的可迁移特征表示,再通过关系网络学习晴雨特征间的“关系向量”,从带雨图的表示中去除该关系以重建清晰图像。这种方法有效提升了模型对新雨型的泛化能力,在去雨性能上比当时各状态state-of-the-art平均提升约4%。

再例如,Kim等人在ECCV 2024提出Meta-Weather模型,将未知天气下的图像复原视为少样本自适应问题[19]。Meta-Weather扩展了匹配网络风格的元学习框架,设计了空间–通道匹配模块,从少量支撑样本中提取与查询图像共有的退化模式,从而指导模型对查询图像进行恢复。该方法无需预先假定未来天气类型,在仅有数对退化/清晰图像的情况下就能适应全新天气条件,实现对任意未知天气退化的统一复原,并在BID Task II.A等数据集上取得当前最好PSNR/SSIM成绩。

此外,针对去雾任务,Liu等人(2024)提出MT-Net,结合模型无关元学习(MAML)、知识迁移和对比学习,实现单幅去雾模型对真实雾霾条件的快速自适应[20]。总的来说,元学习通过“学会学习”让图像修复模型具备快速微调的能力,在少样本条件下能有效避免过拟合细节、提升跨域泛化能力。

2.2. 基于生成模型的方法

生成模型通过学习自然图像的流形分布,为解决不适定(Ill-posed)的图像修复任务提供了强大的先验约束[21]。特别是在少样本或零样本场景下,生成模型能够通过“幻觉(Hallucination)”机制合理填补缺失的高频细节,成为解决数据匮乏问题的核心手段。根据对训练数据的依赖程度及模型利用方式,该类方法可分为基于深度内部先验的方法、少样本生成对抗网络以及基于预训练先验的方法。卷积神经网络(CNN)的结构本身就蕴含了某种能够捕捉自然图像统计特性的归纳偏置(Inductive Bias) [22]。这类方法无需任何外部数据集,仅通过在单张测试图像上进行即时优化即可实现修复。

早期的深度生成先验方法无需任何外部数据,仅依靠网络结构自身生成图像。如Ulyanov等人提出的Deep Image Prior (DIP)是代表性工作:随机初始化的卷积网络被用作一种手工先验,仅通过拟合单张受损图像,就在去噪、超分辨率、图像补洞等逆问题上取得了惊人的效果[23]。DIP揭示了网络结构自身的归纳偏置可以捕获大量低级图像统计信息,利用这一点,DIP在无监督情形下生成的修复结果与使用大量训练数据的最先进方法相当接近。这一发现桥接了“学习式方法”和“非学习式先验”两大路线,为少样本/零样本图像修复提供了新思路。

Shocher等人提出“零样本”超分辨率(ZSSR),在测试时针对每张待增强图像内部的自相似信息进行训练[24]。ZSSR无需预先训练,在输入图像中下采样生成内部样本,对一个小型专用CNN实时训练,使其适应该图像的特定退化,成功处理了真实老照片、有噪声图像等未知降质情况。在这些真实场景下,ZSSR相对传统利用大数据训练的超分模型取得更佳结果,被誉为首个无监督CNN超分方法。近年来,深度生成对抗网络(GAN)和扩散模型等也被用于少样本图像修复。

Lu等人提出GRIG:Generative Residual Inpainting——这是首个深度学习少样本图像补全框架[25]。GRIG采用GAN架构,融合CNN提取局部特征和Transformer全局建模,通过迭代残差推理逐步细化修复结果。其判别器包含图像级和补丁级两种尺度,并提出伪造补丁对抗训练策略以提升细节纹理的真实度。在仅有10张左右训练图像的数据集上,GRIG即可收敛并产生高质量结果,较以往方法在定量和视觉质量上均有优势。这一生成残差补全方法已在2025年发表于CVM期刊。再如,一些扩散模型方法通过内部优化或少量样本微调也展现出强大能力。

Adrai等人在NeurIPS 2023中提出利用深度最优传输的图像复原算法,可在仅十几张已初步复原的图像作为参考的条件下,进一步显著提升模型对未知数据的感知质量和降低误差[26]。总体而言,生成模型为小数据情境下的图像修复提供了有效先验:无论是利用网络自身作为先验(如DIP、ZSSR),还是借助预训练生成模型微调,均能在缺乏大数据时生成令人满意的修复结果。此外,随着扩散模型(Diffusion Models)的兴起,近期的研究开始利用预训练扩散模型强大的生成能力进行零样本或少样本修复[27]。这类方法通常将退化过程建模为扩散逆过程中的条件约束,无需重新训练大规模网络,仅需少量样本调整采样轨迹即可实现高质量的去雨、去雾或超分辨率。此外,面向未知腐蚀/未知退化的一体化复原也得到关注,例如提出All-in-One的复原框架以提升对未见退化的鲁棒性[28]

总体而言,生成模型通过挖掘网络结构先验、图像内部统计信息或利用预训练的大规模知识库,成功规避了对海量配对数据的依赖。无论是DIP和ZSSR代表的内部单样本学习,还是GRIG代表的少样本对抗生成,均证明了在数据受限情境下,引入强生成先验是实现高质量图像修复的关键路径。

2.3. 对比学习与自监督学习方法

在少样本或零样本场景下,由于缺乏海量的外部监督信号,如何充分挖掘观测数据本身的内在结构与先验知识,成为提升模型泛化能力的关键。自监督学习(Self-Supervised Learning, SSL)与对比学习(Contrastive Learning, CL)正是解决这一痛点的有效范式:前者侧重于通过构造代理任务(Pretext Tasks)从数据内部挖掘监督信号,后者则致力于通过优化特征空间的分布来约束解的范围[29] [30]

自监督学习的核心在于摆脱对人工标注的依赖,转而利用图像的统计共性或物理退化规律生成伪标签。在图像修复任务中,这种策略通常表现为对退化过程的逆向模拟或对图像内容的自洽性验证。在缺乏充足标签数据时,自监督学习和对比学习策略可以充分挖掘未标注数据或先验知识,辅助图像修复模型训练。自监督方法通过设计预文本任务从数据本身学习表征[31]。例如上述DIP [23]和ZSSR [24]本质上利用了自监督:DIP通过让网络自行重建退化图像,实现对原始信号的渐进逼近;ZSSR通过在同一图像内构造训练对,实现了无外部监督的超分训练。这些方法证明,即使没有额外数据或标签,模型也能从图像内部的冗余中学习有效先验。同样地,一些少样本图像修复工作会借助数据增广和自监督损失来提高鲁棒性。除“单图内部学习”范式外,图像去噪领域形成了更系统的自监督训练框架:Noise2Noise 证明在一定条件下可用“噪声–噪声”配对替代“噪声–干净”配对进行复原训练,从而在缺乏干净标签时仍能学习到期望意义上的干净输出[32];随后Noise2Void、Noise2Self等提出“盲点/遮蔽中心像素”的J-invariant机制,使得仅凭单张噪声图像即可构造自监督目标并训练去噪模型[33] [34]。在此基础上,High-Quality Self-Supervised Deep Image Denoising进一步通过结构与训练策略改进提升无监督去噪质量,使其在多类噪声设置下逼近监督学习效果[35];Self2Self则在单张噪声图像上利用Dropout采样构造自监督训练对,并通过集成推理提高稳定性与细节保真度[36]。此外,R2R (Recorrupted-to-Recorrupted)通过构造“再退化”样本对,从统计意义上建立与监督目标的一致性,进一步缓解无监督去噪中的偏差与过拟合风险[37]。这些工作共同表明,即使没有额外数据或标签,模型也能从图像内部冗余、退化机制与统计一致性中学习有效先验,为少样本/零样本图像修复提供可行的训练信号来源。例如Rai等人提出的FLUID框架虽然主要是元学习思想,但其中第一阶段利用了极少量弱监督训练一个像素级雨滴概率估计网络,然后通过图像修补填充雨滴区域,再用自监督网络细化结果[37]。这种将少量标注信息转化为自监督信号的策略,使模型在仅有几张带雨/晴天对照图的情况下成功学习雨滴分布,并通过后续自监督去雨网络得到清晰图像。

对比学习则通过拉近正样本、区分负样本来学到判别特征。在少样本修复中,对比损失常被用于保持内容一致、抑制伪影并降低过拟合风险[38]。在去雾任务中,Wu等提出将对比学习作为紧凑表示学习与域对齐的正则手段,通过将清晰图像特征作为正样本、雾化图像特征作为负样本,在特征空间中显式推动输出向“清晰域”聚集,从而提升模型在复杂雾化条件下的泛化能力[39]。在超分辨率任务中,Xia等提出非局部对比注意力机制,将对比学习融入长程依赖建模,通过拉开相关与不相关特征距离来强化纹理结构表达与细节重建[40]。此外,面向去雾的少样本适配研究中也有工作将对比约束与元学习/迁移学习结合:例如在训练去雾元模型时,引入对比学习模块,将退化图与清晰图作为正负样本,以增强模型对细微风格差异的敏感度,避免仅凭少量样本就产生过度自信的错误重建,从而提高小数据条件下的跨域泛化性能。

总体而言,自监督与对比学习为少样本图像修复提供了额外的训练信号:自监督利用数据内部结构(如图像自相似、退化模拟、遮蔽一致性等)生成伪标签,对比学习则通过特征空间约束更充分利用有限样本并抑制过拟合。这些策略在一定程度上缓解了少样本带来的欠拟合或过拟合问题,提升了模型在未知退化与跨域场景下的鲁棒性,但仍需在任务一致性、训练稳定性与评价指标一致性等方面进一步探索。

2.4. 迁移学习与微调

迁移学习(Transfer Learning)的核心思想在于利用源域(Source Domain)中丰富的知识储备来辅助目标域(Target Domain)的学习,这在目标数据极度稀缺的少样本图像修复任务中被证明是一种行之有效的范式。根据知识来源与迁移策略的不同,相关研究主要集中在从合成数据到真实场景的域适应,以及从大规模预训练基础模型到特定任务的参数高效微调[41]-[43]

迁移学习在少样本情境下是一种直接有效的策略:通过相关任务或大规模数据预训练模型,然后在目标小数据上进行微调,可以大幅提升性能。许多图像修复研究通过跨数据集迁移或跨任务知识转移来弥补目标数据稀缺。例如,Xin Li等人提出DRTL (Distortion-Relation guided Transfer Learning)用于真实图像超分[44]。他们首先在充足的辅助失真数据(合成降质图像)上训练模型获取丰富的复原知识,然后针对目标真实失真,通过建立辅助失真与目标失真间的失真关系图(知识图谱)来指导知识迁移。具体而言,DRTL利用梯度重加权等策略,将与目标失真最相关的辅助知识快速传递给小样本的目标超分任务,从而在仅有极少真实配对图像的情况下也能取得出色效果。该方法可结合预训练微调范式或元学习范式进行实现,是首个针对真实少样本超分的系统研究。类似地,面向真实场景超分的研究也常从“域差异/域适应”的视角出发,通过无监督或弱监督方式实现从合成到真实的迁移与对齐,例如DASR等方法强调在缺乏真实配对数据时通过域距离感知训练缓解域偏移带来的性能劣化[41],亦有工作系统从域适应视角讨论真实SR的迁移机制与策略[42]

类似地,在去雨、去雾等任务中,研究者也常使用合成数据预训练 + 少量真实数据微调的迁移策略。例如MetaWeather模型在元训练阶段利用多种已知天气数据学习通用表征,在元测试阶段通过高效参数微调适应新的天气[19]。又如Valanarasu等人的TransWeather (CVPR 2022)先在多天气合成数据上训练一个通用复原模型,然后针对真实复杂天气进行微调,但其在超出训练分布的情况下仍性能下降[45]。相比之下,少样本迁移学习通过高效微调应对训练分布与测试分布的不匹配,更具实用性。此外,真实退化往往具有多样性与不可显式建模的特点,因此也出现了“退化自适应/退化感知”的网络设计,用于提升模型对真实退化的适配能力并降低后续微调成本[43]。与此同时,测试阶段的“按需适配”也成为一种重要补充:例如开放及复原场景下,测试时退化适配(Test-Time Degradation Adaptation)被用于应对未知退化分布并提升复原鲁棒性[46];类似地,也有研究利用扩散先验在测试时对输入腐蚀/域偏移进行自适应校正,从而提高对分布变化的稳健性[47]

此外,随着预训练大模型(如强大的扩散模型、生成Transformer等)的出现,将这些在海量数据上预训练的模型迁移到小样本修复任务上成为新趋势。一些研究已探索利用预训练的文生图扩散模型,通过少量目标域图像的微调实现图像补全与复原,在极小数据下仍保持高保真度[48]。总的来说,迁移学习充分利用了已有知识:不论来自相似任务的大数据,还是来自预训练模型的丰富先验,都能通过微调有效赋能小数据下的图像修复模型,大幅提升其起点性能和收敛速度。进一步地,参数高效微调(如低秩适配器/LoRA等)为“在冻结大模型主体参数的前提下进行快速适配”提供了可行路径,从而更适合少样本、多场景的实际部署需求[49]

2.5. 性能对比与视觉效果分析

为了直观展示不同少样本学习策略在图像修复任务中的实际效能,本节选取相关典型任务,从客观评价指标和主观视觉效果两个维度对代表性算法进行了对比分析。

由于少样本图像修复缺乏统一的训练设置,直接对比往往较为困难。表1汇总了代表性算法在标准数据集上的性能表现。从数据来看,迁移学习类方法通常能取得最高的客观指标。这主要得益于其利用了大规模合成数据或预训练模型作为先验,通过辅助任务的知识迁移弥补了目标域数据的不足。元学习方法紧随其后,这类方法通过学习通用的参数初始化,在仅有数张参考图像的情况下,能迅速适应特定退化模式,在去雨和超分任务上均显著优于传统的手工先验方法。

相比之下,基于深度内部先验的方法虽然在绝对数值上略低于在大规模数据上训练的全监督模型,但考虑到其零样本的严苛约束,其性能表现已证明了卷积神经网络结构本身具有强大的图像复原归纳偏置。

Table,1. Performance comparison of representative few-shot image restoration methods on standard datasets

1. 部分少样本图像修复方法在标准数据集上的性能对比表

方法(年份)

任务类型

样本量

数据集

PSNR (dB)

SSIM

DIP (2018)

去噪

1张

Set12

31.07

0.872

DIP (2018)

超分辨率

1张

Set5 (×4)

28.32

0.830

ZSSR (2018)

超分辨率

1张

Set5 (×2)

36.87

0.963

MZSR (2020)

超分辨率

8~16张

Set5 (×4)

29.13

0.840

GRIG (2021)

图像补全

10张

CelebA-HQ

32.10

0.92

DRTL (2021)

超分辨率

5对

RealSR

28.38

0.839

Meta-Weather (2024)

天气去噪

10张

BID Task

29.02

0.87

图2所示,给出了迁移学习方法在三类典型图像恢复任务上的可视化对比结果,包括去雾、去雨和去噪。图中每一行对应一种退化类型,从左到右展示了退化输入及不同迁移学习策略的复原结果。整体来看,迁移学习能够在有限样本条件下有效缓解多种退化:在去雾任务中,场景对比度与色彩饱和度明显提升,远处细节(如背景车辆与环境纹理)更清晰;在去雨任务中,雨线被显著抑制,同时主体边缘与背景结构保持较完整;在去噪任务中,噪声颗粒被削弱的同时,主体纹理(如动物皮毛/沙面细节)仍能较好保留。该结果表明迁移学习在多任务图像恢复中具有一定的通用适配能力,但不同策略在细节保真与过度平滑之间仍存在差异。

Figure 2. Restoration results of transfer learning methods, without fine-tuning [44], fine-tuning [41], efficient fine-tuning [42], and joint fine-tuning [28]

2. 迁移学习方法比较,从左到右依次为原图,无微调[44],微调[41],高效微调[42],联合微调[28]

图3所示,生成模型方法在多退化图像恢复任务中呈现出较强的细节重建能力。相比依赖显式退化建模或简单映射的方案,生成模型能够利用学习到的分布先验对缺失信息进行补全,因此在雨渍遮挡、污渍覆盖等“信息缺失更严重”的场景中,视觉效果提升更明显。例如在去雨渍样例中,遮挡区域的结构边缘得到重建,目标可辨性显著改善。

Figure 3. Reconstruction effect of generative model method, attention mechanism method [26], multi-axis MLP network [33], CNN [25]

3. 生成模型方法复原效果,从左到右依次为原图,注意力机制方法[26],多轴MLP网络[33],CNN [25]

2.6. 不同技术路线的权衡与适用性探讨

尽管上述四类少样本图像修复方法在特定任务上均取得了显著进展,但在实际应用中,不同技术路线在训练效率、推理开销以及复原质量的侧重点上存在明显的权衡关系。本节将从性能平衡与场景适用性两个维度进行深入剖析,方法对比如表2所示。

1. 性能权衡分析

训练效率与推理效率的博弈:元学习方法通常需要漫长的离线元训练阶段来学习通用的初始化参数,但其优势在于推理阶段仅需几次梯度更新即可快速适应新任务。相比之下,基于深度内部先验(如DIP,ZSSR)的方法虽然无需预训练,完全摆脱了对外部数据集的依赖,但在推理时需要针对每一张测试图像进行成百上千次的迭代优化,导致推理延迟极高,难以满足实时性要求。

纹理生成能力与结构保真度的博弈:基于生成模型的方法凭借强大的幻觉填充机制,在修复大面积缺失或极低分辨率图像时,能够生成逼真的高频纹理细节。然而,这种强生成先验有时会导致过度平滑或产生与原始结构不符的伪影。相反,自监督与对比学习方法(如Noise2Void,Contrastive Dehazing)通过挖掘数据内部的统计共性或拉近特征距离,往往能更好地保持图像的物理结构和边缘一致性,但在极度缺乏信息的区域,其纹理恢复的丰富度通常弱于生成式方法。

2. 不同方法的适用场景建议

针对实际应用中多样化的需求,我们总结了不同技术路线的最佳适用场景。

场景一:单张孤立样本且无外部数据当面临完全未知的退化类型(如特殊的老照片损坏、非典型噪声),且无法获取任何类似的辅助数据集时,基于深度内部先验的方法是最佳选择。这类方法仅利用卷积神经网络自身的归纳偏置捕获低级图像统计信息,无需外部学习即可实现物理模型反演。

场景二:多变环境下的快速部署在自动驾驶或安防监控等场景中,摄像头常面临天气(雨、雾、雪)或光照的快速变化。此时,元学习方法最具优势。通过在多任务分布上学习到的初始化参数,模型能够利用当前场景捕获的极少量帧(支持集),迅速微调至最优状态,实现对新环境的即时适应。

场景三:特定领域的高保真需求对于医学影像或遥感图像等对结构准确性要求极高的领域,迁移学习与微调策略更为稳健。利用在大规模自然图像上预训练的基础模型,结合低秩适配等技术在少量领域数据上进行微调,既能利用通用的视觉特征,又能避免从头训练带来的过拟合风险。

Table 2. Qualitative comparison of four types of few-shot image inpainting methods

2. 四类少样本图像修复方法的定性对比

方法类别

核心机制

优势

局限性

元学习 (Meta-Learning)

学习参数初始化或优化策略, 实现跨任务快速适应

对新退化类型适应速度快;泛化能力强

训练阶段耗时;模型设计 复杂,收敛难度大

生成模型 (Generative Models)

利用GAN,Diffusion先验或 网络结构自身的归纳偏置

纹理细节丰富;具备强大的 “幻觉”填充能力;部分方法 无需外部数据(Zero-shot)

存在产生伪影风险;基于 内部优化的方法推理极慢

自监督/对比学习 (Self-Supervised/Contrastive)

挖掘图像内部统计共性(如 盲点一致性)或特征空间约束

无需配对数据;结构保真度高; 物理可解释性较好

在大面积缺失或极度 模糊下恢复能力有限

迁移学习/微调 (Transfer Learning)

利用源域知识或预训练大模型 进行参数迁移

起点性能高;由于大模型先验,

鲁棒性好;训练相对稳定

存在域偏移问题;全量 微调参数量大

3. 结论

本文回顾了近十年基于少样本学习的图像修复研究进展。少样本策略极大地缓解了高质量图像修复对大规模标注数据的依赖,包括元学习、生成模型、自监督与对比学习、迁移微调等多种方法各展所长。代表性工作表明,通过精心设计的算法,模型即使只看极少的训练样本甚至单张图像,也能在去噪、去雨、去雾、超分辨率、图像补全等任务上取得接近甚至超越传统大数据训练的性能。然而少样本图像修复也面临诸如过拟合控制、未知分布泛化等挑战,需要进一步研究。展望未来,随着更通用的元学习框架、强大的预训练生成模型以及多策略融合的出现,少样本图像修复有望取得更大突破,在真实复杂环境中实现高效、鲁棒的视觉信息恢复。本文回顾了基于少样本学习的图像修复技术在过去十年的演进历程。针对数据稀缺与退化分布多变的难题,元学习、生成先验、自监督学习及迁移学习等策略展现了强大的潜力,使得模型在极低资源消耗下实现了从去噪到复杂补全的高质量复原。尽管如此,该领域仍面临过拟合风险控制、跨域分布泛化难以及感知评估指标缺失等核心挑战。

展望未来,少样本图像修复的研究重点将逐渐向大规模基础模型的高效适配转移。利用预训练的扩散模型或Transformer,结合提示学习(Prompt Learning)与参数高效微调技术,有望在保留通用生成先验的同时实现对特定任务的精准控制。此外,构建能够统一处理多种退化的通用框架,并将物理光学先验、跨模态信息显式融入学习过程,将显著提升模型的可解释性与鲁棒性。随着主动学习、增量学习以及视频/3D修复等新兴方向的拓展,少样本学习有望在更广泛的真实世界场景中打破数据壁垒,推动底层视觉技术向更接近人类知觉的通用人工智能迈进。

NOTES

*通讯作者。

参考文献

[1] Su, J., Xu, B. and Yin, H. (2022) A Survey of Deep Learning Approaches to Image Restoration. Neurocomputing, 487, 46-65. [Google Scholar] [CrossRef
[2] Liu, D., Wen, B., Liu, X., Wang, Z. and Huang, T. (2018) When Image Denoising Meets High-Level Vision Tasks: A Deep Learning Approach. Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence, Stockholm, 13-19 July 2018, 842-848. [Google Scholar] [CrossRef
[3] Zhang, K., Zuo, W., Chen, Y., Meng, D. and Zhang, L. (2017) Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising. IEEE Transactions on Image Processing, 26, 3142-3155. [Google Scholar] [CrossRef] [PubMed]
[4] Nah, S., Kim, T.H. and Lee, K.M. (2017) Deep Multi-Scale Convolutional Neural Network for Dynamic Scene Deblurring. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 257-265. [Google Scholar] [CrossRef
[5] He, K., Sun, J. and Tang, X. (2011) Single Image Haze Removal Using Dark Channel Prior. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33, 2341-2353. [Google Scholar] [CrossRef] [PubMed]
[6] Dong, C., Loy, C.C., He, K. and Tang, X. (2016) Image Super-Resolution Using Deep Convolutional Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38, 295-307. [Google Scholar] [CrossRef] [PubMed]
[7] Zhang, K., Zuo, W. and Zhang, L. (2018) FFDNet: Toward a Fast and Flexible Solution for CNN-Based Image Denoising. IEEE Transactions on Image Processing, 27, 4608-4622. [Google Scholar] [CrossRef] [PubMed]
[8] Wang, Y., Yao, Q., Kwok, J.T. and Ni, L.M. (2020) Generalizing from a Few Examples. ACM Computing Surveys, 53, 1-34. [Google Scholar] [CrossRef
[9] Zontak, M. and Irani, M. (2011) Internal Statistics of a Single Natural Image. IEEE Conference on Computer Vision and Pattern Recognition 2011, Colorado, 20-25 June 2011, 977-984. [Google Scholar] [CrossRef
[10] Hospedales, T.M., Antoniou, A., Micaelli, P. and Storkey, A.J. (2021) Meta-Learning in Neural Networks: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44, 5149-5169. [Google Scholar] [CrossRef] [PubMed]
[11] Goodfellow, I., Pouget-Abadie, J., Mirza, M., et al. (2014) Generative Adversarial Nets. Advances in Neural Information Processing Systems (NeurIPS), Montreal, 8-13 December 2014, 2672-2680.
[12] Jing, L. and Tian, Y. (2021) Self-Supervised Visual Feature Learning with Deep Neural Networks: A Survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43, 4037-4058. [Google Scholar] [CrossRef] [PubMed]
[13] Le-Khac, P.H., Healy, G. and Smeaton, A.F. (2020) Contrastive Representation Learning: A Framework and Review. IEEE Access, 8, 193907-193934. [Google Scholar] [CrossRef
[14] Zhuang, F., Qi, Z., Duan, K., Xi, D., Zhu, Y., Zhu, H., et al. (2021) A Comprehensive Survey on Transfer Learning. Proceedings of the IEEE, 109, 43-76. [Google Scholar] [CrossRef
[15] Finn C, Abbeel P, Levine S. (2017) Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. International Conference on Machine Learning (ICML), Sydney, 6-11 August 2017, 1126-1135.
[16] Hu, X., Mu, H., Zhang, X., Wang, Z., Tan, T. and Sun, J. (2019) Meta-SR: A Magnification-Arbitrary Network for Super-Resolution. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 1575-1584. [Google Scholar] [CrossRef
[17] Soh, J.W., Cho, S. and Cho, N.I. (2020) Meta-Transfer Learning for Zero-Shot Super-Resolution. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 3513-3522. [Google Scholar] [CrossRef
[18] Gao, X., Wang, Y., Cheng, J., Xu, M. and Wang, M. (2021) Meta-Learning Based Relation and Representation Learning Networks for Single-Image Deraining. Pattern Recognition, 120, Article 108124. [Google Scholar] [CrossRef
[19] Kim, Y., Cho, Y., Nguyen, T., Hong, S. and Lee, D. (2024) MetaWeather: Few-Shot Weather-Degraded Image Restoration. In: Leonardis, A., Ricci, E., Roth, S., Russakovsky, O., Sattler, T. and Varol, G., Eds., Lecture Notes in Computer Science, Springer, 206-222. [Google Scholar] [CrossRef
[20] Tao, S., Li, W., Zhang, P., et al. (2024) MT-Net: Meta-Learning with Contrastive Learning for Few-Shot Single Image Dehazing. Journal of Visual Communication and Image Representation, 105, 104325.
[21] Shaham, T.R., Dekel, T. and Michaeli, T. (2019) Singan: Learning a Generative Model from a Single Natural Image. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 27 October 2019-2 November 2019, 4569-4579. [Google Scholar] [CrossRef
[22] Bell-Kligler, S., Shocher, A. and Irani, M. (2019) Blind Super-Resolution Kernel Estimation Using an Internal-GAN. Advances in Neural Information Processing Systems (NeurIPS), Vancouver, 8-14 December 2019, 284-293.
[23] Ulyanov, D., Vedaldi, A. and Lempitsky, V. (2018) Deep Image Prior. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, Utah, 18-22 June 2018, 9446-9454.
[24] Shocher, A., Cohen, N. and Irani, M. (2018) Zero-Shot Super-Resolution Using Deep Internal Learning. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 3118-3126. [Google Scholar] [CrossRef
[25] Lu, W., Jiang, X., Jin, X., Yang, Y.-L., Gong, M., Wang, T., Shi, K. and Zhao, H. (2023) GRIG: Few-Shot Generative Residual Image Inpainting. CoRR, abs/2304.12035.
[26] Suvorov, R., Logacheva, E., Mashikhin, A., Remizova, A., Ashukha, A., Silvestrov, A., et al. (2022) Resolution-Robust Large Mask Inpainting with Fourier Convolutions. 2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, 3-8 January 2022, 3172-3182. [Google Scholar] [CrossRef
[27] Adrai, A., Lavy, S. and Michaeli, T. (2023) Deep Optimal Transport for Image Restoration. Advances in Neural Information Processing Systems (NeurIPS), 11-17 October 2021.
[28] Li, B., Liu, X., Hu, P., Wu, Z., Lv, J. and Peng, X. (2022) All-in-One Image Restoration for Unknown Corruption. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, 18-24 June 2022, 17431-17441. [Google Scholar] [CrossRef
[29] Doersch, C., Gupta, A. and Efros, A.A. (2015) Unsupervised Visual Representation Learning by Context Prediction. 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, 7-13 December 2015, 1422-1430. [Google Scholar] [CrossRef
[30] van den Oord, A., Li, Y. and Vinyals, O. (2018) Representation Learning with Contrastive Predictive Coding. arXiv:1807.03748
[31] Lehtinen, J., Munkberg, J., Hasselgren, J., et al. (2018) Noise2Noise: Learning Image Restoration without Clean Data. International Conference on Machine Learning (ICML), Stockholm, 10-15 July 2018, 2965-2974.
[32] Krull, A., Buchholz, T. and Jug, F. (2019) Noise2Void: Learning Denoising from Single Noisy Images. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 15-20 June 2019, 2124-2132. [Google Scholar] [CrossRef
[33] Batson, J. and Royer, L. (2019) Noise2Self: Blind Denoising by Self-Supervision. International Conference on Machine Learning (ICML), Long Beach, California, 9-15 June 2019, 524-533.
[34] Quan, Y., Chen, M., Pang, T. and Ji, H. (2020) Self2self with Dropout: Learning Self-Supervised Denoising from Single Image. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 1887-1895. [Google Scholar] [CrossRef
[35] Huang, T., Li, S., Jia, X., Lu, H. and Liu, J. (2021) Neighbor2neighbor: Self-Supervised Denoising from Single Noisy Images. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 20-25 June 2021, 14776-14785. [Google Scholar] [CrossRef
[36] Rai, S.N., Saluja, R., Arora, C., Balasubramanian, V.N., Subramanian, A. and Jawahar, C.V. (2022) FLUID: Few-Shot Self-Supervised Image Deraining. 2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Waikoloa, 3-8 January 2022, 418-427. [Google Scholar] [CrossRef
[37] Moran, N., Schmidt, D., Zhong, Y. and Coady, P. (2020) Noisier2Noise: Learning to Denoise from Unpaired Noisy Data. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 12061-12069. [Google Scholar] [CrossRef
[38] Moran, N., Schmidt, D., Zhong, Y. and Coady, P. (2020) Noisier2Noise: Learning to Denoise from Unpaired Noisy Data. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, 13-19 June 2020, 12064-12072. [Google Scholar] [CrossRef
[39] Chen, T., Kornblith, S., Norouzi, M. and Hinton, G. (2020) A Simple Framework for Contrastive Learning of Visual Representations. International Conference on Machine Learning (ICML), 13-18 July 2020, 1597-1607.
[40] Zheng, Y., Zhan, J., He, S., Dong, J. and Du, Y. (2023) Curricular Contrastive Regularization for Physics-Aware Single Image Dehazing. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 5785-5794. [Google Scholar] [CrossRef
[41] Varghese, N. and Ambasamudram, R.N. (2023) Re-Degradation and Contrastive Learning for Zero-Shot Underwater Image Restoration. British Machine Vision Conference (BMVC), Aberdeen, 20-24 November 2023, 544-561.
[42] Wei, Y., Gu, S., Li, Y., Timofte, R., Jin, L. and Song, H. (2021) Unsupervised Real-World Image Super Resolution via Domain-Distance Aware Training. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 20-25 June 2021, 13380-13389. [Google Scholar] [CrossRef
[43] Wang, W., Zhang, H., Yuan, Z. and Wang, C. (2021) Unsupervised Real-World Super-Resolution: A Domain Adaptation Perspective. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 4318-4327. [Google Scholar] [CrossRef
[44] Guo, H., Li, J., Dai, T., Ouyang, Z., Ren, X. and Xia, S.-T. (2024) Parameter Efficient Adaptation for Image Restoration with Heterogeneous Mixture-of-Experts. Advances in Neural Information Processing Systems (NeurIPS), Vancouver, 10-15 December 2024 13522-13547.
[45] Li, X., Jin, X., Fu, J., Yu, X., Tong, B. and Chen, Z. (2021) Few-Shot Real Image Restoration via Distortion-Relation Guided Transfer Learning. arXiv:2111.13078.
[46] Valanarasu, J.M.J., Oza, P., Hacihaliloglu, I. and Patel, V.M. (2022) TransWeather: Transformer-Based Restoration of Images Degraded by Adverse Weather Conditions. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, Louisiana, 19-24 June 2022, 2354-2363.
[47] Ye, Y., et al. (2023) Test-Time Degradation Adaption for Open-Set Image Restoration. arXiv:2312.02197.
[48] Gao, J., Zhang, J., Liu, X., Darrell, T., Shelhamer, E. and Wang, D. (2023) Back to the Source: Diffusion-Driven Adaptation to Test-Time Corruption. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 11786-11796. [Google Scholar] [CrossRef
[49] Ruiz, N., Li, Y., Jampani, V., Pritch, Y., Rubinstein, M. and Aberman, K. (2023) Dreambooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 22500-22510. [Google Scholar] [CrossRef
[50] Hu, E.J., Shen, Y., Wallis, P., et al. (2021) LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685