1. 引言
遥感图像分类是遥感技术中的一项核心任务,其主要目的是根据图像的光谱、空间和纹理信息对地表物体进行分类。随着遥感技术的迅猛发展,遥感图像的分辨率和数据量显著增加,如何从这些海量且复杂的数据中提取有用的信息,成为了遥感图像分析领域的重要研究方向。然而,传统的遥感图像分类方法往往依赖于人工设计的特征和规则,面对复杂多变的地物类别、环境条件以及图像噪声时,其分类精度和泛化能力往往受限[1]。近年来,深度学习方法因其出色的特征学习能力和较强的非线性建模能力,成为了遥感图像分类研究的主流技术[2] [3]。
尽管深度学习在遥感图像分类中取得了显著成果,但其通常需要大量的标注数据进行训练,而标注遥感图像是一项昂贵且耗时的工作[4]。为了解决这一问题,元学习(Meta-Learaning)作为一种解决小样本学习问题的有效方法,近年来在遥感图像分类领域引起了广泛关注[5]。元学习的基本思想是通过学习如何学习,利用少量的标注样本进行有效的学习,具有较强的泛化能力和快速适应新任务的潜力。在众多元学习算法中,Model-Agnostic Meta-Learning (MAML)被认为是一种具有广泛应用前景的元学习方法[6]。
MAML方法的核心思想是通过在多个任务上进行训练,学习到一个能够快速适应新任务的初始模型参数。与传统的深度学习方法不同,MAML不仅关注如何优化模型的损失函数,还通过对任务间的共享知识进行建模,优化模型的初始参数,从而使得模型能够在给定少量训练样本的情况下,迅速调整并适应新的任务[7]。在遥感图像分类中,MAML能够在只有少量标注样本的情况下,通过微调快速实现高效的分类效果[8]。因此,基于MAML的遥感图像分类方法,尤其是通过改进MAML算法来提高其性能,成为了当前遥感图像分类研究中的一个重要方向。
尽管MAML在一些领域取得了显著成效,但其在遥感图像分类中的应用仍然面临一些挑战。首先,遥感图像具有高度的空间相关性和复杂的光谱信息,这使得分类任务的多样性和复杂性大大增加[9]。其次,由于遥感图像通常涵盖了广泛的地理区域,且受气候、季节和光照等环境因素的影响,任务间的差异性和跨域迁移问题较为突出[10] [11]。为了解决这些问题,研究者们提出了一些基于MAML的改进方法,如结合注意力机制、数据增强、正则化等技术来进一步提高模型的性能和鲁棒性[12] [13]。
本文提出了一种基于MAML改进方法的遥感图像分类方法,旨在提高模型在少样本条件下的分类性能,并解决遥感图像中存在的跨域迁移和类别不平衡等问题。首先,针对遥感图像数据的特点,我们对MAML进行了改进,结合扩散模型(Diffusion Model)增加遥感图像的样本数量,同时通过改进的MAML模型中梯度更新策略有效提升模型对少量标注样本的适应能力。其次,本文还结合导数顺序退火(DA),通过不同阶段采用不同阶的导数更新MAML网络,提高了泛化性能和鲁棒性。
本文的贡献主要体现在以下几个方面:首先,提出了一种基于MAML改进的遥感图像分类方法,通过结合Diffusion Model和改变MAML梯度更新策略,提升了模型的分类精度和泛化能力。其次,针对遥感图像的多样性和复杂性,提出了一种新的有效的跨域迁移方法,显著提高了模型在不同数据集和环境条件下的适应能力。最后,通过大量实验验证了改进方法在遥感图像分类中的优越性,证明了基于MAML的元学习方法在遥感图像分析中的潜力和前景。
总之,基于MAML的遥感图像分类方法为遥感图像分析提供了新的思路,并为实现高效、准确的遥感图像分类提供了有效的技术支持。随着遥感技术和人工智能算法的不断发展,未来基于元学习的遥感图像分类方法将会在更多实际应用中发挥重要作用。
2. 模型与方法
2.1. 扩散模型
扩散模型(Diffusion Models)是一类生成模型,近年来在图像生成、视频合成和信号处理等领域取得了显著进展。扩散模型的核心思想源于非平衡热力学过程,其基本原理可以理解为在潜在空间中对数据进行逐步加噪和去噪的过程。模型通过一个前向扩散过程(Forward Diffusion)逐步将数据分布转化为标准高斯分布,再通过一个学习到的逆扩散过程(Reverse Diffusion)逐步将高斯噪声还原为真实数据分布[14]。
扩散模型的训练目标是在前向扩散过程中加入逐步增加的随机噪声,并学习如何通过逆向过程去除噪声,以恢复原始数据。这一逐步生成的机制使得扩散模型在生成复杂、高分辨率数据方面表现优异,能够生成高度逼真的图像和多模态输出,如图1所示。
与生成对抗网络(GANs)和变分自编码器(VAEs)等生成模型相比,扩散模型具有更强的稳定性和更高的生成质量。GANs训练过程中常面临模式崩溃和训练不稳定等问题,而扩散模型由于采用了分阶段生成方式,避免了这些问题。此外,扩散模型在文本到图像生成(如DALL·E 2)、音频生成和医学影像合成等领域均展现出强大的能力[14]。
总之,扩散模型作为生成模型的新兴代表,凭借其稳定性、高质量生成以及广泛的应用场景,正逐渐成为生成式人工智能研究的前沿方向之一。
Figure 1. Schematic diagram of the diffusion model
图1. 扩散模型示意图
2.2. MAML
MAML (Model-Agnostic Meta-Learning)是一种通用的元学习算法,旨在提高模型快速适应新任务的能力,尤其适用于小样本学习场景。MAML的核心思想是通过多个任务的训练,学习一个能够快速适应新任务的模型参数初始化。这种方法的独特之处在于其与具体的模型架构无关,可以应用于多种模型和任务类型,包括分类、回归以及强化学习等[6]。
在传统机器学习中,模型的训练过程通常基于固定的数据集,通过反复的迭代优化,使模型在当前任务中表现出色。然而,当模型面对一个全新的任务时,由于任务之间的差异性,往往需要重新从头训练模型,既耗时又需要大量的标注数据。相比之下,MAML从多个相关任务中学习通用的知识,优化模型参数,使其具备较强的初始性能,从而能够通过少量样本快速适应新任务。
MAML的训练过程分为两个阶段:外层优化(Outer Loop)和内层优化(Inner Loop)。在外层优化中,模型从多个任务中抽取训练任务,并通过内层优化对每个任务进行快速适应。具体来说,对于每个任务,模型利用少量训练样本对当前任务进行一轮或几轮的梯度更新(内层优化),然后根据更新后的模型参数在验证集上的损失反向传播,调整初始参数(外层优化)。这一过程中,外层优化目标是找到一组初始参数,使得模型在最少的更新步骤内能够在新任务上表现良好[6]。
MAML在多个领域的应用中表现优异。比如,在图像分类任务中,MAML能够在少样本场景下,快速学习新的图像类别;在强化学习任务中,MAML能够让智能体快速适应新的环境。
总之,MAML作为元学习领域的经典算法,在解决小样本学习和快速适应问题上具有重要意义。未来,随着计算能力的提升和新算法的不断出现,MAML及其变体将在更多领域发挥作用。
通过之前的描述,我们对于MAML的背景已经有了一定的了解,下面我们来探索MAML中的一些细节问题。假设,我们的模型为f,并且其可以通过参数
来进行描述,即
。这里,我们定义一些相关的任务T,T中任务的分布概率为
。
首先,我们先用随机值对于参数
进行随机的初始化。进一步,我们通过概率分布
对于任务集合中的任务进行采用,这里选择个相关任务,作为一个batch,即表达为
。然后,对于每一个任务
,我们可以采用k个样本点来训练这个模型。至此,根据每一个任务,我们可以计算出来其损失函数
,我们通过梯度下降来最小化这个损失,寻找能够使得的损失函数最小的参数,即:
对于T中5个任务都进行计算之后,我们可以获得各个任务的相对最优的参数集合,即
。在采样下一个batch的任务之前,我们使用一个元更新或者元优化的策略。在之前的一步中,我们通过梯度下降计算出了相对最优的参数
,并且通过任务
中的参数对应的梯度,来更新了我们初始化的随机参数
,这使得我们初始随机的参数
移动到了一个相对最优的位置。在一个批次的任务训练中,减少了梯度下降的步数,这一步被称为“元步”、“元更新”、“元优化”或者“元训练”。通过公式,可以将其描述为:

在上述的公式中,
表示的是初始化的参数,
表示的是一个超参数。
表示的是通过参数
所计算出来的关于任务
的梯度结果。这里,我们可以进一步地使用对于各个任务的相对最优参数
对于的梯度和的平均值来进行计算。
最后,我们对于MAML算法的流程进行一下简单的总结。MAML算法一共可以分成两个循环,其中一个内部循环被用来确定当前任务集合中的各个任务对应的最优参数
。外层的循环用于通过内层计算出来的最优参数对应的梯度来更新我们的初始的随机参数
。我们使用一张图来描述一下这个过程,如图2所示。
Figure 2. MAML structure
图2. MAML结构图
在这个基础上,MAML原模型通过多个卷积层,梯度多次被相同的参数相乘,容易出现梯度爆炸和梯度消失,将外循环的更新由原来完成内循环再进行更新变为内循环每进行一步就计算损失,利用每一步损失的加权和更新,公式如下:

表示学习率
B任务总数
N内循环更新步数
表示第i步的重要程度
表示损失函数
MAML中为了提高计算效率使用一阶导数来进行整个训练,这是影响模型泛化的主要原因之一。我们通过实验发现前五十epoch使用一阶导数,然后再转为使用二阶导数可以得到不错的效果,而且没有梯度爆炸和梯度消失,相比只是用二阶导数更稳定。
3. 实验与分析
3.1. 数据集介绍
本研究采用了公开遥感数据图像数据集UC Merced Land-Use [15]和NWPU-RESISC45 [16]进行了遥感图像分类实验,其中UC Merced Land-Use Dataset是一个用于研究的图像遥感数据集,共拥有100类图像,均提取自USGS National Map Urban Area Imagery系列,其被用于全国各地的城市地区。此数据集公共领域图像的像素分辨率为1英尺,图像像素大小为256 × 256,包含21个类别的场景图像,共计2100张,其中每个类别有100张,如图3所示。
Figure 3. UC Merced Land-Use dataset
图3. UC Merced Land-Use数据集
NWPU是一个遥感影像数据集,其中NWPU-RESISC45 Dataset是由西北工业大学创建的遥感图像场景分类可用基准,该数据集包含像素大小为256 × 256,共计31,500张图像,涵盖45个场景类别,其中每个类别有700张图像。这45个场景类别包括飞机、机场、棒球场、篮球场、海滩、桥梁、丛林、教堂、圆形农田、云、商业区、密集住宅、沙漠、森林、高速公路、高尔夫球场、地面田径、港口、工业地区、交叉口、岛、湖、草地、中型住宅、移动房屋公园、山、立交桥、宫、停车场、铁路、火车站、矩形农田、河、环形交通枢纽、跑道、海、船舶、雪山、稀疏住宅、体育场、储水箱、网球场、露台、火力发电站和湿地,部分如图4所示。
Figure 4. NWPU-RESISC45 dataset
图4. NWPU-RESISC45数据集
Mini-ImageNet是一个广泛用于元学习和小样本学习(Few-Shot Learning)的数据集,由Vinyals等人在2016年提出[17]。它是从著名的ImageNet数据集中抽取的一个子集,旨在提供一个计算资源友好且任务多样的数据集,以便研究者能更有效地开发和测试元学习算法。
Mini-ImageNet包含100个类别,每个类别有600张图像,总计60,000张图像。图像的分辨率为84 × 84,保留了ImageNet数据集丰富的视觉多样性。
3.2. 数据预处理
在实验过程中,训练模型对原始数据进行一系列变换和扩充的技术来进行数据增强。其主要目的是增加训练数据的多样性,提高模型的泛化能力。本研究中采用的数据增强除了包括随机裁剪、颜色抖动、随机翻转,图像归一化等,还使用扩散模型(Diffusion Model)。根据已有图像对图像总量进行扩充,并且只增加了30%的图片数量,其中也包含有较多噪声的图片,如图5~8所示。用这种方式对数据进行增强,提高了模型的鲁棒性,减少了过拟合的风险。
Figure 5. Random cropping
图5. 随机裁剪
Figure 6. Random rotation
图6. 随机旋转
Figure 7. Colour dithering
图7. 颜色抖动
Figure 8. Diffusion model to generate additional image samples
图8. 扩散模型生成额外图像样本
3.3. 参数设置与实验环境
模型训练阶段,本实验采用基于MAML进行改进的遥感图像分类模型,并在Mini-ImageNet数据集上同样也进行训练和测试模型效果。
所有训练过程均在配备24 GB显存的NVIDIA GeForce RTX4090显卡上进行。该显卡拥有足够的显存支持高分辨率的视觉模型训练。通过优化显存利用,使实验能够高效地实施。
3.4. 实验结果
在表1~3中,展示了实验模型分别在公开遥感数据图像数据集UC Merced Land-Use [15]、NWPU-RESISC45 [16]和Mini-ImageNet [17]的分类实验效果,并且与遥感分类领域的其他模型进行了对比,可以看出本模型的分类效果要优于所展示的其他比较模型,证明了我们的模型在针对遥感图像的特征提取与模型性能方面都有了较好的提升。
Table 1. Comparison of UC Merced experimental results
表1. UC Merced实验结果对比
Method |
UC Merced |
Accuracy |
SGUFL |
82.72 ± 1.18 |
Part Model-Based Method |
88.76 ± 0.79 |
SCDAE |
93.7 ± 1.3 |
GBRCN |
94.53 |
Fusion by Addition |
97.42 ± 1.79 |
MCNN |
96.66 ± 0.9 |
MARTA GANs |
94.86 ± 0.80 |
Attention GANs |
97.69 ± 0.69 |
Ours |
98.06 ± 0.56 |
Table 2. Comparison of NWPU-RESISC45 experimental results
表2. NWPU-RESISC45 实验结果对比
Method |
NWPU-RESISC45 |
Accuracy |
BoCF |
84.32 ± 0.17 |
MSCP |
90.81 ± 0.13 |
D-CNNs |
91.89 ± 0.22 |
SF-CNN |
92.55 ± 0.14 |
MARTA GANs |
75.03 ± 0.28 |
Attention GANs |
77.99 ± 0.19 |
Ours |
95.76 ± 0.35 |
Table 3. Comparison of Mini-ImageNet experiment results
表3. Mini-ImageNet实验结果对比
Method |
Mini-ImageNet |
Accuracy |
Matching Nets |
43.56 ± 0.17 |
Meta-SGD |
50.47 ± 0.13 |
Meta-Networks |
49.21 ± 0.22 |
MAML |
48.70 ± 0.14 |
Ours |
51.26 ± 0.26 |
4. 总结
针对遥感图像分类任务,本文在现有的元学习MAML原型网络算法的基础上,提出了一种结合扩散模型(Diffusion Model)数据增强和对原MAML模型结构进行优化修改的新型模型结构。其中,结合扩散模型(Diffusion Model)对数据进行增强,提高了模型的泛化性与鲁棒性,使用优化后的MAML模型增强了对遥感图像深度特征提取的能力,加强模型对遥感图像不同类别之间差异的针对性;采用Mini-ImageNet数据集也进行对比实验,显示模型具有多样性、适应小规模数据集、快速迭代等优点。
实验证明,改进后的分类模型在公开遥感数据图像数据集UC Merced Land-Use [15]和NWPU-RESISC45 [16]分别取得了98.06 ± 0.56和95.76 ± 0.35的预测精度,能够满足遥感图像分类的任务需求,并相较于同领域的其他模型有了较好的性能提升,也为元学习原型网络方法应用于遥感图像分类领域提供了创新的思路。
致 谢
我们衷心感谢甘肃省计算中心提供的计算资源和技术支持。本研究中的大量计算工作是在该中心完成的,这对本文的顺利完成起到了至关重要的作用。
基金项目
甘肃省科技计划资助项目(24YFFA055, 22JR5RA797)、甘肃省云计算重点实验室开放课题(2023KFKT-005)和甘肃省重点人才项目APC:“‘东数西算’场景下的后量子数据加密传输机制研究”。
NOTES
*第一作者。
#通讯作者。