1. 引言
高光谱图像凭借其“图谱合一”的特性和宽广的波段覆盖范围(通常包含数百个连续窄波段),能够精确捕捉不同地物类别的细微光谱特征。这种独特优势使其在以下领域发挥着关键作用:在农业领域[1],它可用于精准监测农作物生长状况、病虫害侵袭以及土壤肥力分布等,助力农业精细化管理,提升农作物产量与质量。在医疗方面,HSI能够辅助疾病诊断,通过分析人体组织或病变部位的光谱特征,实现早期疾病筛查与精准诊断。在遥感领域,可用于地质勘探,识别不同矿物质类型[2]与分布;在军事领域[3],则有助于目标探测与识别等。
在过去的几十年里,已经发展了一系列的特征提取方法。其中,线性变化模型,如主成分分析法(PCA) [4]、线性判别分析法(LDA) [5]等被广泛应用于高光谱图像的光谱特征提取。近些年,基于深度学习的分类方法被逐步应用于高光谱图像分类中。常见的网络模型有深度置信网络、堆叠式自动编码器、稀疏自编码器。但这类方法没有考虑高光谱图像目标的空间信息,影响了分类精度。基于卷积神经网络的高光谱分类方法中,最早由Hu等人[6]提出了一维卷积神经网络模型,直接在光谱区域中对高光谱图像进行分类;之后Zhao等人[7]提出了二维卷积神经网络,首先用PCA或者其他方法进行降维,再将数据输入到模型中,这些数据通过2D CNN来提取空间信息,最后结合光谱。由于2D CNN和1D CNN对空间特征和光谱特征的提取是分开进行的,为了能同时利用高光谱图像目标的空间信息和光谱信息,三维卷积神经网络(3D CNN)被提出[8]-[10],其用于学习目标的空间光谱联合特征。
基于以上的研究,本文提出一种基于空谱通道选择和Transformer的高光谱图像分类网络,该方法能有效提取高光谱图像的光谱和空间特征。
2. 基于空谱通道选择和Transformer的高光谱图像分类模型
本文所提出的SSCST网络整体框架图如图1所示,将原始高光谱图像数据
,其中H、W、B分别为高、宽和光谱通道数,使用滑动窗口切分为一个个小的三维立方体作为输入数据
,其中
为滑窗大小。输入数据经过空谱通道选择后,将具有类别空间–光谱特征表达能力的通道作为Transfomer编码器的输入,并经过一个线性输出最终分类结果。
Figure 1. Overall framework diagram of the SSCST network
图1. SSCST网络整体框架图
2.1. 空谱通道选择(SSCS)
Figure 2. Structure diagram of the spectral-spatial channel selection module
图2. 空谱通道选择模块结构图
Figure 3. (a) Conventional neighborhood embedding; (b) Adaptive neighborhood embedding
图3. (a) 普通邻域嵌入;(b) 自适应邻域嵌入
空谱通道选择模块结构图如图2所示,采用奇异谱分析的方式对高光谱数据高维通道数进行降维处理,可以分为嵌入–分解–分组–重构四个步骤。在嵌入部分,联合嵌入空间特征和光谱特征信息对于提高高光谱图像分类精度尤为重要,尤其是空间特征信息。为此,本文采用一种基于空间相似度的自适应嵌入窗口来进行空间信息嵌入,其结构图如图3(b)所示,其中虚线表示不同地物类别的边界。
以输入数据的某个空间位置内所有通道的像素
为中心,
大小为搜索区域,在该区域内以归一化欧式距离为度量标准,选取与
具有高度光谱相似度的
个像素构成矩阵
,并将其转换为轨迹张量
,可以用以下公式来表示:
(1)
所得到的轨迹张量包含了高光谱图像完整的空间和光谱特征信息,同时还保留并增强了关于
低秩特征。采用这种自适应嵌入方法,可以在不同地物目标类别边缘区域有效选取同类地物的像素值,筛选掉不同地物类别像素值,保证了类间差异。在分解阶段对
的光谱通道进行离散傅里叶变换,并进行SVD分析和逆傅里叶变换,其过程可以用以下公式来表示:
(2)
(3)
(4)
(5)
其中,
、
和
分别表示
的左奇异向量矩阵、奇异值和右奇异向量矩阵。在分组阶段对得到的
、
和
进行张量管道秩
截断来最大程度上剔除无用特征和利用张量的低秩和稀疏特征,其中
,可以用以下公式来表示:
(6)
(7)
(8)
在重构阶段,将
、
和
重构为
,并采用平均化的方式将其重映射为
,可以用以下公式来表示:
(9)
(10)
将B个光谱通道进行相邻通道划分,分为N组,每一组内的不同通道具有高度的光谱相关性,但这对后续利用Transformer编码器来进行特征提取可能造成特征冗余问题,因此采用归一化匹配滤波[11]的方法从每一组内选取一个高信噪比、高特征表达的通道来构建新的输入
,其过程可以用以下公式表示:
(11)
其中MF为归一化滤波函数;Concat表示在通道维度上进行拼接。
2.2. Transformer编码器(TE)
Transformer编码器的结构图如图1右侧所示,主要包含一个多头自注意力机制模块、一个MLP层和两个Norm层,将带有语义标记和位置信息的patch展平作为输入,采用自注意力机制(Self-Attention, SA)有效地捕获特征序列之间的相关性。预先初始化三个可学习权重矩阵
、
和
,并由此产生查询(Q)和键值对(K, V),SA的计算公式如下:
(12)
其中
表示K的维度。多头自注意力允许模型从不同的表示子空间和不同的位置共同关注信息,使用相同的操作得到多头注意力值,并将每个头部注意力的结果都连接在一起,这个过程可以表示为:
(13)
(14)
其中h为头的数量,W是参数矩阵,
,其中
(W为tokens的数量)。
多层感知机制模块由两个全连接层和一个非线性激活层组成,随后经过一个LN层改善梯度消失问题,最后通过一个线性层和softmax函数得到最终分类结果。
3. 实验结果与分析
3.1. 数据集的介绍及划分
Table 1. The numbers of training and testing samples for each class of targets in the Indian Pines and University of Pavia datasets
表1. Indian Pines和University of Pavia数据集中每类目标训练和测试样本的数量
NO |
India Pines |
University of Pavia |
Class |
Training |
Test |
Class |
Training |
Test |
1 |
Alfalfa |
4 |
42 |
Asphalt |
331 |
6300 |
2 |
Corn-notill |
142 |
1286 |
Meadows |
932 |
17717 |
3 |
Corn-mintill |
83 |
747 |
Gravel |
104 |
1995 |
4 |
Corn |
23 |
214 |
Trees |
153 |
2911 |
5 |
Grass Pasture |
48 |
435 |
Metal sheets |
67 |
1278 |
6 |
Grass Tree |
73 |
657 |
Bare soil |
251 |
4778 |
7 |
Grass pasture Mowed |
2 |
26 |
Bitumen |
66 |
1264 |
8 |
Hay Windrowed |
47 |
431 |
Bricks |
184 |
3498 |
9 |
Oats |
2 |
18 |
Shadows |
47 |
900 |
10 |
Soybean-notill |
97 |
875 |
|
|
|
11 |
Soybean-mintill |
245 |
2210 |
|
|
|
12 |
Soybean Clean |
59 |
534 |
|
|
|
13 |
Wheat |
20 |
185 |
|
|
|
14 |
Woods |
126 |
1139 |
|
|
|
15 |
Buildings Grass Trees |
38 |
348 |
|
|
|
16 |
Stone Steel |
9 |
84 |
|
|
|
|
Total |
1081 |
9231 |
Total |
2135 |
40641 |
为公平比较不同模型的分类性能,选取两个公开的高光谱数据集:Indian Pines (IP)和Pavia University (PU)来进行对比实验。
Indian Pines:著名的IP数据集,其覆盖美国印第安纳州西北部,由AVIRIS传感器获取,光谱范围为0.4~2.5 μm。场景大小为145 × 145像素,空间分辨率为20 m,光谱波段为220个。
Pavia of University:PU数据集通过反射式光学光谱成像光谱仪(ROSIS)捕获,光谱范围为0.43~0.86 μm。包含103个波段,大小为610 × 340像素,空间分辨率为每像素1.3 m。
在India Pines数据集中,将每个类别10%的高光谱子图作为训练集样本,其余的高光谱子图作为测试集样本。在University of Pavia数据集中,随机选取每个类别5%的高光谱子图作为训练集样本,其余的高光谱子图作为测试集样本。表1中详细列出了Indian Pines和University of Pavia数据集中每一类目标训练和测试样本的数目。
3.2. 对比模型
本文采用3D CNN [12]、2D CNN [13]、HybridSN [14]、SpectralFormer [15]和GAHT [16]等5种方法作为对比实验。比较方法的详细情况列举如下:
3D CNN:由两个3D卷积块(一个三维卷积层,一个批量重正化层和一个ReLU函数)和两个全连接层组成,直接对高光谱数据立方体(空间–光谱三维结构)进行三维卷积操作,同步提取空谱联合特征[12]。
2D CNN:主要是在高光谱图像的二维空间维度上进行卷积操作,通常将光谱信息视为通道信息,侧重于提取空间特征,对光谱特征的利用相对有限[13]。
HybridSN:是一种结合了3D CNN和2D CNN的混合网络。先使用3D CNN从光谱波段堆栈中提取联合空间–光谱特征,然后在其顶部使用2D CNN进一步学习更抽象的空间表示,以降低模型复杂度。
SpectralFormer:基于Transformer架构,利用自注意力机制建模光谱序列长程依赖关系。作为HSI的第一个变换网络,其采用分块版本,分块大小为7 × 7 [15]。通过使用Transformer和层间shortcut来捕获高光谱图像波段之间的谱序列信息,增强对高光谱图像的分类能力。
GAHT:该模型由三个卷积层、三个变压器、一个GAP层和一个用于分类的线性层组成。
3.3. 实验设置
为了与实验中使用到的对比模型进行公平比较,本章所有实验都在相同Pytorch环境、相同设备下进行,使用的处理器为Intel·Core·i5-12400F,内存为32 G,显卡是NVIDIA·RTX·3060·12 G。采用Adam优化算法来寻求损失函数最小值,将初始学习率设为5e-4并随着每十个epoch后以0.9来衰减,为保持一致性,在三个数据集上将epoch设置为200,批次大小设置为128。以Indian Pines数据集为例,实验输入为原始数据立方体样本,其尺寸为12 × 12 × 200。
3.4. 评价指标
采用了三种评价指标分析实验结果的准确性,分别为OA、AA和Kappa系数,都是通过建立混淆矩阵来反映真实结果与检测结果的一致性,计算公式分别为:
(15)
(16)
(17)
(18)
3.5. 结果分析
3.5.1. 定量分析
Table 2. Classification accuracies obtained by each comparative classification network model using 10% of the training samples on the Indian Pines dataset.
表2. 各对比分类网络模型在Indian Pines数据集上使用10%训练样本取得的分类精度
Class |
Convolution Based Networks |
Transformer Based Networks |
2D CNN |
3D CNN |
HybridSN |
SpectralFormer |
GAHT |
SSCST |
1 |
100 |
89.19 |
94.59 |
63.41 |
81.08 |
94.59 |
2 |
88.02 |
87.93 |
93.79 |
84.12 |
96.68 |
98.08 |
3 |
88.22 |
89.61 |
93.67 |
73.76 |
94.88 |
96.69 |
4 |
85.45 |
95.26 |
97.89 |
72.30 |
99.47 |
100 |
5 |
93.56 |
91.45 |
99.22 |
91.72 |
95.34 |
97.41 |
6 |
98.48 |
98.12 |
97.60 |
91.32 |
95.55 |
97.6 |
7 |
100 |
72.73 |
100 |
68 |
100 |
100 |
8 |
97.44 |
99.74 |
98.43 |
99.07 |
100 |
100 |
9 |
5.56 |
6.25 |
25 |
50 |
50 |
68.75 |
10 |
86.97 |
88.95 |
96.40 |
81.14 |
95.76 |
97.30 |
11 |
90.59 |
93.23 |
96.23 |
91.67 |
98.68 |
99.64 |
12 |
78.84 |
90.53 |
90.95 |
61.42 |
97.89 |
96.84 |
13 |
94.05 |
99.39 |
99.39 |
95.68 |
94.51 |
99.39 |
14 |
93.06 |
99.01 |
99.31 |
95.26 |
99.9 |
99.90 |
15 |
87.90 |
91.91 |
93.85 |
84.44 |
98.06 |
98.38 |
16 |
98.81 |
97.30 |
100 |
98.81 |
86.49 |
97.30 |
OA (%) |
90.17 |
92.83 |
96.02 |
86.34 |
97.23 |
98.45 |
AA (%) |
86.68 |
86.91 |
92.27 |
81.38 |
92.77 |
96.37 |
Kappa |
88.81 |
91.82 |
95.47 |
84.39 |
96.84 |
98.23 |
所有被选取用于对比的分类网络模型在Indian Pines数据集上的分类精度如表2所示。本章所提出的SSCST分类网络模型在Grass-Pasture-Mowed、Hay Windrowed和Corn类别上的分类精度都达到了100%。GAHT分类网络模型在Grass-Pasture-Mowed和Hay Windrowed类别上也取得了100%的分类精度,然而在Corn类别上的分类精度只有99.47%。HybridSN分类模型在Grass-Pasture-Mowed类别上的分类精度达到了100%,但在Hay Windrowed和Corn类别上的分类精度只有97.89%和98.43%。
通过分析各个对比分类网络模型在Indian Pines数据集上的分类结果可以发现,SSCST分类网络模型在Grass-Pasture-Mowed、Hay Windrowed和Corn类别上都取得了更优的分类结果。整体来说,SSCST在Indian Pines数据集上的OA、AA和Kappa系数都高于3D CNN、2D CNN、HybridSN、SpectralFormer 和GAHT网络模型,SSCST在Indian Pines数据集上的OA、AA和Kappa系数分别提升了8.28%、14.99%和13.84%。
Table 3. Classification accuracies obtained by each comparative classification network model using 5% of the training samples on the University of Pavia dataset.
表3. 各对比分类网络模型在University of Pavia数据集上使用5%训练样本取得的分类精度
Class |
Convolution Based Networks |
Transformer Based Networks |
2D CNN |
3D CNN |
HybridSN |
SpectralFormer |
GAHT |
SSCST |
1 |
98.48 |
98.20 |
99.69 |
96.38 |
99.94 |
99.59 |
2 |
99.73 |
99.90 |
99.97 |
99.95 |
100 |
99.98 |
3 |
94.65 |
93.58 |
98.65 |
91.34 |
99.74 |
99.03 |
4 |
99.31 |
98.23 |
94.75 |
96.98 |
97.82 |
98.56 |
5 |
100 |
99.43 |
99.76 |
100 |
99.92 |
100 |
6 |
99.69 |
98.10 |
100 |
98.59 |
99.96 |
100 |
7 |
94.65 |
93.87 |
100 |
90.14 |
100 |
99.92 |
8 |
95.68 |
96.81 |
98.58 |
93.98 |
98.22 |
98.86 |
9 |
98.24 |
99.20 |
95.98 |
95.57 |
96.37 |
97.28 |
OA (%) |
98.72 |
98.51 |
99.28 |
97.69 |
99.58 |
99.62 |
AA (%) |
97.83 |
97.48 |
98.60 |
95.88 |
99.11 |
99.25 |
Kappa |
98.30 |
98.02 |
99.04 |
96.93 |
99.44 |
99.49 |
本文提出的SSCST分类网络模型在Bare Soil和Metal Sheets类别上取得了最高的分类精度。在Bricks类别的分类结果中,SSCST分类网络模型得到的分类精度最高为98.86%,通过分析各个对比分类网络模型在University of Pavia数据集上的分类结果,如表3所示。可以发现,SSCST在University of Pavia数据集上的OA、AA和Kappa系数都高于2D CNN、3D CNN、HybridSN、SpectralFormer和GAHT。
3.5.2. 可视化分析
Figure 4. Classification maps of target pixels in the Indian Pines hyperspectral image by different comparative network models: (a) Pseudo-color image of the IP dataset; (b) True image; (c) 2D CNN; (d) 3D CNN; (e) GAHT; (f) HybridSN; (g) SpectralFormer; (h) Classification map obtained by SSCST
图4. 各对比分类网络模型对Indian Pines高光谱图像中目标像元的分类映射图:(a) IP数据集的伪彩色图像;(b) 真实图像;(c) 2D CNN;(d) 3D CNN;(e) GAHT;(f) HybridSN;(g) SpectralFormer;(h) SSCST得到的分类图
图4显示了2D CNN、3D CNN、HybridSN、SpectralFormer、GAHT和SSCST分类模型在Indian Pines数据集上的分类映射图。图中可以看出SSCST在Indian Pines高光谱图像各类目标区域的分类映射图中,目标区域边缘比其他分类网络模型的分类映射图更为完整。各个类别的目标区域中被错误分类为相邻类别目标的区域较少,因此说明SSCST可以有效地对相邻类别目标区域进行分类,从而有效地解决由于相邻类别目标之间光谱信息的高相似性导致网络模型分类性能受限的问题。
Figure 5. Classification maps of target pixels in the University of Pavia hyperspectral image by different comparative network models: (a) Pseudo-color image of the PU dataset; (b) True image; (c) 2D CNN; (d) 3D CNN; (e) GAHT; (f) HybridSN; (g) SpectralFormer; (h) Classification map obtained by SSCST
图5. 各对比分类网络模型对University of Pavia高光谱图像中目标像元的分类映射图:(a) PU数据集的伪彩色图像;(b) 真实图像;(c) 2D CNN;(d) 3D CNN;(e) GAHT;(f) HybridSN;(g) SpectralFormer;(h) SSCST得到的分类图
从图5可以看出,在SSCST对University of Pavia高光谱图像各类目标区域的分类映射图中,分散目标区域中被错误分类的数量更少。除此之外,各个类别的目标区域中被正确分类的目标数量更多,并且各个类别的目标区域边界更加完整,因此可以有效地统一高光谱图像中各个目标区域多样的空间信息,从而能够有效地解决由于相同类别目标之间空间信息多样性导致的网络模型分类性能受限的问题。
本文方法在2个数据集上的OA、AA和Kappa系数均为最高,相比于对比方法提升明显。
3.6. 消融实验
为验证SSCST网络中两个模块的有效性,在University of Pavia数据集上进行消融实验,实验结果如表4所示。第一组实验中采用SVM来进行分类,第二组实验中只采用Transformer编码器和线性层进行分类,第三组实验采用空谱通道选择后利用SVM来进行分类,第四组实验为完整的SSCST模型分类。结果表明,第四组取得了最佳分类效果,验证了空谱通道选择模块结合Transformer编码模块的有效性。
Table 4. Ablation experiments conducted on University of Pavia dateset
表4. 在University of Pavia数据集上进行消融实验
Cases |
Component Metric |
SSCS |
TE |
OA (%) |
AA (%) |
K (%) |
1 |
× |
× |
82.75 |
77.73 |
80.68 |
2 |
× |
√ |
84.85 |
82.68 |
83.12 |
3 |
√ |
× |
92.43 |
86.71 |
91.86 |
4 |
√ |
√ |
98.45 |
96.37 |
98.23 |
4. 实验结论
为充分挖掘高光谱图像中包含的空谱信息,本文提出了一种基于空谱通道选择和Transformer的高光谱图像分类网络。首先,利用自适应的空谱通道选择方法来提取类别边缘特征并保留具有高度类别特征表达能力的光谱通道,从而解决Transformer对局部空间特征关注不足和特征冗余的问题,再利用Transformer来提取空间光谱特征并进行分类。在Indian Pines (IP)和University of Pavia数据集上进行了实验,并与2D CNN、3D CNN、HybridSN、SpectralFormer、GAHT等方法进行对比分析。结果表明,与其他分类的方法相比较,本文提出的方法在精度上达到了最高,有效地证明了本文方法的实用性。