基于U-Net和跨特征图注意力机制的高压电线分割方法

doi:10.12677/jisp.2025.142019

期刊菜单

基于U-Net和跨特征图注意力机制的高压电线分割方法
A High-Voltage Power Line Segmentation Method Based on U-Net with Across-Feature Graph Attention Mechanism

DOI: 10.12677/jisp.2025.142019, PDF, HTML, XML,
作者: 陈梦洁, 洪智勇^*, 熊利平^*：五邑大学电子与信息工程学院，广东江门
关键词: 高压电线；语义分割；跨特征图注意力机制；U-Net；High-Voltage Power Line； Semantic Segmentation； Across-Feature Map Attention Mechanism； U-Net

摘要: 高压电线巡检对电网维护至关重要，它直接关系到电力系统的安全和人们的日常生活。随着机器学习和深度学习技术的不断发展，图像中高压电线的分割成为了智能巡检领域的研究热点。然而，由于背景复杂、对比度低以及高压电线在图像中占比小等因素，传统的高压电线分割方法往往难以达到理想的精度。为了解决这一问题，本研究在U-Net网络中引入了跨特征图注意力(Across-Feature Map Attention)机制，以增强网络对细小目标特征的学习能力。实验结果表明，在U-Net的第二层深度处加入该注意力机制后，与原始U-Net相比，准确率提高了6.35%，召回率提高了14.84%，F1分数提高了11.05%。

Abstract: High-voltage power line inspection is crucial for grid maintenance, which is directly related to the safety of the power system and people’s daily lives. With the advancement of machine learning and deep learning technology, the segmentation of high-voltage power lines in images has become one of the research hotspots in intelligent inspection. However, due to factors such as complex background, low contrast, and the small proportion of high-voltage power lines in images, traditional high-voltage power line segmentation methods often make it difficult to achieve the desired accuracy. To solve this, this study introduces the Across-Feature Map Attention mechanism into the U-Net network to enhance the network’s ability to learn fine target features. The experimental results show that the U-Net with this attention mechanism added at the second layer depth outperforms the original U-Net, showing a 6.35% improvement in accuracy, a 14.84% increase in recall, and an 11.05% rise in the F1 score, respectively.

文章引用：陈梦洁, 洪智勇, 熊利平. 基于U-Net和跨特征图注意力机制的高压电线分割方法[J]. 图像与信号处理, 2025, 14(2): 199-212. https://doi.org/10.12677/jisp.2025.142019

1. 引言

高压电线巡检是电网维护的重要组成部分，这直接关系到人们日常生活中的电力安全。由于高压电线塔通常位于偏远地区，传统的人工维护不仅不便，而且风险较高。随着社会智能化水平的不断提升，电力部门已经引入了多种智能巡检手段，例如使用无人机等智能设备对高压电线进行近距离拍摄，并通过相应的算法对影像进行分割和检测，实现远程自动监控，从而减少人力和物力的投入[1]。但是要想高效、准确地完成智能巡检，必须确保分割的精确度。因此，研究一种可靠且高效的高压电线分割方法具有重要意义。

传统的数字图像处理方法通常结合边缘检测算子与Hough变换来设计高压电线的分割算法，这类方法能够有效检测线性结构。然而，高压电线在图像中并不总是呈现直线。此外，此类方法易受到线性噪声的干扰，需较繁琐的后处理步骤来滤除噪声并对结果进行平滑。

为减少繁琐后处理并提高算法的速度和精度，基于深度学习的语义分割方法提供了一条有效途径。然而，这些方法也存在一定局限性。一方面，监督式分割任务通常需要大规模、涵盖多种背景和光照条件的数据集才能获得较高的检测精度。目前公开的带有像素级标注的导线数据集仍相对匮乏。另一方面，许多神经网络中的特征提取模块，如U-Net [2]包含的池化层，这可能导致特征信息丢失，不利于对占像素比例小、线条狭窄的高压电线进行分割。

基于以上问题，本文首先提供了一个全新的高压电线数据集。通过调整公开TTPLA数据集的掩码[3]，并对收集到的142张未标注图像进行精细标注，最终构建了HighVoltagePowerLine数据集。同时，在U-Net模型引入跨特征图注意力(Across-feature Map Attention, AFMA)机制[4]来弥补特征信息的损失。AFMA通过计算中间特征块与图像块之间的互相关矩阵，有效表示同一类别目标之间的相似性。将其引入U-Net后，所提出的AFMA-UNet网络能够更好地学习细小目标(如高压电线)的特征。此外，还采用多重损失函数的联合训练方式，以进一步提高AFMA-UNet的检测精度。

综上所述，本研究的主要贡献如下：

1) 本文新引入了一个高压电线数据集。该数据集包含对公开TTPLA数据集掩码的调整，以及对142张图像进行精细标注后形成的HighVoltagePowerLine数据集。

2) 将跨特征图注意力机制整合到U-Net模型中，有助于网络更好地学习小目标特征，从而提升高压电线分割的精度。

3) 引入了AFMA损失函数，用于度量标准AFMA与预测AFMA之间的差异，从而强化模型的优化过程。

2. 相关工作

2.1. 基于传统图像处理的高压电线分割

传统数字图像处理方法分割高压电线的分割通常分为两个步骤：第一步通过自适应阈值、边缘检测算子或小波变换等方式获取导线的边缘信息；第二步则利用Hough变换、Radon变换或自定义曲线方程等方法获得导线的线性方程。Du等人设计了一种新的贝叶斯分类器，并将图像像素颜色作为信息源来计算概率[5]。通过Hough变换获取的光照信息，可用于确定传统贝叶斯分类器的先验概率和后验概率。Zhu等人采用改进的双边滤波方法来增强线状结构的对比度，随后利用Radon变换检测直线，并通过导线间平行性约束来确定电力线[6]。Song等人提出了一种有序的由局部到全局的电力线检测算法[7]。在他们的工作中，首先利用匹配滤波及高斯一阶导数获得边缘图，然后使用形态学滤波筛除所有线状片段，最后基于图论方法将候选的线状片段组合成完整的电力线。Ceron等人则先使用Canny滤波器和可调节向量滤波方法对电力线进行分割，然后通过基于圆的搜索策略在图像中检出两有效点以确定直线[8]。总体而言，传统方法原理相对简单，但易受环境干扰影响，且需要人工调整大量参数，因而难以获得稳定的分割效果。

2.2. 基于深度学习的语义分割

近年来，随着计算机硬件和相关技术的不断发展，深度学习算法在图像处理领域广受关注[9]。与传统方法不同，基于深度学习的算法能够利用深层语义信息，在语义分割[10] [11]和目标识别[12] [13]等方面展现出显著优势。

语义分割需要对每个像素进行分类，既需要高层次的抽象信息，也需要细节化的局部特征。早期的方法相对简单，直到2015年Long等人[14]提出了全卷积网络(Fully Convolutional Network, FCN)，才首次实现了逐像素分类。FCN通过将全连接层转换为卷积层来适应多种尺寸的输入，并生成相应的特征图。该网络采用编码–解码架构，使用VGG-16进行编码，通过跳跃连接和可学习的反卷积(转置卷积)方式进行解码上采样。随后，SegNet [15]与U-Net [2]进一步发展了编码–解码结构。SegNet采用最大池化索引来完成上采样从而恢复特征，而U-Net则利用跳跃连接以及转置卷积进行上采样。2016年，Zhao等人[16]提出了PSPNet，其核心在于引入金字塔池化模块，用于在不同尺度下进行全局感知，从而在需要大量上下文信息的场景下进一步提升网络性能。DeepLab系列网络采用空洞卷积结构，在不增加参数的情况下实现多尺度信息的获取。DeepLabV1 [17]和DeepLabV2 [18]借助条件随机场(Conditional Random Fields, CRF) [19]进行后处理来提高边界精度；DeepLabV3 [20]则通过引入空洞空间金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)进一步提升分类准确率。Lin等人[21]提出的RefineNet则在解码模块中融合了高分辨率的编码器特征和低分辨率的解码器特征，从而获得更加精细的语义分割结果。

2.3. 基于深度学习的电线分割

近年来，为了进一步提高高压输电线分割的速度与精度，深度学习技术也被引入到该领域中。Madaan等人[22]基于VGG16网络设计了一种面向嵌入式系统的神经网络，通过空洞卷积来增大感受野，并利用网格搜索对模型进行优化。Wang等人[23]以DeepLabV3+为基础，为高压电缆特征设计了一个复杂的解码器，并提出了改进的DeepLabV3+解码器版本。Zhang等人[24]采用简化版VGG16提取特征，通过双线性插值的分层上采样并融合结构化信息，实现了输电线边缘的细粒度检测。Dai等人[25]提出了基于卷积神经网络的快速电缆检测算法，结合编码–解码结构、功能子网以及后聚类模块，既能支持新的样本匹配，又能提高预测精度。Choi等人[26]基于弱监督学习开发了一种两阶段导线检测算法，第一阶段用于生成初步标注图像，第二阶段则在此基础上进行迭代训练以进一步细化导线分割结果。

总体而言，基于深度学习的语义分割方法虽然在精度和检测速度方面具有优势，但仍然存在一些不足之处。首先，监督式学习对于检测精度的要求较高，往往需要包含多种背景与光照条件的大规模数据集，但目前公开的带有像素级标注的输电线数据集较少。其次，像U-Net这样的神经网络在特征提取模块中通常包含下采样层(如池化层)，可能会导致部分特征信息丢失，不利于分割像素占比小、线条狭窄的输电线目标。

3. 具体改进方法

3.1. 基于跨特征图注意力的UNet

自2015年由Ronneberger等人提出以来，U-Net网络在图像分割领域得到了广泛应用[2]。U-Net采用编码器-解码器结构，编码器通过逐步压缩图像尺寸来提取边缘信息并捕捉深层语义特征，而对应的解码器则负责恢复图像特征的空间信息，实现端到端的高压输电线图像检测。此外，U-Net通过跳跃连接巧妙地融合浅层特征与深层特征，为图像分割任务提供多尺度的语义信息。

在此基础上，本文为了弥补特征信息的丢失，提出将跨特征图注意力机制(AFMA) [4]引入U-Net中。AFMA以U-Net编码器的输出作为输入，通过计算注意力图来调节解码器的输出，从而进一步提高分割精度。在训练过程中，损失函数由两部分组成：交叉熵损失和AFMA损失。这里，AFMA损失通过计算预测的AFMA与预设标准之间的差异来优化注意力机制的准确性。我们提出的模型AFMA-UNet，即集成了跨特征图注意力机制的U-Net结构，如图1所示。为了更好地理解AFMA [4]，后文将对其原理进行详细说明。

在此基础上，为了弥补特征信息的损失，本文将文献[4]中提出的跨特征图注意力机制(Across-Feature Map Attention, AFMA)引入U-Net。AFMA以U-Net编码器的输出为输入，并将计算得到的注意力图(attention map)用于调制解码器的输出，从而进一步提升分割精度。在训练过程中，损失函数由两部分构成：交叉熵损失和AFMA损失。其中，AFMA损失通过计算预测的AFMA与预设标准之间的差异来优化注意力机制的准确性。将跨特征图注意力机制整合到U-Net结构后所得到的模型称为AFMA-UNet，其结构如图1所示。为了更好地理解AFMA [4]，后文将对其原理进行详细说明。

Figure 1. The Overall Architecture of Our Network AFMA-UNet

图1. AFMA-Unet模型的总体架构

3.2. 跨特征图注意力机制

跨特征图注意力(Across-Feature Map Attention, AFMA)机制在减轻特征传播过程中信息损失方面具有至关重要的作用。其基本原理是通过评估特征图各块与原始图像对应块之间的相关性，从而显著提升分割任务的整体性能，尤其在小目标分割的精度上表现突出。

3.2.1. 编码器部分

跨特征图注意力在编码器部分的主要作用是生成注意力特征图(AFMA)，其过程可分为三个步骤，对应于图1中标记的①②③。

步骤1：初始特征提取。首先，对输入图像I进行初步处理。具体而言，先使用包含64个滤波器的7 × 7卷积层提取输入图像的初步特征，然后再使用只包含1个滤波器的3×3卷积层来提取基础特征，得到单通道特征图R_img。接着，将R_img按固定大小划分为若干图像块，为后续分析做准备。该过程用公式(1)和公式(2)表示。

$R_{i m g} = C o n v_{1}^{2} (C o n v_{1}^{1} (I))$ (1)

$P_{i m g} = Φ (R_{i m g}, d)$ (2)

其中， $R_{i m g} \in ℝ^{H \times W \times 1}$ ， $Φ$ 是一个图像分割函数，表示以d × d的尺寸切割特征图R_img。且 $P_{i m g} \in ℝ^{\frac{H \times W}{d^{2}} \times d^{2}}$ 。

步骤2：特征图转换。在该步骤中，首先使用一个包含N个滤波器的1 × 1卷积层，对第i层的特征图进行转换，使得每个类别在输出特征图中拥有一个专门的通道。随后，将得到的多通道特征图按照固定大小划分为二维图像块。该过程可由公式(3)与公式(4)表示。

$R_{i t h} = C o n v_{2} (F_{i})$ (3)

$P_{i t h}^{k} = Φ (R_{i t h}^{k}, d)$ (4)

其中， $R_{i t h} \in ℝ^{H_{i} \times W_{i} \times N_{c}}$ ， $P_{i t h}^{k} \in ℝ^{\frac{H_{i} \times W_{i}}{d^{2}} \times d^{2}}$ ， $N_{c}$ 是需要预测的类别数。

步骤3：关系计算。为建立输入图像中各图像块与对应特征图块(针对第k类别)之间的关联性，使用步骤1与步骤2中得到的相应二维图像块进行点积运算。将计算得到的注意力图块按顺序拼接后，即可得到注意力图A_ith(AFMA)。该过程可由公式(5)和公式(6)表示。

$A_{i t h}^{k} = P_{i m g} \otimes {(P_{i t h}^{k})}^{- 1}$ (5)

$A_{i t h} = A_{i t h}^{1} ∥ A_{i t h}^{2} ∥ \dots ∥ A_{i t h}^{k}$ (6)

其中， $∥$ 表示序列拼接操作，A_ith是表示输入图像与第i层特征图之间关系的注意力图。 ${(P_{i t h}^{k})}^{- 1}$ 表示第k个类别特征图像块序列的转置矩阵，而 $A_{i t h}^{k}$ 矩阵则用于表示原始图像的每个小块与第k个类别特征图小块之间的对应关系。

3.2.2. 输出部分

跨特征图注意力(AFMA)在输出部分的实现同样包含三个步骤，对应图1中的④⑤⑥。输出部分中AFMA的主要作用是利用步骤3得到的注意力图(AFMA)来调制解码器的输出，从而增强对小目标的分割能力。

步骤4：输出掩码的压缩。首先，使用固定大小的平均池化将解码器的输出M_mask压缩到与R_ith相同的大小，用R_mask表示。然后，将R_mask中的每个通道划分为一系列固定大小的二维掩码块 $P_{m a s k}^{k}$ 。该过程可由公式(7)与公式(8)表示。

$R_{m a s k}^{k} = φ (M_{m a s k}^{k}, \frac{H}{H_{i}}, \frac{W}{W_{i}}, \frac{H}{H_{i}}, \frac{W}{W_{i}})$ (7)

$P_{m a s k}^{k} = Φ (R_{m a s k}^{k}, d)$ (8)

其中， $R_{m a s k}^{k}$ 表示压缩后的掩码，且 $R_{m a s k}^{k} \in ℝ^{H_{i} \times W_{i}}$ ， $R_{m a s k} \in ℝ^{H_{i} \times W_{i} \times N_{c}}$ ， $P_{m a s k}^{k} \in ℝ^{\frac{H_{i} \times W_{i}}{d^{2}} \times d^{2}}$ ， $P_{m a s k} \in ℝ^{\frac{H_{i} \times W_{i}}{d^{2}} \times d^{2} \times N_{c}}$ ， $φ (i n p u t, k_{H}, k_{W}, s_{H}, s_{W})$ 表示使用核为 $(k_{H}, k_{W})$ 和步长为 $(s_{H}, s_{W})$ 的平均池化。

步骤5：空间调制。首先，对步骤3中得到的注意力图A_ith中的每个注意力块，与步骤4中获得的掩码块 $P_{m a s k}^{k}$ 进行逐元素相乘，从而得到被调制的掩码输出块。该过程可由公式(9)表示。

${\hat{M}}_{i t h}^{k} = A_{i t h}^{k} \otimes P_{m a s k}^{k}$ (9)

其中， ${\hat{M}}_{i t h}^{k} \in ℝ^{\frac{H W}{d^{2}} \times d^{2}}$ 。由于步骤5中获得的掩码块P_mask包含预测的掩码信息包，而跨特征图注意力图A_ith (AFMA)则记录了初始图像块与第i层特征图之间的关系，因此二者相乘后得到的调制掩码输出矩阵能够刻画背景与小目标间的相互作用。

步骤6：尺寸还原。通过展开操作将每个调制后的掩码块恢复至原始图像块的大小，随后将所有块拼接得到最终的精细化输出。该过程可由公式(10)与公式(11)表示。

$O_{i t h}^{k} = Φ^{- 1} ({\hat{M}}_{i t h}^{k}, d)$ (10)

$O_{i t h} = O_{i t h}^{1} ∥ O_{i t h}^{2} ∥ \dots ∥ O_{i t h}^{N_{c}}$ (11)

其中， $O_{i t h}^{k} \in ℝ^{H \times W \times 1}$ ， $O_{i t h} \in ℝ^{H \times W \times N_{c}}$ 。 $Φ^{- 1} ({\hat{M}}_{i t h}^{k}, d)$ 表示使用反折叠 $Φ^{- 1}$ 将 ${\hat{M}}_{i t h}^{k}$ 转换回原始大小。 $O_{i t h}$ 表示从第i个特征图生成的修正，并且最终预测Pre为：

$P r e = M_{m a s k} + O_{i t h}$ (12)

3.3. 多损失函数

标准AFMA的计算基于原始图像及其对应的标准分割掩码，用于对注意力图提供监督，从而优化注意力图的质量。其计算过程可分别由公式(13)、公式(14)以及公式(15)表示。

$R_{g t}^{k} = φ (M_{g t}^{k}, \frac{H}{H_{i}}, \frac{W}{W_{i}}, \frac{H}{H_{i}}, \frac{W}{W_{i}})$ (13)

$A_{g t}^{k} = Φ (M_{g t}^{k}, d) \otimes Φ {(R_{g t}^{k}, d)}^{- 1}$ (14)

$A_{g t} = A_{g t}^{1} ∥ A_{g t}^{2} ∥ \dots ∥ A_{g t}^{N_{c}}$ (15)

每个A_gt的取值代表了原始图像与标准分割掩码之间的规范化关系。标准AFMA的计算能够为注意力图提供有效的监督信号，从而进一步提升分割网络的整体性能，尤其是在捕捉小目标和细节方面的能力。

在AFMA-UNet的整体训练中，使用了两个损失函数：(1) 标准分割损失L_seg，即采用常用的交叉熵损失(Cross Entropy Loss, CEL)来最小化预测结果与标准分割掩码之间的差异；(2) AFMA损失L_afma，即采用均方误差损失(Mean Square Error Loss, MSE)来减小学习到的AFMA与标准AFMA之间的差异。

其中，标准分割损失的定义如公式(16)所示。

$ℒ_{s e g} = \frac{1}{N_{c} \cdot H \cdot W} \sum_{k = 1}^{N_{c}} \sum_{h = 1}^{H} \sum_{w = 1}^{W} [s^{g t} (k, h, w) \log s^{p r e d} (k, h, w) + (1 - s^{g t} (k, h, w)) (\log 1 - s^{p r e d} (k, h, w))]$ (16)

其中， $s^{g t} (k, h, w)$ 表示在像素 $(h, w)$ 处类别k的真实值， $s^{p r e d} (k, h, w)$ 表示在像素 $(h, w)$ 处类别k的预测值

AFMA损失由公式(17)所示。

$ℒ_{a f m a} = \frac{1}{N_{c} \cdot L_{1} \cdot L_{2}} \sum_{k = 1}^{N_{c}} \sum_{l_{1} = 1}^{L_{1}} \sum_{l_{2} = 1}^{L_{2}} {[A_{i t h}^{k} (l_{1}, l_{2}) - A_{g t}^{k} (l_{1}, l_{2})]}^{2}$ (17)

其中， $A_{i t h}^{k}$ 和 $A_{g t}^{k}$ 如公式(6)和公式(13)所示，分别为预测AFMA和标准AFMA。

整个训练由这两个损失组成，如公式(18)所示。

$ℒ = ℒ_{s e g} + ℒ_{a f m a}$ (18)

4. 实验结果与分析

4.1. 高压电线数据集构建

本文数据集的原始图像主要来自公开数据TTPLA [3]和自收集数据，共包124张三通道RGB原始高压电线图像，分辨率为3840 × 2160，其中1100张图像来自公开的TTPLA数据集，142张图像是自收集的。这些图像涵盖了多个时段、不同地区和光照条件，使得网络能够学习在不同背景和环境下高压电线的特征。为了使数据集更适应电线分割任务，我们通过将电线标注为前景类别，对TTPLA数据集的掩码进行了调整，同时将输电塔和其他区域统一归类为背景。我们使用语义分割标注软件LabelMe对从网络收集的142张图像进行了详细标注，标注过程包括对图像进行缩放，沿着高压电线的轮廓逐点标注，并使用不同的RGB值表示不同的类别。

在构建数据集时，所有1242张高压电线图像都统一缩放至1920 × 1080，以适应实际应用中对图像分辨率的需求。随后，每张图像被进一步切割成不重叠的512 × 512像素块。在此过程中，我们剔除了缺乏高压电线特征的图像块，最终保留了6068张带有掩码位图的图像，并将这些图像整合到一个新的数据集HighVoltageLines中。HighVoltageLines数据集的制作过程如图2所示。

Figure 2. Production process of the HighVoltageLines dataset.

图2. HighVoltageLines数据集的处理流程

HighVoltageLines数据集被划分为训练集、验证集和测试集，比例为7:2:1。图3展示了数据集中的四对示例图像，每对图像中，一张是原始图像，另一张是其对应的分割图像。

4.2. 实验环境

本研究中的所有实验均在Ubuntu 20.04操作系统上进行。实验使用Python 3.8作为编程语言，并采用PyTorch 2.0.0深度学习框架，结合CUDA 11.8进行计算加速。所有模型的训练与验证均在NVIDIA Tesla T4 GPU上进行。

Figure 3. Part of the sample image in the HighVoltageLines dataset

图3. HighVoltageLines数据集中的部分示例图像

在本研究中，训练批次大小设置为8张图像，初始学习率为0.001。我们采用Adam优化器进行模型训练，该优化器具有自适应学习率调整功能，有效加速了收敛过程并提高了模型性能。为了进一步优化训练过程，学习率会根据验证集上的Dice系数变化动态调整。具体而言，如果在连续五个训练周期内Dice系数没有显著改善，学习率将自动降低，以便模型在后续训练中能够更好地收敛。

4.3. 评估指标

为了更加全面和准确地评估模型性能，本文提供了使用混淆矩阵的详细分类结果信息，展示了真实标签与模型预测之间的比较。如表1所示，TP表示真实标签为高压电力线且模型预测为高压电力线的像素数；FP表示真实标签为背景但模型预测为高压电力线的像素数；FN表示真实标签为高压电力线但模型预测为背景的像素数；TN表示真实标签为背景且模型预测为背景的像素数。

Table 1. Confusion Matrix.

表1. 混淆矩阵

混淆矩阵		真实值
混淆矩阵		电线	背景
预测值	电线	TP	FP
预测值	背景	FN	TN

(1) 精确率(Precision, $P_{r}$ )指在被预测为正类的样本中实际为正类的比例，即模型正确预测为高压电线占全部预测为高压电线的比值。计算公式如公式19所示：

$P_{r} = \frac{T P}{T P + F P}$ (19)

(2) 召回率(Recall, $R_{e}$ )表示实际为正类的样本中被正确预测为正类的比例，即模型正确预测为高压电线占全部实际为高压电线的比值。计算公式如公式20所示：

$R_{e} = \frac{T P}{T P + F N}$ (20)

(3) F1-Score ( $F_{1}$ )是精确率和召回率的调和平均数。计算公式如公式21所示：

$F_{1} = 2 \cdot \frac{P_{r} \times R_{e}}{P_{r} + R_{e}}$ (21)

4.4. 实验结果分析

4.4.1. 不同深度使用AFMA的性能对比

AFMA模块在原始图像和编码器生成的特征图上操作。由于U-Net编码器由多个维度不同的特征映射层组成，AFMA模块可以在不同的深度与U-Net模型进行集成。本组实验将AFMA模块引入到不同的注意力深度，以便进行对比分析。表2显示了这组实验的结果，与原始U-Net模型相比，当AFMA模块添加在第二层深度时，准确率提高了6.35%，召回率提高了14.84%，F1分数提高了11.05%；而当AFMA模块添加在第三和第四层深度时，准确率有所下降，分别下降了0.96%和3.15%，但召回率提高了18.73%和20.1%，F1分数分别提高了9.4%和7.6%。

这些结果表明，尽管在第三和第四层添加AFMA模块时召回率有更大的提升，但准确率有所下降。从表2中可以看出，将AFMA模块添加在第二层深度时，相较于U-Net模型，所有三个指标均有所提高，并且在高压电线分割任务中取得了最佳的F1分数和精度。

Table 2. Comparison of evaluation results for AFMA modules at different depths.

表2. 对比在不同深度下AFMA模块的评估结果

网络名称	P_r/%	R_e/%	F₁/%
U-Net	77.41	72.21	74.42
AFMA2-UNet	83.76	87.05	85.47
AFMA3-UNet	76.45	90.94	83.82
AFMA4-UNet	74.26	92.31	82.02

Figure 4. Training convergence graph

图4. 训练收敛图

图4展示了在U-Net不同深度添加AFMA模块后的训练收敛曲线。训练损失曲线使用指数移动平均(EMA)方法进行平滑处理[27]。与普通移动平均法不同，EMA通过对最近样本赋予更高的权重，对远离的样本赋予较低的权重，更敏锐地捕捉损失变化的趋势。此方法能够有效减小训练过程中由于随机梯度下降引起的短期波动，使得曲线更加平滑，并更好地反映模型的实际优化进展。使用EMA有助于更好地观察模型的整体收敛情况和损失下降速度，同时避免过分关注单个波动。可以看到，所有三个模型的损失在200步后趋于平稳，表明它们基本上已经收敛。

4.4.2. 不同分割模型的性能对比

在这一组实验中，选择了U-Net [2]、DeepLabV3 [20]、PSPNet [16]和AFMA₂-UNet进行对比分析。图5展示了不同网络模型的部分测试结果对比，而表3展示了这一组实验的评估结果。

从图5中的结果可以明显看出，传统的U-Net模型通过其编码-解码结构能够捕捉到高压电线的主要区域。然而，在细节分割方面存在明显的不足，如电线部分丢失和边缘模糊。DeepLabV3和PSPNet在电线较粗或背景较简单的场景中提高了整体分割精度。然而，PSPNet仅使用最终层的特征进行解码，并对原始分辨率进行单步上采样，导致计算过于简化。这使得边界定位不准确，并且在细电线区域出现漏检。同样，DeepLabV不能充分利用图像的上下文信息，放大了类别不平衡的影响，导致无法完全分割高压电线。

相比之下，AFMA₂-UNet在分割精度和细节保留方面表现出明显的优势。跨特征注意机制使得模型能够有效区分高压电线和复杂背景，减少了假阳性。它准确捕捉了高压电线的完整性，并保持了细电线区域的连续性，尤其在边缘和细节处理方面尤为突出。这表明，AFMA₂-UNet改进了上下文特征的融合，增强了对小物体的敏感性，并在高压电线的精细细节分割中表现出色。

Figure 5. Comparison of partial test results of different attention mechanisms.

图5. 不同网络模型的部分测试结果比较

表3显示了这一组实验的评估结果。对于AFMA₂-UNet，相较于U-Net模型，准确率提高了6.35%，召回率提高了14.84%，F1分数提高11.05%；相比于DeepLabV3模型，准确率、召回率和F1分数分别提高了1.42%、10.12%和6.85%；而相比于PSPNet模型，准确率相同，但召回率和F1分数分别提高了12.57%和7.68%。这些结果表明，AFMA₂-UNet在准确率方面与PSPNet模型相同，但在召回率和F1分数上有所提升。总体而言，我们的模型AFMA₂-UNet在所有三个指标上都取得了最佳结果，并且在分割性能上表现出色。

Table 3. Comparison of evaluation results for different network models.

表3. 对比不同的网络模型的评估结果

网络名称	P_r/%	R_e/%	F₁/%
U-Net	77.41	72.21	74.42
DeepLabV3	82.34	76.93	78.89
PSPNet	83.76	74.48	77.79
AFMA2-UNet	83.76	87.05	85.47

4.4.3. 不同注意力机制的性能比较

本组实验选择了三种经典的注意力机制：SE (Squeeze-and-Excitation) [28]；CBMA (Convolutional Block Attention Module) [29]；注意力门控机制(Attention Gate) [30]，并将它们与U-Net相结合，设计了SE-UNet、CBMA-UNet和ATT-UNet模型。这些模型与AFMA₂-UNet进行了比较。图6显示了不同注意力机制的部分测试结果比较，表4显示了这一组实验的评估结果。

如图6所示，SE-UNet通过使用通道注意力增强了对高压电线主要部分的识别。然而，它在提取细小高压电线的特征方面表现较差，也容易在强光或复杂背景下出现漏检和误检的情况。相比之下，CBMA-UNet通过结合通道和空间注意力，改进了全局和局部特征的表示，减少了漏检率，但在噪声较大的区域有时仍会错过一些目标，总体性能优于SE-UNet。ATT-UNet通过注意力门控聚焦于强光下的目标区域，但在复杂背景下依然存在漏检问题。

Figure 6. Comparison of partial test results of different attention mechanisms.

图6. 不同网络模型的部分测试结果比较

AFMA₂-UNet采用了跨特征图注意力，在复杂背景和强光条件下表现更优。它能够有效地区分高压电线和背景，并捕捉细线的连续性。AFMA₂-UNet在分割精度和细节保留方面展现了显著优势。

表4中的性能指标进一步验证了上述结论。从表中可以清楚地看出，与其他三种注意力机制相比，将AFMA集成到U-Net中展现了最佳性能。具体而言，SE-UNet的准确率、召回率和F1分数分别提高了10.16%、6.67%和8.62%；与CBMA-UNet相比，准确率、召回率和F1分数分别提高了4.77%、9.37%和7.14%；与ATT-UNet相比，准确率、召回率和F1分数分别提高了9.57%、7.92%和8.89%。因此，可以证明，AFMA注意力机制在电线分割任务中能够实现更好的分割效果。

Table 4. Comparison of evaluation results for different attention mechanisms

表4.对比不同注意力机制的评估结果

网络名称	P_r/%	R_e/%	F₁/%
SE-UNet	73.60	80.38	76.85
CBMA-UNet	78.99	77.68	78.33
ATT-UNet	74.19	79.13	76.58
AFMA₂-UNet	83.76	87.05	85.47

5. 结论

在本文中，结合U-Net网络和AFMA注意力模块，解决了高压线在图像中占比较小且现有方法难以精确分割的问题。跨特征图注意力机制首先将原始图像及其对应的特征图划分为大小相同的图像块。然后，计算这些图像块在不同特征映射层之间的注意力图。得到的注意力图随后被用于增强语义分割的性能。实验比较表明，加入AFMA模块后，模型能够有效地捕捉到高压线的特征信息，从而提高了高压线分割任务的准确性和整体分割性能。特别是，将AFMA机制加入U-Net第二层深度时，模型在F1分数上达到了最佳效果。然而，尽管AFMA模块提高了模型的分割精度，但如果将该模型部署到移动检测设备中，仍需对模型进行轻量化处理，并进一步提升检测速度和成功率。

对于未来的研究方向，我们当前考虑进一步多样化输入图像。尽管本研究的数据集包含了一些具有不同光照条件的图像，但缺乏在不同天气场景下拍摄的图像，例如雨天或雾霾条件下的图像。为了确保模型能够适应不同的环境，需要对输入图像进行多样化。此外，由于U-Net本身具有轻量化的特点，本研究并未在资源受限的设备上进行具体实验。未来，为了确保该方法在实际应用中的可行性，我们计划评估模型在资源受限的实时应用中的效率和可行性。

NOTES

^*通讯作者。

参考文献

[1]	Nguyen, V.N., Jenssen, R. and Roverso, D. (2018) Automatic Autonomous Vision-Based Power Line Inspection: A Review of Current Status and the Potential Role of Deep Learning. International Journal of Electrical Power & Energy Systems, 99, 107-120. https://doi.org/10.1016/j.ijepes.2017.12.016
[2]	Ronneberger, O., Fischer, P. and Brox, T. (2015) U-Net: Convolutional Networks for Biomedical Image Segmentation. In: Lecture Notes in Computer Science, Springer, 234-241. https://doi.org/10.1007/978-3-319-24574-4_28
[3]	Abdelfattah, R., Wang, X. and Wang, S. (2021) TTPLA: An Aerial-Image Dataset for Detection and Segmentation of Transmission Towers and Power Lines. In: Lecture Notes in Computer Science, Springer, 601-618. https://doi.org/10.1007/978-3-030-69544-6_36
[4]	Sang, S., Zhou, Y., Islam, M.T. and Xing, L. (2023) Small-Object Sensitive Segmentation Using across Feature Map Attention. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45, 6289-6306. https://doi.org/10.1109/tpami.2022.3211171
[5]	Du, S., van Wyk, B.J. and Tu, C. (2010) Heuristic Bayesian Pixel Classification for Power Line Inspection. 2010 3rd International Congress on Image and Signal Processing, Yantai, 16-18 October 2010, 960-963. https://doi.org/10.1109/cisp.2010.5646922
[6]	Li, Z., Liu, Y., Hayward, R., Zhang, J. and Cai, J. (2008) Knowledge-Based Power Line Detection for UAV Surveillance and Inspection Systems. 2008 23rd International Conference Image and Vision Computing New Zealand, Christchurch, 26-28 November 2008, 1-6. https://doi.org/10.1109/ivcnz.2008.4762118
[7]	Song, B. and Li, X. (2014) Power Line Detection from Optical Images. Neurocomputing, 129, 350-361. https://doi.org/10.1016/j.neucom.2013.09.023
[8]	Ceron, A., Mondragon B., I.F. and Prieto, F. (2014) Power Line Detection Using a Circle Based Search with UAV Images. 2014 International Conference on Unmanned Aircraft Systems (ICUAS), Orlando, 27-30 May 2014, 632-639. https://doi.org/10.1109/icuas.2014.6842307
[9]	Archana, R. and Jeevaraj, P.S.E. (2024) Deep Learning Models for Digital Image Processing: A Review. Artificial Intelligence Review, 57, Article No. 11. https://doi.org/10.1007/s10462-023-10631-z
[10]	Ahmed, S.A., Desa, H., Easa, H.K., Hussain, A.T., Taha, T.A., Salih, S.Q., et al. (2024) Advancements in UAV Image Semantic Segmentation: A Comprehensive Literature Review. Multidisciplinary Reviews, 7, Article 2024118. https://doi.org/10.31893/multirev.2024118.
[11]	Xu, G., Wang, X., Wu, X., et al. (2024) Development of Skip Connection in Deep Neural Networks for Computer Vision and Medical Image Analysis: A Survey.
[12]	Iqra Giri, K.J. and Javed, M. (2024) Small Object Detection in Diverse Application Landscapes: A Survey. Multimedia Tools and Applications, 83, 88645-88680. https://doi.org/10.1007/s11042-024-18866-w
[13]	Wang, H. and Gao, P. (2024) Survey of Small Object Detection Methods Based on Deep Learning. 2024 9th International Conference on Intelligent Informatics and Biomedical Sciences (ICIIBMS), Okinawa, 21-23 November 2024, 221-224. https://doi.org/10.1109/iciibms62405.2024.10792837
[14]	Shelhamer, E., Long, J. and Darrell, T. (2014) Fully Convolutional Networks for Semantic Segmentation. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, 7-12 June 2014, 3431-3440.
[15]	Badrinarayanan, V., Kendall, A. and Cipolla, R. (2017) SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39, 2481-2495. https://doi.org/10.1109/tpami.2016.2644615
[16]	Zhao, H., Shi, J., Qi, X., Wang, X. and Jia, J. (2017) Pyramid Scene Parsing Network. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 6230-6239. https://doi.org/10.1109/cvpr.2017.660
[17]	Chen, L.-C., Papandreou, G., Kokkinos, I., et al. (2014) Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs.
[18]	Chen, L., Papandreou, G., Kokkinos, I., Murphy, K. and Yuille, A.L. (2018) DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40, 834-848. https://doi.org/10.1109/tpami.2017.2699184
[19]	Yu, F. and Koltun, V. (2015) Multi-Scale Context Aggregation by Dilated Convolutions.
[20]	Chen, L.-C., Papandreou, G., Schroff, F., et al. (2017) Rethinking Atrous Convolution for Semantic Image Segmentation.
[21]	Lin, G., Milan, A., Shen, C. and Reid, I. (2017) RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 5168-5177. https://doi.org/10.1109/cvpr.2017.549
[22]	Madaan, R., Maturana, D. and Scherer, S. (2017) Wire Detection Using Synthetic Data and Dilated Convolutional Networks for Unmanned Aerial Vehicles. 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Vancouver, 24-28 September 2017, 3487-3494. https://doi.org/10.1109/iros.2017.8206190
[23]	Wang, X. (2019) Research on Semantic Segmentation of Power Line Based on Image. https://kns.cnki.net/kcms2/article/abstract?v=uQzRnDzoTXG67ksS9rxPWD9fh-SqHMF3mS4LID1_KDzsWXtt9ghKv_0Z0uZP5TEaBJSfUX37d1KX9HyA7olN6M0emUkRLkfwjtDcwsOrz6sPN4rdftUKHbQxdo_UWziWRknSBDnej9aapELDZYjJnqxCeuWPjA_RplZkVRo6Tc-aeis-ZiCIXtiG7Pg_w_xBhjvDlLiCkOo=&uniplatform=NZKPT&language=CHS
[24]	Zhang, H., Yang, W., Yu, H., Zhang, H. and Xia, G. (2019) Detecting Power Lines in UAV Images with Convolutional Features and Structured Constraints. Remote Sensing, 11, Article 1342. https://doi.org/10.3390/rs11111342
[25]	Dai, Z., Yi, J., Zhang, Y., Zhou, B. and He, L. (2020) Fast and Accurate Cable Detection Using CNN. Applied Intelligence, 50, 4688-4707. https://doi.org/10.1007/s10489-020-01746-9
[26]	Choi, H., Koo, G., Kim, B.J. and Kim, S.W. (2021) Weakly Supervised Power Line Detection Algorithm Using a Recursive Noisy Label Update with Refined Broken Line Segments. Expert Systems with Applications, 165, Article 113895. https://doi.org/10.1016/j.eswa.2020.113895
[27]	Brown, R.G. (1960) Statistical Forecasting for Inventory Control. McGraw-Hill.
[28]	Hu, J., Shen, L. and Sun, G. (2018) Squeeze-and-Excitation Networks. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 18-23 June 2018, 7132-7141. https://doi.org/10.1109/cvpr.2018.00745
[29]	Woo, S., Park, J., Lee, J. and Kweon, I.S. (2018) CBAM: Convolutional Block Attention Module. In: Lecture Notes in Computer Science, Springer, 3-19. https://doi.org/10.1007/978-3-030-01234-2_1
[30]	Oktay, O., Schlemper, J., Folgoc, L.L., et al. (2018) Attention U-Net: Learning Where to Look for the Pancreas.

友情链接