融合注意力机制的电力巡检目标检测模型研究

doi:10.12677/airr.2024.132028

期刊菜单

融合注意力机制的电力巡检目标检测模型研究
Research on Target Detection Model for Electric Power Inspection Based on Fusion Attention Mechanism

DOI: 10.12677/airr.2024.132028, PDF, HTML, XML,
作者: 刘彦玮：青岛科技大学信息科学技术学院，山东青岛
关键词: 电力巡检；目标检测；Swin Transformer；Electric Power Inspection； Object Detection； Swin Transformer

摘要: 针对传统电力电网设备巡检方法存在的巡检效率低和安全隐患多等问题，提出了一种基于人工智能技术的无人巡检方法。通过引入Swin Transformer模型，优化了目标检测算法，提高了巡检的精度和实时性。首先，分析了电力电网设备巡检的现状和传统方法的局限性，并对无人巡检系统的实际应用挑战和未来发展趋势进行了探讨，提出了以深度学习、计算机视觉为核心的技术框架。采用图像增强技术扩充了数据集，并手动标注获取了高质量数据集。将Faster RCNN与Swin Transformer结合，应用于自制数据集，实现了高效稳定的目标检测。与传统方法相比显著提升了巡检效率，降低了漏检率和误检率。本研究成果为电力行业的数字化转型和升级提供了理论和实践价值。

Abstract: A unmanned inspection method based on artificial intelligence technology is proposed to address the problems of low inspection efficiency and multiple safety hazards in traditional inspection methods for power grid equipment. By introducing the Swin Transformer model, the object detection algorithm has been optimized, improving the accuracy and real-time performance of inspections. Firstly, the current situation of power grid equipment inspection and the limitations of traditional methods were analyzed, and the practical application challenges and future development trends of unmanned inspection systems were discussed. A technical framework centered on deep learning and computer vision was proposed. We expanded the dataset using image enhancement technology and manually annotated it to obtain high-quality datasets. The improved Faster RCNN was combined with Swin Transformer and applied to self-made datasets to achieve efficient and stable object detection. Compared with traditional methods, it significantly improves inspection efficiency, reduces missed detection rates and false detection rates. The results of this study provide theoretical and practical value for the digital transformation and upgrading of the power industry.

文章引用：刘彦玮. 融合注意力机制的电力巡检目标检测模型研究[J]. 人工智能与机器人研究, 2024, 13(2): 265-271. https://doi.org/10.12677/airr.2024.132028

1. 引言

随着我国电网建设的迅猛发展，特高压输电线路与智能电网骨架已成为国家电力供应的主动脉。面对庞大而复杂的供电网络，确保电力设备的稳定运行对于国家能源安全和经济发展至关重要。然而，传统的电力巡检方式，如人工巡检和初级无人机巡检，受限于效率、安全以及数据处理能力，难以满足日益增长的电力需求与对巡检效率、巡检精度的要求。特别是在地理环境恶劣、供电设备布局复杂的区域，电力设备巡检工作面临更加严峻的挑战。

早期的目标检测主要依赖手工设计的特征，如SIFT (Scale-Invariant Feature Transform)、HOG (Histogram of Oriented Gradients)等，通过集成分类器的方式来实现目标功能。SIFT [1] 算法通过识别图像中的关键点并生成相应的特征描述子，实现图像间的精确匹配；HOG [2] 算法则通过计算图像局部区域的梯度方向直方图来形成特征。然而，这些手工设计的特征在面对复杂多变的实际场景时，往往难以捕捉到目标的本质特征，导致检测效果不佳。

深度学习的兴起为目标检测领域带来了新的突破。基于深度卷积神经网络的目标检测方法，具备出色的自动提取图像高层特征的能力，无需繁琐的手动设计特征提取器。这类方法大致可以分为双阶段和单阶段两类。以RCNN [3] (Region-based Convolutional Neural Networks)系列为代表的双阶段算法首先借助RPN (Region Proposal Network)，能够生成一系列潜在的候选区域，然后对这些候选区域进行精细的分类和位置调整。从RCNN到Fast RCNN [4] 再到Faster RCNN [5] 的演进过程中，算法在速度和准确性上都得到了显著的提升。与双阶段算法不同，单阶段算法直接对图像进行采样并生成检测结果。代表性的算法有YOLO (You Only Look Once)、SSD (Single Shot MultiBox Detector)和RetinaNet等。YOLO [6] 将目标检测任务重新定义为端到端的回归问题，实现了极快的检测速度；SSD [7] 通过对不同尺度的特征图上进行目标检测，显著增强了对小目标图像的检测能力；RetinaNet [8] 则通过引入Focal Loss解决了单阶段算法中的类别不平衡问题。

近年来，在计算机视觉领域，基于Transformer [9] 架构的目标检测方法得到显著发展，Transformer架构最初在自然语言处理领域崭露头角，其独特的自注意力机制被证实能够高效地捕获文本序列中跨越较长距离的依赖关系，从而极大地提升了模型的表示能力。在这一背景下，诞生了一系列创新性的模型，如Vision Transformer (ViT) [10] 和Swin Transformer [11] 等。这些模型摒弃了传统的卷积神经网络结构，转而采用了一种全新的方式来处理图像数据。通过将图像划分为一系列“块”(patch)，并为每个块设立一个独立的“词”(token)用于表征，从而将图像转换成文本序列形式，便于直接应用Transformer的自注意力机制进行特征提取和目标检测。

本文研究了一种融合注意力机制的电力巡检目标检测模型，提高了巡检的自动化水平、准确度和效率。通过将Faster RCNN与Swin Transformer结合，构建了一种新型的电力巡检目标检测模型。该模型能够自动识别和定位电力设备中的异常情况，如线路鸟巢、松动的部件、异常的温度升高等，从而帮助工作人员及时发现并处理潜在的安全隐患。这不仅大大提高了巡检的效率和准确性，也显著降低了工作人员的劳动强度和安全风险。研究成果不仅为电力巡检提供了一种高效、准确的新型目标检测模型，还为目标检测技术在电力行业的广泛应用奠定了坚实的理论基础和技术支撑。

2. 研究中使用的算法模型

2.1. Swin Transformer

通过采用Swin Transformer模型，显著提升了电力巡检的检测效果。作为一种专为计算机视觉任务量身打造的深度学习模型，Swin Transformer凭借其独特的移位窗口机制和高效的计算方式，在图像信息处理中展现出了卓越的性能。Swin Transformer的核心在于其移位窗口机制，这一创新设计使得模型能够在处理图像时，既关注到局部细节，又不失全局视野。通过将自注意力计算限制在局部窗口内，Swin Transformer有效地降低了计算复杂度，使得模型在处理高分辨率图像时更加高效。同时，模型在不同层间交替进行窗口划分和移位操作，这种动态的处理方式逐步扩大了模型的感受野，使得模型能够捕获到更丰富的上下文信息。

除了移位窗口机制外，Swin Transformer还借鉴了卷积神经网络(CNN)的层次化设计理念。通过逐层下采样，模型在保持高性能的同时，进一步优化了计算效率。这种层次化的结构不仅有助于模型提取多尺度的特征信息，还为后续的任务处理提供了更加灵活和高效的网络架构。Swin Transformer模型的网络结构 [11] ，如图1所示。

Figure 1. Diagram of the Swin Transformer network architecture

图1. Swin Transformer网络结构图

首先，将图像输入至Patch Partition模块进行分割处理，具体操作为：对于每4 × 4相邻像素构成的Patch，将其作为基本单位进行图像划分。随后，在通道(channel)维度上执行展平(flatten)操作。以RGB三通道图像为例，每个Patch包含16个像素点，每个像素点又由R、G、B三个通道值组成，因此，经过展平处理后，每个Patch的数据长度变为48，即16个像素点乘以每个像素点的3个通道值。经过Patch Partition步骤的处理，图像的维度从初始的[H, W, 3]变为[H/4, W/4, 48]。紧接着，利用Linear Embedding层对每个分割后的Patch的通道数据执行线性变换，使得每个Patch的数据长度从48扩展到C。因此，图像的维度经历了再次的调整，最终呈现为[H/4, W/4, C]。

接下来，采用四个不同的Stage来构建具备多种尺度的特征图。在Stage1中，首先运用Linear Embedding层对输入数据进行线性转换，以提取初步特征。而在随后的Stage2、Stage3以及Stage4中，均先通过Patch Merging层执行下采样操作，旨在逐步降低特征图的尺寸并增强特征的语义信息。在每个Stage内部，都重复堆叠了多个Swin Transformer Block来进一步提取和精炼特征。其中，Swin Transformer Block主要由两部分构成，这两种结构的主要区别在于其自注意力机制的实现方式：其中一种结构采用了基于窗口的多头自注意力结构W-MSA (Window-based Multi-head Self-Attention)，而另一种则选用了带有移位窗口设计的多头自注意力结构SW-MSA (Shifted Window Multi-head Self-Attention)。

在每个阶段的结束环节，Swin Transformer利用Patch Merging层进行特征图的下采样。当一个单通道特征图，其尺寸为4 × 4，被送入Patch Merging层时，该层会将相邻的2 × 2像素块视为独立的patch单元。接着，它会对这些patch单元中处于相同空间位置的像素值进行聚合处理。这样，原始的4 × 4特征图就被转换成了四个新的特征图，每个特征图对应原始特征图中相同位置的像素聚合结果。接下来，这四个新生成的特征图在深度维度上进行串联(concatenation)，以构建一个层次更深的特征表达。随后，这个经过串联的特征图会被送入一个Layer Normalization层进行归一化处理，以确保数据的稳定性和模型的收敛性。最终，该特征图会经过一个全连接层的线性映射，将其深度缩减至原先的一半，从而实现特征的有效提炼和降维。可以看出，Patch Merging层通过上述的操作将输入特征图的高度和宽度缩减至原先的一半，与此同时，其深度则相应地增加一倍，从而实现了下采样和特征聚合的目的。

此外，在每个Swin Transformer block中，包含LayerNorm和MLP (Multilayer Perceptron)多层感知机部分。具体来说，一个Swin Transformer block的工作流程如下：首先，输入特征会通过一个LayerNorm层进行标准化处理，以确保数据的稳定性和模型的收敛性。随后，经过归一化的特征被传递到W-MSA或SW-MSA模块中。在W-MSA模块内，特征将在预定义的窗口范围内进行自注意力计算，从而捕捉窗口内的局部依赖关系；而在SW-MSA中，窗口会先移位，然后再进行自注意力计算。经过自注意力计算后的特征再通过一个残差连接与原始输入特征相加，然后进行另一个LayerNorm层归一化。最后，归一化后的特征被送入一个由两个全连接层组成的MLP模块中，对特征进行进一步的变换和提炼。在每个Swin Transformer block中，W-MSA和SW-MSA通常是交替使用的，即一个block使用W-MSA，下一个block就使用SW-MSA。这种交替使用的方式有助于模型在捕捉局部信息和全局信息之间取得平衡。

2.2. 改进算法模型

为了全面挖掘Swin Transformer的潜力并确保其性能得到最大化发挥，在确保训练精度的同时，将Swin Transformer作为核心骨干网络，巧妙地集成到Faster RCNN模型中。具体而言，从Swin Transformer的Block中提取输出，然后将其输入到FPN (Feature Pyramid Network) [12] 特征金字塔网络中，以实现多尺度特征的有效融合。通过这种方式，能够获得更为丰富的特征表示，进一步提升模型的检测性能。最后，借助PyTorch框架提供的方法，构建了一个基于Faster RCNN的基础检测模型。改进后的模型的网络结构，如图2所示。

Figure 2. Network structure diagram of improved model

图2. 改进模型的网络结构图

按照上图2所示的结构，首先，将Faster R-CNN中的原始卷积主干网络(如ResNet、VGG等)替换为Swin Transformer，输入图像通过Swin Transformer模型进行特征提取，会生成一系列的特征图，这些特征图捕捉了图像中的不同层次的信息。Swin Transformer的输出通常是多个层次的特征图集合，类似于卷积神经网络中的不同阶段的输出。接下来，将这些来自Swin Transformer的特征图输入到FPN中，目的是利用这些特征图来构建一个多尺度的特征金字塔。FPN主要由自顶向下的路径和横向连接两部分组成。在自顶向下的路径中，通过对其高层特征图实施上采样操作，生成空间上较为粗糙但语义信息更为丰富的特征。横向连接则负责将上采样的特征与Swin Transformer输出的对应层次的特征进行融合。这种融合通常通过逐元素的加法或串联操作实现，并紧接着通过一个1x1的卷积层来调整特征的通道数。经过上述融合过程后，FPN输出了一个包含丰富语义和空间信息的多尺度特征集合。这些特征随后被传递给RPN作为输入。在每个特征图上，RPN使用一个小的卷积网络来滑动窗口，并为每个位置生成一组预先定义大小和比例的锚框(anchor boxes)。对于每个锚框，RPN预测一个二分类的概率(是否为前景对象)和边界框的回归偏移量，用于精细调整锚框的位置和大小。

本文对模型的改进策略主要涵盖两个维度。

首先，在模型中引入Swin Transformer与FPN的集成。这一改进的核心在于更高效地利用特征图中丰富的全局和局部特征。具体而言，Swin Transformer负责提取图像特征，随后这些特征被输入到FPN中。FPN能够从Swin Transformer输出的特征图中提取并融合多尺度的特征，助力模型捕捉不同大小的目标，从而提高检测的准确性。此外，鉴于小目标在高层特征图中的表征信息相对稀缺，直接在这些特征图上进行检测可能会导致性能受限。然而，FPN通过跨层融合特征，有效增强了小目标的特征表达，进而提高了模型对小目标的检测能力。值得一提的是，FPN在不同尺度的特征图上进行检测的策略，使得模型能够在较低分辨率的特征图上快速排除大量背景区域，从而在高分辨率特征图上的计算负担得以减轻。

其次，将FPN的输出与RPN相结合，以促进不同层级特征之间的深度融合和信息共享。这种融合策略有助于提升模型在复杂背景和干扰因素下的鲁棒性，进一步增强目标检测的准确性和稳定性。

3. 实验

3.1. 数据集构建

本文选择构建标准化的电力巡检自有数据集以进行模型的研究与测试。此数据集的构建主要依赖于生产运营现场所捕获的相关图片，并辅以网络上多方来源的相关图像。在数据集收集过程中，不可避免地出现样本数量不足和部分样本质量差的问题。针对图像样本数量较少的问题，本研究采用多种图像增强技术，如旋转、位移等变换方法，以及镜像转换等常规手段，以增加数据集中的图像样本多样性，从而达到足够的训练样本量并优化训练效果。另一方面，针对数据集质量较低的问题本研究采用基于暗通道的图像去雾算法等图像处理技术，以降低采集过程中天气条件对图像质量的影响，提升了数据集图像的整体质量。通过这些方法，期望能够构建一个更为完善、高质量的电力巡检数据集，为后续研究提供坚实基础。

3.2. 实验结果分析

在进行Swin Transformer模型训练之前，将所有图片的尺寸标准化为512 × 512像素，以确保模型接收到的输入具有一致的维度。此外，针对训练集中的类别标签，将其调整为单分类训练模式(尽管该模型同样支持多分类训练)，以便更专注于单一类别的目标检测任务。在训练过程中，还对批处理大小(batch size)、GPU线程数以及训练周期(epoch)等关键参数进行了调整。训练完成后，对模型进行了50次测试实验，在每次测试中，都记录了算法的准确率(Precision)和召回率(Recall)作为评估指标。测试实验结果如表1所示。

Table 1. Swin Transformer experimental results data

表1. Swin Transformer实验结果数据

从表1中可以清晰地看到，构建的Swin Transformer模型在测试集上展现出了良好的性能。具体来说，模型的准确率达到93.82%，能够准确地识别出图像中的目标鸟巢。同时，模型的召回率为92.42%，表明模型能够有效地检测出大部分的目标鸟巢，减少了漏检的情况。综合来看，Swin Transformer模型在鸟巢目标检测任务中展现出了强大的性能，为后续的实际应用提供了坚实的基础。

为了验证本文所提出的改进模型在目标检测任务上的性能表现，采用相同的数据集对原始模型和改进后的模型分别进行训练。训练过程在同一计算环境下进行，以确保实验条件的一致性。随后，利用训练好的两种算法对独立的测试集进行目标检测，并对检测结果进行详细对比分析。为了确保实验结果的稳定性和可靠性，分别使用两种算法对测试集进行了50次独立的重复测试。在每次测试中，都记录了算法的准确率(Precision)和召回率(Recall)作为评估指标。通过对这50次测试结果的统计和分析，能够获得两种算法在目标检测任务上的平均性能和性能稳定性。测试实验结果如表2所示。

Table 2. Comparison of experimental results

表2. 对比实验结果

通过对比分析表2中的数据，可以明确地观察到，相较于原始模型，改进后的模型在准确率与召回率两大关键指标上均呈现出显著的提升。这一结果不仅直观地展现了改进方法的有效性，也为本文所提出的模型研究提供了有力的实证支持。

4. 总结与展望

本文以电力巡检为背景，选取了电力线路中常见的鸟巢作为检测目标，对目标检测模型进行了深入研究。首先系统阐述了无人机电力巡检的研究现状和发展前景，以及目前主流的目标检测算法。对本文所采用的目标检测算法主要模型模块功能架构进行了规划和集成。通过模型构建、模型训练、模型测试与结果分析等一系列步骤，完成了融合注意力机制电力巡检目标检测模型的建立和训练，并基于生产运营现场数据集验证了模型的准确性和可靠性。通过算法优化最终提高了静态目标多样化检测的准确率和召回率，最终结果表明模型具备与各类系统的联合调度控制相结合的潜力。随着目标检测的应用场景及适用度的进一步拓展，本文研究成果将为实现更高效、更智能的自动化巡检提供有力支持。

参考文献

[1]	Lowe, D.G. (2004) Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision, 60, 91-110. [Google Scholar] [CrossRef]
[2]	Dalal, N. and Triggs, B. (2005) Histograms of Oriented Gradients for Human Detection. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), 1, 886-893.
[3]	Girshick, R., Donahue, J., Darrell, T. and Malik, J. (2014) Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, 23-28 June 2014, 580-587. [Google Scholar] [CrossRef]
[4]	Girshick, R. (2015) Fast R-CNN. 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, 7-13 December 2015, 1440-1448. [Google Scholar] [CrossRef]
[5]	Ren, S., He, K., Girshick, R. and Sun, J. (2017) Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39, 1137-1149. [Google Scholar] [CrossRef]
[6]	Redmon, J., Divvala, S., Girshick, R. and Farhadi, A. (2016) You Only Look Once: Unified, Real-Time Object Detection. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, 27-30 June 2016, 779-788. [Google Scholar] [CrossRef]
[7]	Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.-Y. and Berg, A.C. (2016) SSD: Single Shot MultiBox Detector. Proceedings of the European Conference on Computer Vision (ECCV), Springer, Cham., 21-37. [Google Scholar] [CrossRef]
[8]	Lin, T.-Y., Goyal, P., Girshick, R., He, K. and Dollár, P. (2017) Focal Loss for Dense Object Detection. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 22-29 October 2017, 2999-3007. [Google Scholar] [CrossRef]
[9]	Vaswani, A., Shazeer, N., Parmar, N., et al. (2017) Attention Is All You Need. Neural Information Processing Systems (NIPS), Long Beach, CA, 4-9 December 2017, 5998-6008. [Google Scholar] [CrossRef]
[10]	Dosovitskiy, A., Beyer, L., Kolesnikov, A., et al. (2021) An Image Is Worth 16 × 16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (lCLR), Vienna, 3-7 May 2021. [Google Scholar] [CrossRef]
[11]	Liu, Z., et al. (2021) Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, QC, 10-17 October 2021, 9992-10002. [Google Scholar] [CrossRef]
[12]	Lin, T.-Y., Dollár, P., Girshick, R., He, K., Hariharan, B. and Belongie, S. (2017) Feature Pyramid Networks for Object Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 21-26 July 2017, 936-944. [Google Scholar] [CrossRef]

为你推荐

友情链接