1. 前言
树种分类是保护森林资源和实现可持续发展的前提之一,传统树种识别方法大多基于人工野外调查,效率低、成本高,不便于大面积开展[1]。随着无人机技术的高速发展,无人机已成为一种重要的遥感平台,其操作便捷,获取遥感数据快速且时效性强[2]。在遥感数据类型中,高光谱影像虽然可以提供更丰富的光谱信息,但需要进行提取多种特征信息,并需要对多光谱信息进行融合,过程较为繁琐[3];激光雷达虽然能够获取高精度的三维结构信息,但其应用仍受制于昂贵的设备投入与数据处理成本[4];搭载了可见光RGB传感器的无人机因其成本较低、便携性强而逐渐成为林业资源调查的常用工具[5],结合现有的图像处理与分析技术,能够实现树冠与树种信息的高效提取,显著提升林业调查的效率与精度。
目前,无人机遥感树种识别主要基于机器学习方法。Yudaputra等采用支持向量机、随机森林、K最近邻和贝叶斯四种机器学习算法对植物园树种进行识别,多次实验结果表明,支持向量机在分类准确率方面表现最佳[6];Zhong等基于YOLOv8模型,探索了多源遥感数据的不同空间分辨率、尺度以及波段组合,用于树木物种识别,所提出的AMF GD YOLOv8模型相较于单一遥感源和波段组合数据,在树木物种识别准确性方面有了更为显著的提升,获得了81.0%的mAP值[7];于航等以内蒙古大兴安岭根河森林保护区为研究区,采用三维卷积神经网络对机载高光谱影像进行森林优势树种识别,取得了较高的分类精度,其总体精度和Kappa系数分别为95.24%和0.94 [8];孙玉琳等以江苏省南京市紫金山风景林区为研究对象,提取Landsat 8数据光谱、植被指数以及纹理特征,结合地形因子,采用支持向量机和随机森林分类器对森林进行分类,结果表明,针叶、阔叶树种的两种分类法的平均总体识别精度为71.89%;优势树种的总体平均识别精度为53.18% [9]。
综上所述,基于遥感数据与机器学习方法的树种分类研究正逐渐成为该领域的重要发展方向。本研究以帽儿山林场和东北林业大学林业示范基地的可见光影像为基础,选取兴安落叶松、胡桃楸、榆树及白桦森林树种为研究对象,提取其树冠纹理特征;在此基础上,构建了YOLOv11-seg树种分类模型,并引入类别权重机制以提升分类精度,为后续生物量估算、碳储量评估及林业动态监测提供了重要的技术支撑。
2. 研究区域与数据获取
2.1. 研究区域概况
本研究所使用的数据分别采集于两个实验区域,分别为东北林业大学帽儿山林场、东北林业大学城市林业示范研究基地(以下简称“林大示范基地”)。帽儿山林场和林大示范基地均位于黑龙江省哈尔滨市范围内。哈尔滨地处寒温带针阔混交林带,位于松嫩平原向小兴安岭山地的过渡区域,地貌类型兼具平原、丘陵与低山的特征;其气候属于典型的寒温带大陆性季风气候,表现为冬季寒冷漫长、夏季短促温暖,春秋两季过渡迅速,全年温差显著;降水主要集中在夏季,冬季则干燥少雨,具有明显的“雨热同期”特征。年平均气温维持在3℃~5℃左右,年降水量约500~600 mm。
如图1所示,帽儿山林场位于尚志市西北部;林场示范基地位于哈尔滨市辖区中部。
注:该图基于中国科学院地理科学与资源研究所“资源环境科学与数据中心平台”(https://www.resdc.cn/)提供的区县行政区划边界数据及分省DEM数据制作而成,底图数据均保持原始状态,未进行任何形式的修改。
Figure 1. Geographic location map of the study area
图1. 研究区域地理位置图
2.2. 数据获取
本研究于2024年8月在帽儿山实验林场典型天然次生林内布设4个样地开展调查,并于2025年7月在林大示范基地增设5个样地进行补充采样。样地设置涵盖落叶松林(样地1和2)、胡桃楸林(样地3)、榆树林(样地4和5)、针阔混交林(样地6-9),主要研究树种为落叶松(Larix gmelinii)、胡桃楸(Juglans mandshurica)、榆树(Ulmus pumila)、白桦林(Betula platyphylla)。
1) 地面可见光遥感数据获取
实验采用大疆创新科技有限公司生产的MATRICE RTK无人机作为空中作业平台,搭载ZENMUSE P1 (禅思P1)全画幅图像传感器获取地表可见光影像数据,飞行高度100 m、飞行速度3 m/s、地面分辨率(GSD)1.3 cm、航向重叠率80%、旁向重叠率70%。为保证影像质量,采集工作特意选择在天气晴朗、无云覆盖的条件下进行,以最大限度减少气象因素对数据精度的干扰,从而提高影像的清晰度与细节表现,确保可见光影像的高质量输出及数据的准确性与完整性。
2) 样地数据获取
在样地调查过程中,对范围内胸径(DBH) ≥ 5 cm的乔木进行每木检尺测量与系统记录,以获取单木层面的完整调查数据,测量内容主要包括树种信息、地理坐标、胸径、树高、冠长及冠幅等关键参数。树种信息与坐标信息同步采集,采用千寻星耀SE网络RTK系统开展高精度定位,以确保单木空间位置数据的准确性,同时由调查人员通过目测进行树种判别并记录;胸径测量采用围尺,在距地面1.3 m处对树干直径进行标准化测量;树高与冠长使用连续可变距式测高器测定,以保证数据的精度与一致性;冠幅则通过卷尺分别测量树冠在南北与东西方向上的最大宽度,并取两个方向测值的平均值作为最终结果。
2.3. 数据处理数据集制作
1) 水平矫正及裁剪
水平几何校正及裁剪的具体操作在ArcGIS 10.2平台中完成。首先,利用Clip (裁剪)工具去除影像边缘的无效黑边区域,以保证数据边界的规整性和有效性;其次,借助 COGO (Coordinate Geometry)工具对影像进行角度测量,准确获取其水平倾斜偏差值;然后,根据测得的倾斜角度,采用Rotate (旋转)工具对影像实施几何旋转校正,使其主方向与水平基准保持一致,从而获得满足分析需求的标准化水平影像;最后将处理完成的正射影像(TIF格式)导出为PNG格式图像,YOLOv11模型在图像处理环节不支持TIF格式,将正射影像转换为PNG格式不仅能够实现模型的高效读取与调用,还为后续树种识别模型的训练、验证与泛化提供了高质量、标准化的数据输入支撑,同时PNG格式在保持较高图像质量的基础上,兼具更佳的兼容性与压缩效率。
2) 图像优化及裁剪
本研究采用Adobe Photoshop 2021软件对PNG图片进行系统化预处理,对图像开展降噪与重采样、裁剪操作,以去除杂色、薄雾并提升纹理清晰度与自然饱和度以及调整像素数量,保持数据集在空间分辨率上的一致性,避免因影像差异导致模型训练偏差,对9个样地的影像进行批量裁剪,共生成90张分辨率为640 × 640像素的PNG图像,以满足YOLOv11模型的输入规范。通过上述图像预处理操作,不仅有效改善了影像的整体质量,提升了数据集的标准化与一致性,还在一定程度上增强了模型对关键地物细节与纹理特征的捕捉能力,同时处理过程优化了模型训练的数据输入条件,显著提高了模型在训练和验证阶段的鲁棒性与泛化性能,为后续树种识别研究提供了更加可靠的数据支撑。
3) 图像标注
本研究采用Labelme工具[10]手动勾画树冠轮廓,结合地面调查数据进行目视解译,并开展详细的图像注释工作,针对不同树种,准确地使用多边形轮廓标注图像中的树冠信息,确保标注的精准性与数据的高质量,为后续的模型训练提供可靠的数据支持。在使用Labelme工具对图像中的树种树冠信息完成标注后,标注信息会以JSON格式保存,包含类别、位置、大小等详细数据。YOLOv11模型采用的标签格式与JSON格式不兼容,因此需要将Labelme生成的JSON格式标注信息转换为YOLOv11所需的分割标签格式,以确保标签数据能够被模型正确读取和处理,进而提升训练效果和精度。本研究编写了Python脚本,并定义了convert_json_label_to_yolov_seg_label函数,将JSON文件转换为YOLO格式的分割标签,转换后的标注数据将以每个目标一行的形式存储在对应的TXT文件中,文件名与图像文件保持一致,以确保每个图像的标注能够正确匹配。该转换过程,使标注信息变得更加简化与标准化,使其更加适用于高精度的实例分割任务,提升模型训练的稳定性和泛化能力,确保模型在处理不同数据集时具有更强的适应性和鲁棒性。
4) 数据增强
样地1-9的正射影像经过处理与裁剪后,共生成了90张大小为640 × 640像素的图像。在这些图像中,落叶松、胡桃楸、榆树和白桦的标签数量分别为416、368、284和167。可以看出,样本数据集的规模相对较小,且标签分布存在不平衡现象,这可能会影响模型的训练效果。本研究主要采用几何变换方式对数据集进行增强,具体操作包括旋转、水平翻转、垂直翻转、水平 + 垂直翻转以及缩放等,通过这些变换扩展了数据集,最终生成了共计540张图像;经过数据增强处理后,落叶松、胡桃楸、榆树和白桦的标签数量分别达到了1653、1466、1238和867,数据增强处理的可视化结果见图2。
Figure 2. Schematic diagram of data augmentation effects
图2. 数据增强效果示意图
5) 数据集制作
在完成数据增强后,为保证模型训练的充分性及泛化能力,本研究将整个数据集按照4:1的比例随机划分为训练集和验证集。训练集包含432张图像,用于模型的参数学习与优化;验证集包含108张图像,用于评估模型在未见数据上的性能表现。
3. 研究方法
3.1. YOLOv11模型来源
YOLOv11是由Ultralytics团队于2024年推出的一个重要版本,标志着其YOLO [11]系列在效率与通用性方面的又一次跃迁,其源代码与预训练权重均公开托管于Ultralytics的官方GitHub仓库(https://github.com/ultralytics/ultralytics)。YOLOv11在继承前代模型设计理念的基础上,对网络结构、特征融合机制及推理流程进行了系统性优化,显著提升了模型的检测精度与运行效率;作为Ultralytics官方系列的重要版本,该模型具备优异的通用性与扩展性,可支持目标检测、实例分割、图像分类及姿态估计等多种视觉任务,已被广泛应用于科研研究与工程实践领域。
3.2. YOLOv11-seg算法
YOLOv11-seg是一种先进的目标检测与实例分割框架,在继承YOLO系列高效性优势的基础上,进一步强化了对分割任务的精确表达能力。该模型不仅能够胜任常规的目标检测任务,在处理复杂场景下的实例分割时同样表现出色。其整体架构主要由三大核心部分构成:骨干网络(Backbone)、颈部结构(Neck)以及头部模块(Head) [12],YOLOv11模型的整体网络结构详见图3。
Figure 3. YOLOv11 network architecture diagram
图3. YOLOv11网络结构示意图
骨干网络(Backbone)负责对输入图像进行逐层卷积和下采样,提取由低层纹理到高层语义的多尺度特征,为后续任务提供丰富的表征能力;颈部结构(Neck)则通过特征金字塔网络、路径聚合网络等机制对不同层次特征进行跨尺度融合,从而增强模型对各类目标,尤其是小目标和复杂场景下目标的感知与定位能力;头部模块(Head)在此基础上完成最终预测,其中检测分支负责输出目标的类别概率与边界框回归,分割分支则生成精细的像素级掩码,实现对目标区域的精确分割。三者协同作用,使得模型在端到端的优化框架下,不仅能够高效处理大规模林业遥感影像,还能在复杂背景中保持对不同树种的精细辨识,从而使YOLOv11-seg在树种实例分割任务中展现出更高的效率与精确度。
3.3. 引入类别权重机制
原始的YOLOv11-seg模型在设计时并未引入类别权重机制,其分类损失函数默认对所有类别赋予相同权重。然而,在本研究所涉及的林业样地中,不同树种的分布存在显著的不均衡特征:部分树种样本数量充足,而部分稀有树种则样本有限。如果仍采用原始的等权损失设计,训练过程中模型将更容易偏向于样本量较大的优势类别,从而造成对少数类的识别精度下降,并在复杂林分场景下显著削弱模型的泛化能力和鲁棒性。
针对这一问题,本研究在原有损失计算框架的基础上引入了类别权重(class weights)机制,即在损失函数的计算环节对不同类别赋予差异化的权重系数。该方法通过提升少数类在梯度反向传播过程中的影响力,抑制了训练过程中过度依赖优势类样本的趋势,从而实现对类别不均衡的自适应校正。实验结果表明,该机制不仅有效提高了稀少树种的识别精度,还在整体上增强了模型在复杂林业遥感影像下的分类准确性与鲁棒性,为林业监测与树种精细识别提供了更可靠的技术支撑。改进后的Loss计算过程见图4。
Figure 4. Loss calculation flowchart
图4. Loss计算流程图
3.4. 实验及评价指标
1) 实验设置及模型训练参数
本文的实验均在Windows 11操作系统下进行,硬件配置包括NVIDIA GeForce RTX 4060 Laptop GPU 显卡和Intel(R) Core(TM) i9处理器,为深度学习模型的训练和推理提供了强大的计算性能。实验采用Python 3.9.21作为编程语言,深度学习框架基于PyTorch 2.0.1并结合CUDA 11.8及cuDNN 8.7.0提供GPU加速支持,从而显著提高了卷积计算和模型训练的效率。在软件环境方面,本文应用了Numpy、OpenCV、ONNX、Albumentations、Matplotlib等常用模块,实现了树种实例分割模型的构建、训练与预测,并通过数据增强、模型优化等技术提升了模型性能和泛化能力。
本实验在YOLOv11-seg模型训练中选用AdamW优化器,并结合学习率衰减策略与权重衰减正则化,以提升模型的收敛效率与泛化能力。在训练环境和超参数设置方面,各组实验保持一致,仅在树种类别的样本权重上进行差异化配置,以有效缓解类别不平衡对训练的影响。通过对不同权重策略下训练得到的模型进行系统评估与对比,最终筛选出在目标分类与实例分割任务中性能最优的模型结构,为后续实验提供了可靠的基础。模型训练参数设置如表1所示。
Table 1. Training parameter settings
表1. 训练参数设置表
optimizer |
dropout |
epochs |
imgsz |
batch |
lr0 |
lrf |
AdamW |
0.2 |
200 |
640 |
24 |
0.001 |
0.01 |
2) 评价指标
为验证所提出模型的性能,本文采用准确率(Precision)、召回率(Recall)、F1分数(F1 Score)、平均精度均值(mean Average Precision, mAP) [13]进行分析评估。准确率用于衡量预测结果中正类判定的可靠性,召回率反映对真实正类样本的检出能力,F1分数作为二者的调和平均值,可用于衡量模型在精确性与完整性之间的平衡表现;而mAP作为目标检测与实例分割领域的核心指标,则能够在多类别和多阈值条件下综合反映模型的检测与分类性能。总体而言,这些指标数值越高,说明模型在目标分割任务中的表现越优,分割结果越为精确和稳定。Precision、Recall、F1分数、平均精度均值表达式如下:
(1)
(2)
(3)
(4)
其中:其中TP是被正确预测为正类的样本数量,FP是被错误预测为正类的样本数量,FN是被错误预测为负类的样本数量,C通常表示样本类别的数量,公式中使用AP(i)来表示第i类别的平均精度。
4. 结果与讨论
4.1. 最优权重比例实验结果比较
为系统评估YOLOv11-seg初始模型在树种分类与实例分割任务中的性能,本研究选取了包含984个单株树木样本的108张实地采集照片作为验证数据集,并采用AdamW优化算法对模型进行训练;经过200轮的训练,初始模型在训练集与验证集上均取得了较为理想的效果。实验结果表明,随着训练历元数的增加,训练集的准确率(Precision)、召回率(Recall)以及mAP@50等核心评价指标均呈现出稳定上升的趋势,表明模型在特征学习与泛化能力方面逐步增强。在此基础上,引入类别权重模型进一步提升了整体性能,在分类精度与分割效果上均优于初始模型,从而充分验证了改进方法的有效性与必要性。初始模型与改进模型的对比结果如表2所示,直观反映了不同模型在关键指标上的差异与提升幅度。
Table 2. Performance comparison of YOLOv11 models with different weighting ratios
表2. 不同权重比例YOLOv11模型性能对比
权重比例(LYS:HTQ:YS:BH) |
Precision (%) |
Recall (%) |
mAP@50 (%) |
F1 Score (%) |
训练时间(min) |
1:1:1:1 (原始) |
90.14 |
83.57 |
90.61 |
85.84 |
23.21 |
1:1:1:1.5 (改进) |
90.65 |
86.22 |
91.15 |
87.24 |
23.46 |
1:1:1:2 (改进) |
90.81 |
84.49 |
90.94 |
86.67 |
23.62 |
实验过程中,由于白桦树种样本数量相对较少,类别分布存在不均衡现象,因此仅对白桦类别的权重系数进行了调整,本研究系统评估了不同类别权重比例(落叶松:胡桃楸:榆树:白桦,即LYS:HTQ:YS:BH)对YOLOv11-seg模型性能的影响。结果表明,仅调整类别权重对训练时间影响不显著。原始权重比例1:1:1:1的模型在Precision、Recall、mAP@50和F1 Score上分别为90.14%、83.57%、90.61%和85.84%。在引入改进权重后,1:1:1:1.5的模型在各项指标上均有明显提升,其中 Precision 为90.65%,Recall为86.22%,mAP@50达到91.15%,F1 Score为87.24%。相比之下,1:1:1:2的模型虽然Precision略高(90.81%),但Recall、mAP@50及F1 Score均略低于1:1:1:1.5。综合各项性能指标分析,1:1:1:1.5的权重比例在保证高精度的同时显著提升了模型对少数类别的召回能力,因而在整体性能上优于其他权重方案,验证了适度增加白桦类别权重的有效性。
4.2. 模型收敛的实验研究
基于第4.1节的类别权重机制对比实验,本研究确定1:1:1:1.5的类别权重配置为最优方案,该配置在各类别间实现了有效平衡,有助于缓解类别不均衡对模型训练的不利影响。在此基础上,为进一步提升YOLOv11-seg模型的整体性能并增强训练过程的稳定性,训练轮数由200个epoch延长至300个epoch,以系统评估更长训练周期对模型收敛特性及性能指标(mAP, Precision, Recall, F1 Score)的影响。延长训练周期不仅可观察模型后期的收敛稳定性,还能够验证其在关键性能指标上的优化潜力,为模型在复杂林业遥感任务中的应用提供坚实的实验依据。
如图5所示,YOLOv11-seg模型在训练过程中表现出较好的收敛性与稳定性。随着训练轮数的增加,mAP@50、Precision、Recall和F1 Score四项指标均呈现出先快速上升、后逐渐趋于平稳的变化趋势。在前100个epoch内,模型性能迅速提升,表明其能够较快地学习目标特征;在100~200个epoch阶段,尽管各项指标存在一定波动,但整体仍保持上升态势;至220个epoch之后,各项指标逐渐收敛并趋于稳定。最终,模型在mAP@50和Precision上分别稳定在约0.92和0.91,说明模型在分割过程中具有较高的检测精度和较低的误报率;Recall指标约为0.87,表明模型对真实目标的检出能力较强;F1 Score稳定在0.88,进一步验证了Precision与Recall之间的良好平衡。综合来看,YOLOv11-seg模型在本实验中的训练过程稳定,收敛性能良好,最终达到了较高的检测与分割准确性。部分验证集的测试结果详见图6。
Figure 5. Curve chart of model performance metrics vs training iterations
图5. 模型性能指标随训练迭代次数变化曲线图
Figure 6. Partial validation set results
图6. 部分验证集验证结果
4.3. 优化树种分类模型的性能评价
为系统评估改进后的树种分类模型性能,本研究结合F1-置信度曲线、Precision-置信度曲线、混淆矩阵及散点图矩阵,对模型的分类精度、稳定性及类别判别能力进行了多维度分析。模型训练结果的性能指标如图7所示。
(a) F1-confidence曲线图
(b) Precision-confidence曲线图
(c) 归一化混淆矩阵
(d) 散点图矩阵
Figure 7. Schematic diagram of model training results analysis
图7. 模型训练结果分析示意图
综合多项评价指标结果可知,优化后的YOLOv11-seg模型在树种实例分割任务中表现优异。Precision-Confidence曲线显示,当置信度阈值设为0.951时,模型精确率达到1.00,几乎无误判,体现出极强的判别能力;F1-Confidence曲线表明,在阈值0.430时平均F1分数达到0.90,充分说明模型在精确率与召回率之间实现了良好平衡;归一化混淆矩阵进一步验证了模型的稳健性,四个类别的召回率均在0.88以上,类别识别可靠性突出;同时散点图矩阵显示目标中心点分布均匀,长宽比例稳定且符合真实形态,表明模型检测无区域偏差,具备较强的尺度建模与特征提取能力。总体而言,该模型不仅在分类与分割准确性上表现卓越,还在空间均衡性与泛化能力上展现出高度可靠性。
5. 结论
本文选取帽儿山林场及林大示范基地的9块样地,以获取的可见光遥感影像和现地调查数据为基础,对样地树种信息进行了系统化整理与预处理,进而构建实验数据集,并依托YOLOv11深度学习模型开展树种实例分割训练。研究结论如下:
1) 通过引入类别权重机制对树种分类进行优化调整,并在200轮训练的综合分析基础上,确定落叶松:胡桃楸:春榆:白桦的最优权重比例为1:1:1:1.5。实验结果表明,在该配置下,模型的准确率、召回率、mAP@50和F1分数分别达到90.65%、86.22%、91.15%和87.24%,较原始YOLOv11模型均有所提升。该研究不仅有效提高了树种识别的自动化水平,也显著增强了模型在复杂自然环境中的适用性。
2) 将训练轮次扩展至300次后,模型性能随训练稳步提升,并在约220次后趋于平稳收敛,准确率、召回率、mAP@50和F1分数分别稳定在91%、87%、92%和88%。结果表明,较长的训练周期不仅有助于模型收敛并提升泛化能力,同时也体现了改进后YOLOv11-seg模型在本实验中的良好训练稳定性与收敛特性。
3) 训练结果的F1-置信度曲线、Precision-置信度曲线、混淆矩阵及散点图矩阵分析表明,改进后YOLOv11-seg在精确率与召回率之间实现良好平衡,既保持高识别准确性,又兼顾全面的目标检测能力,同时能够有效捕捉目标的尺度与形态特征,展现出稳健性与可靠的建模能力。
综上所述,所提出的算法在树种实例分割中表现优异,为生物量估算、碳汇评估及森林监测等提供了潜在支持,但受数据不平衡、季节性泛化能力及图像质量等因素制约。未来可通过扩展树种类别、丰富训练样本及优化多源数据处理策略,以进一步提升模型的精度与鲁棒性。
NOTES
*通讯作者。