基于无人机可见光影像和点目标检测的烟草烟株计数
Counting Tobacco Plants Based on UAV Visible Images and Point-Wise Object Detection
DOI: 10.12677/csa.2025.158205, PDF, HTML, XML,    科研立项经费支持
作者: 张雨轩:济南云稷数字科技有限公司,山东 济南;聊城大学农学与农业工程学院,山东 聊城;黄 姗*, 黄永新, 潘 羲, 苏忠祯, 江昌盛:福建省三明市烟草公司沙县分公司,福建 三明;崔文昌, 赵仁杰, 胡耀红:济南云稷数字科技有限公司,山东 济南
关键词: 烟草烟株无人机影像中心点检测深度学习Tobacco UAV Image Center Point Detection Deep Learning
摘要: 无人机是一种灵活、便携、实时、高效的影像采集工具,被普遍应用于烟草烟株定位及计数,本研究以烟草烟株为研究对象,以无人机影像为数据,提出一种新的烟草烟株记数深度学习模型,该模型区别于传统的基于外围矩形框的目标检测,本文以中心点预测为目标学习烟草区域尺度形态,并采用轻量级的编、解码器从无人机遥感影像快速识别烟草。首先,本文提出的模型针对烟草植物形态学特点,通过中心关键点标注的方法,采用了基于SSD (Single Shot Multibox Detector)的多层特征融合方法,将来自不同深度层次的特征图进行融合,有效提高了目标检测的准确率。其次,对比分析了检测模型在不同高度的图像下的检测精度,本文提出的CDNet平均检测精度 > 98.89%,满足业务化应用的需求。本文提出的烟草烟株计数深度学习模型能够准确地检测不同飞行高度和不同生长期的无人机遥感影像中的烟草烟株,为烟草烟株的生长监测提供可靠数据支持。
Abstract: Drones are flexible, portable, real-time, and efficient tools for locating and counting tobacco plants. This study proposes a new deep learning model that detects tobacco plants from drone remote sensing images. Unlike traditional object detection methods that use rectangular boxes to enclose the targets, this model predicts the center point of each tobacco plant and learns its scale and shape. The model also uses a lightweight encoder and decoder to quickly identify tobacco plants from the images. The main contributions of this paper are as follows: First, the model adapts to the morphological characteristics of tobacco plants and uses a center key point annotation method. It also employs a multi-layer feature fusion method based on SSD (Single Shot Multibox Detector) to combine feature maps from different depth levels, which effectively improves the detection accuracy. Second, the model is tested on images at different heights and compared with other detection methods. The average detection accuracy of the proposed CDNet is higher than 98.89%, which meets the requirements of practical applications. The proposed deep learning model can accurately detect tobacco plants in drone remote sensing images with varying flight altitudes, growth stages, and resolutions, providing reliable data support for monitoring the growth of tobacco plants.
文章引用:张雨轩, 黄姗, 崔文昌, 赵仁杰, 黄永新, 潘羲, 胡耀红, 苏忠祯, 江昌盛. 基于无人机可见光影像和点目标检测的烟草烟株计数[J]. 计算机科学与应用, 2025, 15(8): 151-160. https://doi.org/10.12677/csa.2025.158205

1. 引言

无人机遥感技术是一种高效、快速获取大量空间数据的方法[1],该技术在烤烟种植中发挥着重要作用。无人机可以搭载各种遥感传感器,如高光谱传感器、热红外传感器和激光雷达等,通过对烤烟田地的空间数据进行采集和分析,可以实现对烟草种植的精细化管理。在烟草种植中,无人机遥感技术不仅可用于监测烟草生长状态和病虫害情况,还可以用于调查烟草田的土地利用等指标因子[2]-[4],进而为决策者提供及时、精准的信息。无人机遥感技术在烤烟种植中具有广阔的应用前景,它将成为未来烤烟种植管理的重要手段之一,也将为其他农作物的种植提供有益的借鉴和启示。

传统数字图像处理、传统机器学习及深度学习,是目前利用无人机遥感自动识别作物植株的主要研究路线。数字图像分割方法(如大津算法[5])、角点检测算法(如Moravec算子[6])这些传统数字图像处理方法可以有效识别作物植株,但泛化性不强。基于机器学习的方法进行作物计数,需要结合先验知识,人工设计无人机影像上作物的形态学特征和光谱特征,建立特征和株数间的计数模型。深度学习在作物计数领域的应用方法可分为:目标检测、图像分割和密度图积分。基于目标检测的计数方法,如YOLOv7 [7]、Faster R-CNN [8] [9]等;基于图像分割的方法,如FCN (Fully Convolutional Networks) [10]、U-Net [11]等;基于密度图积分的方法,如MCNN (Multi-scale Convolutional Neural Networks) [12]、TasselNet [13]。在上述方法中,基于目标检测与图像分割的方法,与传统机器学习方法相同,植株在图像上的连通及遮挡会极大降低计数精度,基于密度图积分的方法主要针对复杂场景中的计数问题,如果穗计数[14] [15]等。与数字图像处理方法和传统的机器学习算子相比,基于深度学习的方法无需人工设计特征,且可利用海量数据优势并具有较优性能。

烤烟烟株在无人机影像上,具备由中心点沿径向扩展的纹理特征[16],基于此特点,饶雄飞等构建了基于无人机多光谱影像和关键点检测的烟草植株计数方法[17],最高精度所对应的主干网络为ResNet18,然而在实际生产中,在不改变感光元器件尺度的前提下,光谱波段的增加会降低图像的空间分辨率[18],并且提高了设备的售价,增加了技术应用的门槛,因此基于传统的红、绿、蓝三波段光学传感器进行烟草烟株的识别技术,具备更广的应用推广价值。从识别精度上[17],也分析了不同波段组合下烟草识别精度的差异,特别指出,在使用蓝、绿、红波长下的图像进行多波段融合识别时,共生植被杂草也会被识别为烤烟植株,即模型在真彩色合成图像上,不能将烤烟烟株与周边杂草进行准确的区分,即使烟草的中心点与杂草的中心点,在形态及纹理上具有明显的差异,因此本文通过检测烟草植株中心点的方法改善可见光波段对烟草烟株的识别精度。

在实际生产中,无人机的飞行效率是株数检测计数的一项关键指标,而飞行高度可以极大提升基于无人机数据进行烤烟烟株清点的效率。传统的方法图像分辨率较高,为2 cm~4 cm,本文针对烟草烟株的识别,通过不同飞行高度的无人机影像进行烟草的计数,利用烟草植物形态学特点使用点状标注,构建了不同高度下的烟草烟株识别数据集,在纹理特征明显且互不遮挡的时相上,将烤烟烟株的图像与模板特征匹配的概率算子化,引入新的统计信息量,构建烤草烟株检测模型。该模型结构综合利用不同的网络架构作为编码器,减少权重数量,构建易于部署的轻量化网格。该网络实现了在毫米级空间分辨率下对烟草烟株的准确识别,准确率 > 98%以上,极大提高了无人机用于烟草计数作业时的飞行效率。相较于以往的深度学习网络,该网络可以同时适配不同高度、不同分辨率、不同生长期下的无人机图像的烟草烟株目标检测。

2. 数据获取与方法

2.1. 研究区概况

研究区域位于福建省三明市沙县区夏茂镇(北纬26.580851˚东经117.656953˚)的烟草种植示范区(图1)。该镇种植烟草品种为翠碧一号。为减少烟草植株叶片之间粘连与遮挡对图像识别的影响,在伸根期开展此项研究,此时烤烟烟苗处于移栽还苗后的5~10天内,植株形态生长迅速,纹理特征最为明显,是栽培管理技术密集的时期,苗情检测场景具有重要的生产价值。

2.2. 数据获取及标注

2.2.1. 无人机可见光影像采集与预处理

本研究在烟草伸根期利用大疆精灵4 RTK (https://www.dji.com/cn/phantom-4-rtk)拍摄烟草种植区(部分区域约0.53 hm2),如图2所示。影像拼接均利用DJI Terrra版本3.1.4完成,拼接后的影像如图2所示。在不同飞行高度,无人机相机拍摄的烟草烟株如图3所示。

2.2.2. 数据标注

由于烤烟烟株的中心点特征较为显著,本文对烟草中心位置进行标注,标注工具使用Labelme [19],如图4所示,此种标注方法对原始图像质量要求较低,同时具备较高的标注质量。

2.3. 烟草计数及定位方法

2.3.1. 方法

基于点的检测框架一般用于小目标检测,由于点检测框架引入了密度归一化平均精度指标,可对目标检测结果提供更全面和更精确的性能评估。本文基于中心点提出了一个新的作物检测网络(CDNet: CropDetectionNet),CDNet是一种端到端的检测网络,直接预测点来表示图像中烤烟植株的中心点。

Figure 1. Overview of the study area

1. 研究区概况图

Figure 2. Bottom map of the DJI Phantom 4 RTK version in the study area

2. 研究区DJI Phantom 4 RTK版无人机底图

(a) (b) (c)

Figure 3. Example of tobacco plants taken at different flight altitude and growth periods. (a) 100 m, early stage of tobacco root extension; (b) 100 m, middle stage of tobacco root extension; (c) 50 m, middle stage of tobacco root extension

3. 无人机在不同飞行高度及生长期下拍摄的烟草烟株示例。(a) 100米,烟草伸根期早期;(b) 100米,烟草伸根期中期;(c) 50米,烟草伸根期中期

Figure 4. Interface for tobacco plant central point data annotation using Labelme

4. 使用Labelme进行烟株中心点数据标注的界面

2.3.2. 网络结构

CDNet的网络设计分为三个主要部分:特征提取模块、分类子网络和点坐标回归子网络,如图5所示。特征提取模块使用了一个基于ResNet18的卷积神经网络,该网络包含13个卷积层来提取深层特征。然后解码网络使用最近邻插值将特征图的空间分辨率上采样两倍,并通过元素级别的加法将上采样的特征图与侧向连接的特征图合并,合并的特征图经过3 × 3的卷积层以获得,其中卷积用于减少由上采样引起的混叠效应。最后我们将作为输入并分别产生点坐标和置信度分数,为简单起见,两个分支的架构保持相同,由三个堆叠的卷积层和ReLU激活交替组成。

Figure 5. Structural diagram of the tobacco strain detection model

5. 烟草烟株检测模型结构图

2.3.3. 损失函数Loss

在获取了真值点之后,我们利用欧几里得损失函数 p 来监督点回归,并使用交叉熵损失 c 来训练实例点分类。最终的损失函数 是上述两个损失的总和,定义如下:

c = 1 M { i=1 N log p i + λ 1 i=N+1 M log( 1 p i ) }

p = 1 N i=1 N y i y ^ i 2

= c + λ 2 p

其中 N 表示一张影像中的真值点数目, M 表示网络预测点数目, y i 为标定的真值点坐标, y ^ i 为预测的实例点坐标, p i 表示 y i 的预测概率, 表示两点的欧氏距离, y i 为标定的真值点坐标, y ^ i 为预测的实例点坐标, λ 1 表示错误预测的权重, λ 2 是点预测损失函数的权重因子。

2.3.4. 评价指标

文使用归一化平均精度( nAP )来评价定位误差和计数精度作为整体检测精度的评价指标。给定所有的检测点,首先将检测点按照置信度进行排序,然后对每个真值点和其最近邻预测点进行判断分析,如果两点之间的距离与该真值点和其k最近邻真值点(k = 3)的平均距离值之比小于0.5,则该真值点与其最近邻预测点的 TP 值为1,否则为0。 nAP 是所有真值点的 TP 值之和与真值点数 N 的比值,定义如下:

nAP= i=1 N T P i N

2.3.5. 模型训练环境

本模型基于PyTorch训练框架,在Windows 11系统下,使用NVIDIA GeForce RTX 3090进行训练。

3. 结果

本次测试基于无人机不同飞行高度(50 m、100 m)下,获取了烟草植株伸根早期(还苗后5 d)、伸根后期(还苗后10 d)的3个烟田地块的影像,计算了不同高度下无人机影像的烟草计数精度对比,结果如表1所示。结果表明,在两个飞行高度及两个烟株生长期的条件下取得了98.89%以上的计数准确率。不同飞行高度下,伸根早期的计数精度高于伸根中期;在同一生长时期,不同飞行高度下的计数精度差异不明显。识别点株结果如图6~8所示。

Table 1. Count accuracy of tobacco plants obtained at different UAV flight heights and growth periods

1. 不同无人机飞行高度及生长期下获取的烟草植株影像的计数准确率

飞行高度/m

生长期

人工现场计数

无人机图像计数

计数精度/%

1

2

3

1

2

3

1

2

3

平均

100

伸根早期

2169

2068

2270

2151

2049

2285

99.17

99.08

99.34

99.20

50

伸根中期

1531

1036

1721

1520

1027

1731

99.28

99.13

99.42

99.28

100

伸根中期

1809

955

1343

1790

966

1328

98.95

98.85

98.88

98.89

Figure 6. Early root extension stage of flue-cured tobacco plant (flight altitude of 100 m)

6. 烤烟烟株伸根期早期(飞行高度100 m)

Figure 7. Middle root stage of flue-cured tobacco plant (flight altitude of 100 m)

7. 烤烟烟株伸根期中期(飞行高度100 m)

Figure 8. Middle of root extension of flue-cured tobacco plant (flight altitude 50 m)

8. 烤烟烟株伸根期中期(飞行高度50 m)

4. 讨论

1) 在视觉领域,基于点检测的方法已经被普遍应用。例如,在姿态估计领域,一些方法采用热图回归或直接点回归来预测预定义关键点[20],由于要预测的关键点数量是固定的,因此这些点目标可以在训练之前完全确定。然而,所提出的框架旨在预测一个未知大小的点集,是一个未解决的问题。因此,这种方法的一个关键问题是确定当前预测应该负责哪个真实点。本研究提出的CDNet方法在训练阶段采用一种互相最优的一对一关联策略来解决这个关键问题。首先,对于每个真实点,最近距离的实例预测应该产生最佳预测。然而,如果我们为每个真实点选择最近的点预测,很可能会出现一个点预测被匹配到多个真实点的情况。在这种情况下,只有一个真实点可能被正确预测,导致计数被低估,特别是在点密集的区域。其次,对于每个点预测,我们可以将最近的真实点分配为其目标。因此,关联过程应该考虑双方,本文通过点云点之间的距离阈值对匹配过程进行过滤,并产生相互最优的一对一匹配结果。

2) 本文根据在一对一匹配过程中考虑点预测的置信分数有助于提高检测精度,我们采用如下策略对匹配结果进行奖惩:假如真值点A有两个预测点。如果它们具有相同的置信度分数,则更接近A的应为正确匹配,并被鼓励实现更高的定位精度。而另一个预测点应被匹配为负面预测,并降低其置信度,因此在下一个训练迭代期间可能不会再次匹配。相反,如果两个预测与点A具有相同的距离,则置信度较高的预测点应被训练为更接近A,并具有更高的置信度。上述两种情况都将鼓励正面的预测点具有更准确的位置以及相对较高的置信度,与之前的研究结果相比[21] [22],这有利于在所提出的框架下改进检测结果。

3) 烟草株数统计是烟叶合同管理及部分烟草生产补贴的依据,也为年度烟叶社会产量及收购量预测提供重要依据。采用无人机取像、计算机识别并进行株数统计是今后烟草行业数字化转型升级,开展高效管理工作的重要手段。在未来的研究中,我们将比较烟草大田全生育期的不同时间节点的点株影像,分析无人机航向及旁向重叠率在烟草场景下,对无人机数据拼接的影响,探究作物平面尺寸与无人机分辨率的相关性,选取最优无人机点株作业窗口期。

5. 结论

本文基于中心点提出的新的作物检测网络(CDNet: CropDetectionNet),具有很好的性能以及稳定性,基本可适配早期烟草烟株形态及不同的飞行高度。这对于使用无人机技术进行烟株计数的工作人员具有极大的便利。同时该方法对数据采集阶段对于无人机飞行高度及时间窗口的要求较为宽松,从而极大减轻工作人员在烟株计数方面的工作量,其还具有快速、准确、低成本、高效率、周期短及实时性强的特点,具有极大的实用和经济价值。

基金项目

本研究得到福建省烟草公司三明市公司科技项目(2021YY002)的支持。

NOTES

*通讯作者。

参考文献

[1] Osco, L.P., Marcato Junior, J., Marques Ramos, A.P., de Castro Jorge, L.A., Fatholahi, S.N., de Andrade Silva, J., et al. (2021) A Review on Deep Learning in UAV Remote Sensing. International Journal of Applied Earth Observation and Geoinformation, 102, Article ID: 102456.
https://doi.org/10.1016/j.jag.2021.102456
[2] 李佛琳. 基于光谱的烟草生长与品质监测研究[D]: [博士学位论文]. 南京: 南京农业大学, 2006.
[3] 尹慧, 蒋云雨, 姜自斌, 等, 基于无人机遥感简析烟田监测技术的应用现状[J]. 农业工程技术, 2022, 42(6): 28-29.
[4] 李朋彦. 基于无人机高光谱遥感的烤烟生长监测[D]: [博士学位论文]. 郑州: 河南农业大学, 2019.
[5] Ostu, N. and Nobuyuki, O.A. (1979) A Threshold Selection Method from Gray-Level Histograms. IEEE Transactions on Systems, Man, and Cybernetics, 9, 62-66.
https://doi.org/10.1109/tsmc.1979.4310076
[6] Moravec, H.P. (1980) Obstacle Avoidance and Navigation in the Real World by a Seeing Robot Rover. Stanford University.
[7] Wang, C., Bochkovskiy, A. and Liao, H.M. (2023) YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 17-24 June 2023, 7464-7475.
https://doi.org/10.1109/cvpr52729.2023.00721
[8] Sun, X., Peng, J., Shen, Y. and Kang, H. (2020) Tobacco Plant Detection in RGB Aerial Images. Agriculture, 10, Article No. 57.
https://doi.org/10.3390/agriculture10030057
[9] Ren, S., He, K., Girshick, R. and Sun, J. (2017) Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39, 1137-1149.
https://doi.org/10.1109/tpami.2016.2577031
[10] Long, J., Shelhamer, E. and Darrell, T. (2015) Fully Convolutional Networks for Semantic Segmentation. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, 7-12 June 2015, 3431-3440.
https://doi.org/10.1109/cvpr.2015.7298965
[11] Ronneberger, O., Fischer, P. and Brox, T. (2015) U-net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015: 18th International Conference, Munich, 5-9 October 2015, 234-241.
https://doi.org/10.1007/978-3-319-24574-4_28
[12] Zeng, L., Xu, X., Cai, B., Qiu, S. and Zhang, T. (2017) Multi-Scale Convolutional Neural Networks for Crowd Counting. 2017 IEEE International Conference on Image Processing (ICIP), Beijing, 17-20 September 2017, 465-469.
https://doi.org/10.1109/icip.2017.8296324
[13] Lu, H., Cao, Z., Xiao, Y., Zhuang, B. and Shen, C. (2017) TasselNet: Counting Maize Tassels in the Wild via Local Counts Regression Network. Plant Methods, 13, 1-17.
https://doi.org/10.1186/s13007-017-0224-0
[14] Guo, H. (2023) Wheat Head Counting by Estimating a Density Map with Convolutional Neural Networks.
[15] Kitano, B.T., Mendes, C.C.T., Geus, A.R., et al. (2019) Corn Plant Counting Using Deep Learning and UAV Images. IEEE Geo-Science and Remote Sensing Letters, 1-5.
[16] 王帅, 郭治兴, 梁雪映, 等. 基于无人机多光谱遥感数据的烟草植被指数估产模型研究[J]. 山西农业科学, 2021, 49(2): 195-203.
[17] 饶雄飞, 周龙宇, 杨春雷, 等. 基于无人机多光谱影像和关键点检测的雪茄烟株数提取[J]. 农业机械学报, 2023, 54(3): 266-273.
[18] Peppa, M.V., Hall, J., Goodyear, J. and Mills, J.P. (2019) Photogrammetric Assessment and Comparison of DJI Phantom 4 Pro and Phantom 4 RTK Small Unmanned Aircraft Systems. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2, 503-509.
https://doi.org/10.5194/isprs-archives-xlii-2-w13-503-2019
[19] Russell, B., Torralba, A., Murphy, K. and Freeman, W.T. (2007) LabelMe: A Database and Web-Based Tool for Image Annotation. International Journal of Computer Vision, 77, 157-173.
[20] Zheng, S., Xie, Y., Li, M., Xie, C. and Li, W. (2022) A Novel Strategy for Global Lane Detection Based on Key-Point Regression and Multi-Scale Feature Fusion. IEEE Transactions on Intelligent Transportation Systems, 23, 23244-23253.
https://doi.org/10.1109/tits.2022.3194633
[21] Song, Q., Wang, C., Jiang, Z., Wang, Y., Tai, Y., Wang, C., et al. (2021) Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, 10-17 October 2021, 3345-3354.
https://doi.org/10.1109/iccv48922.2021.00335
[22] Lin, T., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., et al. (2014) Microsoft COCO: Common Objects in Context. Computer Vision-ECCV 2014: 13th European Conference, Zurich, 6-12 September 2014, 740-755.
https://doi.org/10.1007/978-3-319-10602-1_48