1. 引言
目前国家对于提高林业保护要求非常迫切,对植被的管理和保护,以及进行可持续森林管理成为了森林经营和林业研究的重要课题 [1]。对森林树种高效准确地分类对于理解森林组成、保护森林资源和了解树种分布情况具有重要意义 [2] [3]。用传统方法进行地面调查在大范围的森林资源调查中耗时长、成本高、效率低。目前基于无人机光学影像数据进行的树种分类 [4] 方法主要有三类,支持向量机(Support Vector Machine, SVM)、决策树(Decision Tree, DT)模型、卷积神经网络(Convolutional Neural Network, CNN)。
1) 支持向量机相较于人工神经网络虽然有更好的泛化能力,并且算法具有全局最优性,但万意等 [5] 进行了基于支持向量机的光学遥感影像分类实验得到的结论说明了支持向量机仅仅依靠光谱信息不能充分地进行分类。
2) 赵雪清等 [6] 进行了决策树与人工神经网络的对比分析得出的结论说明了决策树在处理特征关联性比较强的数据时表现较为一般,没有人工神经网络稳定、精度高。通过决策树进行的遥感分类实验大多结合多光谱数据,相较于RGB光学数据拥有更多的光谱信息,才能更好地提取特征。
3) 卷积神经网络具有自动学习分类特征的能力 [7],其中卷积作为特征提取器,神经网络作为分类器,避免了传统识别方法中复杂的特征提取和数据构建的过程 [8],能在多个图像分类任务中取得优异的分类效果,是目前热门的分类技术。卷积神经网络的层数越多,提取的特征就会越充分,因此探索深层的网络模型成了新的趋势。但是,随着网络深度的增加梯度消失问题也会出现,网络的后层不能有效地学习到分类特征,再增加网络层数时就会出现梯度下滑等问题。
针对网络层数增加梯度减少的问题,本文采用了具有密集连接机制的DenseNet (密集神经网络)模型,任意一层都与它之前的所有层直接连接,得到的输入都是前面所有层输出结果的叠加,而该层所得到的结果也和前面所有层的输出一起作为输入传输给下一层,这样依次向下传输,将自身的特征图传递到后续的所有层,保证了每层都能得到前额特征。在传统的N层网络中只有N个直接连接,而在DenseNet中却有N(N − 1)/2个直接连接。这种网络结构在面对多树种、高密度的森林遥感影像时有优异的分类表现。但是,每个密集层都密集连接在一起引起了输出通道过多,加大了网络的参数和计算量,本文提出了一种DenseNet_BL模型,在分类模型的残差块之间插入小型卷积核作为瓶颈层(Bottleneck Layer),对输入的特征图进行降维,减少网络的参数,提高网络模型的收敛速度。
2. 研究区及数据情况
2.1. 研究区概述
琅琊山林区位于安徽省滁州市琅琊区西南部,地处东经118˚07′35″~118˚18′21″、北纬32˚15′17″~32˚21′49″之间,属于江淮之间的低山丘陵地带,地形为西南高,东北低,主峰小丰山,海拔约317米,其它山峰高度在海拔200~300米之间,总面积240平方公里,是北亚热带向暖温带过渡的湿润季风气候区,林地主要为天然次生林和人工林、针叶林和阔叶林相互交错呈块状、带状混交体系,其间常见的乔木有樟树、广玉兰、龙柏、麻栎、女贞等,常见的灌木有红叶石楠、冬青、桂花树等。山间气候温和,雨量充沛,季风明显,四季分明,因而“四时之景不同”。山间年平均气温为15.2℃,冬季月平均气温为1.5℃~4.5℃,夏季七、八月平均气温为27℃~28℃,年平均降水量约为1050毫米,全年无霜期为217天。良好的气候,给山区林木的繁殖和其他物类的繁衍创造了有利的条件 [9]。
2.2. 数据采集与处理
本文使用的是分辨率为20,480 × 20,480的无人机航拍数据制成的数据集。数据集中共有樟树、女贞、红叶石楠、龙柏、桂花树五类树种,共计300张图像。对基础数据集中的每一类首先划分出训练集、测试集和验证集,随后对训练集再通过镜像、垂直翻转、水平翻转以及旋转90˚和180˚的方式进行数据增强,增加到原来的6倍,得到训练集:验证集:测试集 = 3:1:1。
3. 研究方法
3.1. DenseNet (密集神经网络)
本次实验环境为Pyhthon3.7,基于PyTorch框架,训练使用的计算机为:RTX2060显卡,显存为12GB。模型的批量大小为32 (BATCH SIZE),模型初始学习率为0.00001,训练次数为300次,采用随机梯度下降算法对参数进行更新,加快了收敛速率。
本文使用的算法主体是DenseNet (密集神经网络) [10],DenseNet模型优化了网络中信息和梯度的传递,使得 DesneNet模型更加容易被训练。每层可以直接利用损失函数的梯度以及最开始的输入信息进行调整,有助于训练深层网络。其主要结构是由Dense Block (内部密集模块)和Transition Layer (过渡层)组成的。实现了神经网络的密集连接,构建了“前层传递”的方法,即在网络模型中的每一层输出都来自于前面所有层的传递,这种“前层传递”的方式有效避免了梯度弥散的问题,保证了能获得网络层的最大信息 [11] [12]。(下列(1)式和(2)式中
代表第n层的输出,
为每一层的非线性函数,
为各层的密集连接)
在ResNet中的特征传递方式为恒等映射:
(1)
对ResNet而言,n层的输出是l − 1层的输出加上对n − 1层输出的非线性变换。自身与经过Hn得到的输出是通过求和的形式来连接的。这会使网络中信息的传播受到影响。
在DenseNet中的特征传递方式为“前层传递”,能够更有效地将原始特征传递给后续网络:
(2)
在普通的n层卷积神经网络中,总共有n层连接,而在DenseNet有
层连接(DenseNet采用“前
层传递”的连接方式)。DenseNet模型结构对特征传递序列进行了调整,而没有按照以往用加深网络或者加宽网络的方式入手。总体来说 DenseNet有如下优点:
1) 一定程度上解决梯度消失;
2) 加强特征传播;
3) 更有效地利用特征。
在DenseNet模型中Dense Block中主要是由Residual Block [13] [14] [15] (残差块)组成,输入层与各个Residual Block相连,各个Residual Block之间存在前额全连接,Residual Block内部则是由两个卷积层组成,将特征图进行合并,实现增加特征图维度的目的。经过改进后在Residual Block之间插入Bottleneck Layer来降低深层网络在使用时占用的计算资源和存储资源,提高整个网络的计算效率。
Transition Layer则是由一个卷积核为1 × 1的卷积层与一个池化层组成的。其中卷积层将输入的特征图张数降维到原来的一半,池化层则将特征图的大小降维到原来的一半,降低了密集块(Dense Block)之间传递特征图的维数,提高计算效率问题。
根据Dense Block中Residual Block数量的不同,可以构成不同层数的DenseNet模型,本文所使用的DenseNet121模型和DenseNet169模型主要差异在于第3个和第4个Dense Block中残差结构的数量上。
3.2. DenseNet_BL
网络深度的增加,会引起卷积层需要训练网络参数的增加,增加了网络的参数和计算量。本文的方法是在DenseNet Block中的残差块之间加入1 × 1的小型卷积核作为瓶颈层(Bottleneck Layer) [16],对传递的特征图进行提前降维 [17] [18]。调整后的模型由一个7 × 7的卷积核开始,该卷积核对输入的树冠影像进行内核大小为7 × 7、步幅大小为2卷积操作,之后是步长为2的3 × 3的最大池化操作。中间部分由4个Dense Block组成,Dense Block中的层与层之间通过1 × 1瓶颈层连接,用来对输入的特征图进行降维。Dense Block之间由过渡层连接,通过卷积和池化操作来改变特征图的大小和尺寸。4个Dense Block之后采用7 × 7的全局平均池化对输出图像进行处理,后面连接1 × 1的全连接层,最后附加一个分类器,输出分类结果。
标准的残差块输入一个
的特征图后(X、Y为特征图的尺寸,Z为通道数),经过一个3 × 3的卷积核后,会向后输出一个
特征图。
标准方法每个残差块的计算量:
(3)
标准方法每个残差块参数量:
(4)
加入一个1 × 1卷积作为瓶颈层后,前面传递进来的特征图会先被瓶颈层降维。
本文方法每个残差块的计算量:
(5)
本文方法每个残差块的参数量:
(6)
标准方法中的计算量和参数量都约是本文方法的3.3倍,证明了瓶颈层能够增加网络的非线性,同时降低网络计算量和参数量,使得网络可以表达更加复杂的特征。
4. 分类实验结果与分析
树种分类结果分析
使用训练好的模型对所选两块样地进行分类实验,得到的分类效果如图1所示,得到的各个树种在两个模型上的分类精度如表1、表2所示。

Table 1. Classification results of DenseNet121_BL
表1. DenseNet121_BL分类结果

Table 2. Classification results of DenseNet169_BL
表2. DenseNet169_BL分类结果
在数据集制作过程中,有的影像中存在一些不属于对应标签树种但又没能避免的空地等地面杂物,在较深的网络模型中,随着模型的感受野增加,对标签树种以外的地物特征提取增加,在得到的实验结果中导致DenseNet169_BL模型的整体精度率略低于DenseNet121_BL。
为了对算法的分类结果进行评估,本文采取相似性系数JI (Jaccard Index)和准确率(Accuracy)两种评估指标对分类性能进行评价,两种评估指标的计算公式如下:
(7)
(8)
式中TP (真阳性)为正确识别对应树种像素数目,TN (真阴性)为正确识别非对应树种像素数目,FP (假阳性)为错误识别非对应树种像素为对应树种像素数目,FN (假阴性)为错误识别对应树种像素为非对应树种像素的数目。两种模型的评价指标经计算后得到结果如表3所示。
可以看出在相似性上DenseNet169_BL要高于DenseNet121_BL,说明了在与样本的相似性上DenseNet169_BL要更高。而在准确率上DenseNet121_BL要高于DenseNet169_BL,说明了样本中存在少量非标签树种的现象将会被放大。
5. 结语
本文充分利用所学知识,将图像处理技术与深度学习理论相结合,使用DenseNet121_BL和DenseNet169_BL网络模型在树种分类方面进行了实验,在验证集上得到的分类正确率最高为89.17%,这表明将DenseNet_BL模型应用于无人机树种分类有很高的可行性。综上所述,本文提出的树种分类模型具有分类效果好、数据易获取、成本低、数据受外界影响较小等优点。但在较深的DenseNet169_BL模型中还存在一定的受地面杂物影响的问题,有待改进,并且本文进行实验所使用的树种数据较少,受限于数据量的局限性还需进一步验证模型的可行性,后续可通过补充更多树种数据进行识别。
基金项目
国家自然科学基金项目(41601455);安徽省大学生创新创业训练计划项目(S202010377068);国家级大学生创新创业训练计划项目(202110377012);国家级大学生创新创业训练计划项目(202110377008)。
参考文献