1. 引言
近年来,农田的缩减和人口的增多使得青岛市人地矛盾越来越突出,严重制约了青岛市经济发展,对生态环境造成了很大的威胁。利用遥感技术和GIS技术动态监测研究区的土地利用情况,可以对研究区土地利用的时空动态变化进行及时有效的了解和分析。常规的遥感图像分类方法有很多,比如模糊逻辑推理法、掩膜法、主成分分析和多元线性回归法、支持向量机、最大似然监督分类、分层分类方法、决策树分类法等 [1] - [11] 。2004年,李彤、吴骅采用决策树分类技术对北京市土地利用覆盖现状进行研究,得出该方法具有简单、明确、分类结构直观等优点 [8] 。分层分类法则操作简单,有良好的稳健性和鲁棒性,并且可以有效处理大量数据。因此,本文决定结合以上两种方法,采用基于决策树的分层分类方法,利用各个波段的光谱信息,通过设置阈值逐层地提取各种土地类型。植被覆盖及变化是区域生态系统环境变化的重要指示,对研究水文、生态、全球变化等都有重要意义。2003年,李苗苗,吴炳方等人对已有的像元二分模型参数估算方法加以改进,并建立了用NDVI定量估算植被覆盖度的模型 [12] ,本文决定使用该模型,直接利用植被指数近似估算植被覆盖度。本文的创新之处在于在提取道路时由于考虑到该种土地利用类型混合像元过多不易提取,决定结合道路矢量文件,经过波段合成,最后进行分层分类。结果显示用该种方法提取道路的结果要优于传统决策树阈值法。
2. 实验方法
2.1. 基于决策树的分层分类方法
分层分类是把数据按照一定的规则进行划分,在每个节点利用相应的特征,使分割后一些准则函数达到最优效果。不同的标准有不同的划分方法和决策树,但最终都是为了得到最好的分割结果。本文采用的分类方法是建立二叉树。二叉树虽然结构相对简单,但其识别能力较强。
把影像上的全部地物看作一个根结点T,先把T分为T1 (植被)和T2 (非植被)两大类;然后在每个大类中进一步分类,比如T1 (植被)可分为A (耕地)和B (林地),T2 (非植被)可分为C (水体)和T3 (非水体);T3可再分为D (交通用地)和T4 (非交通用地),T4可再分为E (居民点及工矿用地)和F (未利用土地),直到把图像中的全部类别都分出来。最终形成一个树状结构,在树状结构每一个结点位置处可选择不同规则进行更细致的分类。基本原理如图1所示。

Figure 1. Basic principles of decision tree classification algorithm
图1. 决策树分类算法基本原理
2.2. 精度评价
在计算机分类中,由于同物异谱或同谱异物、分类系统与数据资料的匹配程度不高等原因,会导致出现分类错误;此外,遥感图像中各类别的大小和形状也会影响分类结果的准确性。造成分类错误有两个主要原因:属性错误,即类别识别错误;位置误差,即所有类型的边界都是不准确的。
本文采用模糊矩阵方法对计算机分类结果的准确性进行评价。通过建立模糊矩阵来计算总体分类精度和Kappa系数。其中p1是总体分类精度。
(1)
假设每一类的真实样本个数分别为
,而预测出来的每一类的样本个数分别为
,总样本个数为n,则有
(2)
2.3. 植被覆盖度反演方法
本文根据像元二分模型的原理利用NDVI估算研究区植被覆盖度。
设一个像元中有植被覆盖的面积比例,即该像元的植被覆盖度为fc,可以得到计算植被覆盖度的公式:
(3)
其中,S为通过遥感传感器所观测到的信息,Ssoil与Sveg是像元二分模型的2个参数。
一个像元的NDVI值可以表示为由绿色植被部分所贡献的信息NDVIveg与由无植被覆盖(裸土)部分所贡献的信息NDVIsoil两部分组成。将NDVI代入上式,得
(4)
其中,NDVIsoil为裸土或无植被覆盖区域的NDVI值,NDVIveg则代表完全被植被所覆盖的像元的NDVI值,即纯植被像元的NDVI值。
3. 实验过程
首先对Landsat OLI数据进行预处理,镶嵌、裁剪出研究区域。然后对裁剪后的Landsat OLI数据进行分层分类,对分类结果进行精度评价,并反演出研究区植被覆盖度。
3.1. 分类过程
对选取的研究区影像进行解译分析,利用计算的归一化植被指数(NDVI)、归一化水体指数(NDWI)、归一化建筑物指数(NDBI)、各波段不同地物辐射亮度值等数据作为决策树分类的特征数据。然后应用分层分类,建立分类模型,得到初步分类结果。参考已有的土地分类系统,结合研究的需要,把研究区分成林地、耕地、水域、交通用地、居民点及工矿用地、未利用土地6个类别。
对于植被和非植被,用NDVI值来区分。在本研究中,由于图像中存在大量混合像元,因此NDVI > 0的未必就是植被,经过多次实地考察、目视解译、统计分析和精度检验,最终将阈值确定为0.23,即NDVI > 0.23的像元被归类为植被。
对植被类型中的耕地和林地,统计分析各波段DN值的最大值、最小值、均值和均方差,结果表明,耕地和林地在OLI第6波段的DN值有较大差异,耕地的反射率明显较小,故可将阈值设为87,即band6 < 87的像元被归属为耕地。
对于非植被,首先经过反复实验验证,用NDWI > 0.38作为判别函数来提取水体,可以得到很好的分离效果。然后在ArcGIS中将青岛市道路shape矢量文件转换成栅格文件,进行波段合成,将转换得到的栅格文件作为Landsat影像的一个波段,记作bandroad,则bandroad != 255为道路,对于居民点及工矿用地与未利用土地,则采用NDBI < 0.35作为判别函数来分类,在这两种地物类型样区进行DN值的统计分析,发现居民点及工矿用地在OLI第5、6波段的DN值之和远小于未利用土地,将阈值设为178,故band5 + band6 < 178且NDBI < 0.35的像元被归属为居民点及工矿用地,剩余部分即为未利用土地。具体分类过程如图2所示。

Figure 2. Hierarchical classification map
图2. 分层分类图
由于分类过程是按像元逐个进行的,在输出的分类结果图中,成片的地物类别中会存在零星少量异类地物像元,且散落分布。为了分类结果实用可靠且做出的图像美观,对上述分类得到的结果还需进行一定的后处理工作。最终的分类结果如图3所示。

Figure 3. Land use classification results map
图3. 土地利用分类结果图
如上图所示,研究区内林地约占16%,主要分布在东部、南部和北部的山地地区;耕地约占42%,主要分布在境内平原丘陵地区,所占面积最大;居民点及工矿用地约占29%,主要沿海沿河分布,其中胶州湾附近建筑最密集;未利用土地约占4%,主要分布在山地、丘陵附近;水域约占5%,包括境内的河流、湖泊等;交通用地约占4%,在研究区内纵横交错。
3.2. 精度评价
不同土地利用类型的分类结果与地物真实空间分布情况的一致性程度可以用Kappa系数的大小来显示。Kappa系数的大小范围在−1~1之间,但通常在0~1之间。我们把Kappa系数的值分成五组来表示一致性的程度:0.00~0.20表示一致性很低,0.21~0.40表示一致性一般,0.41~0.60表示一致性中等,0.61~0.80表示高度一致和0.81~1表示几乎完全一致。
(5)
其中,r为误差矩阵中总列数(即总的类别数);
为误差矩阵中第i行、第i列上像元数量(即正确分类的数目);
和
分别为第i行和第i列的总像元数量;N为总的用于精度评估的像元数量。
在进行精度评价时,每类至少有30~50个样本点。本研究在研究区内随机选取了240个样本点,并且保证每种地物类型至少有30个样本点,去除边缘过渡地带的样本点,最终保留180个左右样本点进行精度评价。评价依据是原始影像的目视判读和野外实地调查的结果。通过建立混淆矩阵,根据式2.1,最终得到Kappa系数约为0.83。
3.3. 植被覆盖度反演
先需要计算整个图像的NDVI值,然后利用土地分类图提取每个单元的NDVI值,计算每个元素的NDVI值的累积频率值。最后,根据频率累加表,把土地利用单元的内取频率为5%的NDVI值作为NDVIsoil。

Figure 4. Vegetation coverage inversion results map
图4. 植被覆盖度反演结果图
从上图4可以看出,青岛市植被大多分布在东部、西南部和北部的山地丘陵地区,其次是中部的平原和盆地地区,胶州湾附近植被覆盖度比较低,出现这种分布状况的原因主要是山上多林地,而平原丘陵地区种植农作物,因此这些地区的植被覆盖度都比较高,而居民点及工矿用地多为建筑物,植被较少,另外未利用土地多为裸露的土壤和岩石,植被覆盖度几乎为零。
4. 结束语
本文以青岛市为研究区,选择2017年9月23日的Landsat OLI影像数据,应用ENVI和ArcGIS软件平台,采用分层分类方法进行土地分类研究并精度评价,最后得到青岛市植被覆盖度。根据土地利用分类结果和植被覆盖度反演结果,有利于规划青岛市土地利用形式,保护和改善青岛市生态环境,科学合理地规划城市发展方向。
本文在分类过程中存在的主要问题是分类结果中的土地类型没有园地和草地,并且没有将住宅用地和工矿用地区分开来,而是统一划分成了居民点及工矿用地。存在上述问题的原因主要是分层分类方法虽然分类结构简单、容易理解,但该方法的阈值取值随机性很强,稳定性很差。因此利用分层分类方法对其他地区进行土地利用信息提取时,必须针对不同地区的遥感影像和土地利用状况修订和调整阈值。而且如果可以结合研究区影像的空间纹理信息等辅助数据,并对结果进行恰当的分类后处理,可以进一步完善分类结果并提高分类精度。本文估算植被覆盖度的过程主要存在以下几个问题:NDVIveg与NDVIsoil的值不够准确;用NDVI估算植被覆盖度存在一个弱点,即NDVI在植被覆盖度大于85%时,对植被覆盖度的变化将不再敏感。针对上述问题,在今后的研究中可以尝试采取以下措施:对于不同类型的土地覆盖,最好利用实测资料来确定NDVIveg和NDVIsoil值;图像中某一土地利用类型的总像元个数不能太少。基于遥感技术估算植被覆盖度的方法不需要地面实测数据建模,易于推广,从未来发展方面来说,植被覆盖度的估算方法会变得更加完善。