1. 引言
全球或区域尺度土地覆被信息是研究人类社会经济过程及地表水热物质平衡的重要数据,被广泛应用于土地覆被变化、生物多样性保护、城市规划、地理国情监测、碳循环建模等众多领域 [1] [2] [3] [4] [5]。因此如何精确、及时地获取陆表土地覆被信息成为当今的研究热点 [6]。
近年来,随着传感器技术及计算机分类算法的不断发展,在国内外科研团队的共同努力下,一系列全球尺度的土地覆被产品相继问世,截止目前,已有21种全球尺度和43种区域尺度土地覆被产品向全球发布 [7],如1 km空间分辨率的IGBP DISCover土地覆被数据 [8],波士顿大学研制的1000 m分辨率MOD12Q1和500 m分辨率的MCD12Q1土地覆被数据 [9],欧洲空间局研制的300 m分辨率的GlobCover和CCI-LC土地覆被数据 [10] [11],以及国际制图委员会研制500 m分辨率的GLCNMO土地覆被数据 [12]。尽管上述土地覆被数据的出现为深入研究陆地表面土地覆被信息分布及动态演变提供了有力的数据支撑,但其300~1000 m的空间分辨率仍相对较低,特别在景观异质性区域混合像元现象较为显著。自2008年随着Landsat数据的免费获取,全球尺度30 m分辨率土地覆被产品研制成为当前各个国家及组织共同努力的方向。在中国国家高新技术研究发展计划项目、国家863计划重点项目的支持下,清华大学和国家基础地理信息中心等机构相继研制成功全球尺度30 m分辨率土地覆被遥感产品FROM GLC和Globeland30 [13] [14],其中FROM数据分别代表2010、2015和2017年陆表土地覆被特征,而Globeland30分别代表2000年和2010年两个时间基点陆表土地覆特征,2种产品均已通过互联网免费发布。针对FROM GLC和Globeland30两种数据的更新改进及类别精度评价,国内外学者均在全球及不同区域展开了研究,并得出了有价值的研究成果 [15] - [22],尽管二者都经过了初步验证,但由于采用了不同的验证方案,报告的精度可能在一定程度上不具备可比性 [23]。经综合分析,现有关于FROM GLC和Globelland30的研究主要集中在三个方面,一是关于FROM GLC数据的分类精度改进研究 [15] [16] [17],二是关于Globeland30数据在全球各个区域的精度验证研究 [18] [19] [20],三是关于FROM GLC及Globeland30数据升尺度转后与其它全球尺度土地覆被数据(比如MODIS Collection5和ESACCI)在特定区域的精度比较 [21] [22],而关于二者在中国区域30 m原始空间分辨率下的类别精度比较研究则鲜有报道。虽然按照最大面积比例或最邻近像元等方法将其转换为300米或500米分辨率数据有助于与其他土地覆被遥感数据进行精度比较,但转后过程势必会造成原始数据类别分布的变化,并最终导致原始数据类别精度的改变 [17]。
基于上述问题的存在,本文以中国区域为研究对象,以FROM-GLC-Hierarchy和GlobeLand30为待验证数据,基于国际组织发布的已有参考数据,从国家、区域、及类别四个尺度对比分析二者的类别精度及空间类别一致性,同时分析地形对于二者分类精度的影响。本文的研究成果可为用户合理选择数据进行特定的科学研究提供一定的科学参考,同时也为未来大尺度土地覆被制图自动选择训练及验证样本提供合理依据。
2. 数据来源及预处理
2.1. 土地覆被遥感数据
本文所用FROM-GLC数据代表的时间基点为2010年,其下载地址为 http://data.ess.tsinghua.edu.cn/index.html,在研制过程中采用了覆盖全球(除了南极洲和格林兰岛以外) 8903景Landsat TM/ETM+影像作为数据源,其中约75%的Landsat遥感影像的获取时间介于2009~2011期间,数据采用2级分类体系,一级分类包含10个类别,二级分类包含27个类别。在综合分析已有研究基础上,本文采用的并非FROM GLC原始数据,而是俞乐等采用FROM-GLC、FROM-GLC-seg及多源辅助数据集成后的FROM GLC-Agg (简称FROM)数据,该数据相对于原始的FROM GLC数据在精度上有一定提高,经验证其30米分辨率数据在全球尺度的总体精度为69.50% [13] [17]。
本文所用Globeland30数据代表的时间基点为2010年,其下载地址为http://www.globallandcover.com,数据采用1级分类体系,包含了耕地、森林、草地、灌丛地、水体、湿地、苔原、人造覆盖、裸地、冰川与永久积雪10个类别。该产品以Landsat TM5\ETM+及中国环境减灾卫星(HJ-1)为主要数据源,采用基于像元(Pixel)–对象(Object)–知识(Knowledge)的综合分类方法,突破了现有分类方法难以在大尺度范围数据精度的普适性难题,有效降低了同物异谱、异物同谱造成的分类错误,较大提高土地覆被类别分类精度,经全球及区域尺度验证,总体精度介于82%-93%之间 [14] [18] [19] [20] [21] [22]。
经互联网下载的中国区域FROM数据和Globeland30数据均以通用横轴墨卡托投影(Universal Transverse Mercator Projection)作为空间基准,因此无需对二者进行坐标系统转换,但数据以WRS-2行列及MODI Tile形式存储,因此需要在GIS软件中对其进行镶嵌处理,再以中国行政区划边界图对镶嵌结果进行裁剪,获取中国区域FROM和Globeland30土地覆被数据。土地覆被分类体系的统一化处理是进行分类精度比较的前提,FROM采用两级分类体系,而GlobeLand30采用一级分类体系,为了实现二者的交互比较,本文参考文献 [17] 提出的类别聚合规则对FROM数据进行类别聚合,将其由二级分类转换为与GlobeLand30一致的一级分类。由于中国区域苔原类别面积较小,因此未包含在本次研究类别范围。具体类别信息参加表1。

Table 1. The table of land cover category information
表1. 土地覆被类别信息表
2.2. 参考数据
参考数据是进行土地覆被遥感产品精度验证的基础,其数量、质量和分布对空间位置精度评价影响重大 [24]。参考数据的获取目前主要有两种方式,一是野外实地调查,通过GPS等设备记录下样点坐标,并实地标注类别标签,该方法精度高,但费时、费力,难以实现大尺度参考数据采集;二是以相应时间基点高分辨率遥感影像最为底图,通过领域专家目视解译判读样本点土地覆被类别,该方法是目前大尺度土地覆被遥感产品参考数据获取的主要方式。近年来,为了推动全球尺度土地覆被遥感产品的精度验证工作,国内外科研机构相继公布了一系列土地覆被参考数据集,如GLC2000参考数据、GLOBCOVER参考数据、The System for Terrestrial Ecosystem Parameterization (STEP)参考数据、GLCNMO参考数据、GEO_WIKI参考数据及FROM参考数据,这些数据均具有较高的类别精度,且符合分层概率采样策略 [25]。为了实现参考数据与评价数据分类体系一致性,依据文献 [25] 完成参考数据分类体系转换。关于参考数据的详细说明见文献 [26]。
3. 研究方法
3.1. 相对比较分析法
在遥感科学领域,遥感产品的验证分为两种方式,一种是基于野外实地调查或高精度参考数据的绝对精度评价;另一种是通过遥感产品间的比较而进行的相对精度验证 [26]。基于野外实地调查方法可以获得高精度参考数据,但需要消耗大量的人力、物力,主要适用于中小尺度遥感产品验证;产品间相对比较方法尽管无法揭示遥感产品的绝对精度,但可以分析不同遥感数据间的一致性和差异性,可为大尺度遥感产品样本的选择及遥感分类算法的发展提供一定依据。为了分析FROM和GlobeLand30两种产品所包含的土地覆被信息在空间上的变化规律,本文将中国区域分为东北、华北、西北、华中、华南和西南六个区域,在国家及区域尺度对二者的类别面积一致性、类别混淆空间图谱进行分析。
研究表明景观分布的异质性是影响分类精度的关键因子,而地形特征则是导致景观异质性的重要因素 [27]。为此,本文将进一步分析2套土地覆被数据的类别空间一致性随高程和坡度的变化特征。首先将FROM和GlobeLand30两种数据在空间上进行叠加,逐像元分析叠加结果,如果对应像元两种数据的类别相同,则表示一致,该像元赋值为1,否则表示异质,该像元赋值为0;然后在GIS软件中统计一致性像元和异质性像元在不同高程及坡度条件下的数量特征,进而实现类别一致性与高程及坡度的变化关系。
鉴于FROM和GlobeLand30两种数据的空间分辨率均为30米,本文选择GDEMDEM 30米分辨率数字高程数据作为地形基础数据,该数据下载于中国科学院计算机网络信息中心地理空间数据云平台(http://www.gscloud.cn)。根据高程值本文将研究区域划分为平原、丘陵、低山、中山、和高山五种类型 [28],进而分析2种土地覆被数据在每种地貌形态中的类别一致性分布特征。同时,在GIS软件中根据DEM数据计算研究区域坡度图,采用重分类方法将坡度聚合为≤2˚、2˚~6˚、6˚~15˚、15˚~25˚和>25˚五个等级,分析在每个坡度区间FORM和GlobeLand30数据的一致性分布特征。
3.2. 基于误差矩阵的分析
相对比较分析尽管可以揭示不同土地覆被数据的类别一致性,但无法精确表达每种数据的绝对类别精度。误差矩阵是土地覆被遥感产品精度评价最常见的方法之一,被广泛应用于遥感数据的精度评价。该方法主要是通过一一比较参考数据与评价数据在对应位置处的类别差异,基于比较结果构建参考数据与评价数据的二维矩阵,通过该矩阵计算总体精度、Kappa系数、生产者精度、用户精度、F1指数等评价指标 [29]。
本文所采用的参考数据集均为点类型,每个点所代表的土地覆被类别为对应参考样方中心点处土地覆被信息。在基于误差矩阵的精度评价过程中,通ArcGIS软件中的点属性提取功能,分别获取FROM和GlobeLand30对应位置的土地覆被类别,并将该类别假设为该点所在像元的土地覆被类别,通过与参考数据逐点的一一比较,最终构建土地覆被类别误差矩阵。
4. 结果分析
4.1. 面积一致性分析
图1揭示了FROM和GlobeLand30两种土地覆被数据在国家尺度的类别面积一致性,从图中可以看出,耕地、林地、草地、裸地4种土地覆被类别是中国区域的主要地表覆被类型,其中FROM数据4种类别约占研究区总面积的90.67%,GlobeLand30约占94.08%。在4种主要土地覆被类别中,2种数据的耕地和林地具有较好的面积一致性,其中FROM的耕地和林地面积百分比分别为15.94%和18.73%,GlobeLand30则为21.34%和22.24%,二者相差了5.40%和3.51%;相对于耕地和林地,二者的草地和裸地类别的面积一致性则较差,其中FROM的草地和裸地面积百分比分别为9.18%和46.82%,而GlobeLand30为29.58%和20.91%,分别相差了20.40%和25.91%,经分析其主要原因是2种数据对于草地定义不同,FROM数据对于草地的定义是植被覆盖度 > 15%,而GlobeLand30对草地的定义则为植被覆被度 > 10,结果导致FROM数据的草地面积比例较小,裸地面积比例较大,GlobeLand30则是草地面积较大,裸地面积较少。由于灌木、水体、湿地、人造地表及冰川积雪类别的面积比例较小,二者的差别相对较小,分别为0.98%、2.04%、0.35%、0.95%和1.66%。
图2揭示了FROM和GlobeLand30两种数据的耕地、林地、草地和裸地4种土地覆被类别在中国东北、华北、西北、东南、西南和华中6个地理区域的一致性比较。基于6个地理区域的土地覆被类别面积,本文分别计算了两种数据每种类别的相关系数,结果表明耕地和林地的相关系数均较高,分别达到了0.98和0.99,说明了二者的耕地和林地具有很好的一致性;而草地和裸地的相关系数则较低,草地仅为0.25,裸地为0.62。图2表明,对于耕地类别,FROM数据的面积在6个地理分区内均小于GlobeLand30数据,在东北、华北和西南区域尤为明显,二者间的数量差异分别为146,988.86平方公里、98,665.88平方公里和116,602.18平方公里;与耕地相似,FROM数据的林地面积也均小于GlobeLand30数据,但其数量差距相对较小,尤其在华北地区,二者林地面积仅相差4812.37平方公里;对于草地类别,FROM数据的面积在东北区域明显小于GlobeLand30,为155,215.39平方公里和638,254.01平方公里,其面积差异为483,038.62平方公里,与东北区域相反,FROM数据在西北区域的草地面积则明显高于GlobeLand30,分别为503,747.07平方公里和176,695.73平方公里,其差值为327,051.34平方公里;对于裸地类别,FROM数据在东北及西北区域则明显高于GlobeLand30数据,在东北区域分别为1,023,095.64平方公里和305,597.82平方公里,在西北区域则分别为2,851,605.57平方公里和167,151.07平方公里。

Figure 1. The map of category consistency in state scale
图1. 国家尺度类别一致性比较

Figure 2. The map of category consistency in regional scale
图2. 区域尺度类别一致性比较
(审图号:GS(2016) 2885号)
Figure 3. The category consistency map of land cover category
图3. 类别一致性空间图谱

Figure 4. The relationship of category consistency and elevation
图4. 类别一致性随高程变化特征图
图3揭示了2种土地覆被数据9种类别在空间上的一致性图谱,统计计算表明,二者类别不一致区域面积约占研究区总面积的46.91%,混淆主要出现在中国西南山地丘陵区域、内蒙古中东部区域、青藏高原区域、辽宁省东部、河南、湖北、河南等省份,混淆主要发生于草地和裸地之间,主要是因为二者对于裸地和草地的定义差异所致。二者一致性区域约占研究区总面积的53.09%,其中耕地一致性区域约占10.03%,主要位于河北南部、山东、安徽、江苏、四川盆地区域;林地一致性区域约占14.63%,主要分布于大兴安岭区域、台湾省、浙江、江西、福建、广东等区域,草地一致性区域约占6.24%,主要位于青海省东部、西藏东部、四川西北部区域;裸地一致性区域约占19.81%,主要分布于中国西北区域;灌木、湿地、水域、人造地表、冰川和永久性积雪面积一致性比例较小,均小于1%。
图4揭示了两种数据的类别一致性随高程的变化情况,从图中可以看出,二者类别不一致性与高程具有典型的正相关,其不一致比例随着高程的增加明显增大,在1500 m以上区域,二者的类别不一致性比例最大,达到了42.91%;对于耕地,二者在20~200米高程区域具有最大的一致性比例,其数值为40.62%,一致性比例最小则出现在1500米以上区域,其数值仅为6.31%;林地则在500~1500区域具有最高的一致性比例,其数值为44.95%,一致性比例最低区域则出现在20米以下区域,其数值仅为0.17%;草地的一致性比例最值位于1500米以上区域,其数值为78.73%,最小值则出现在20 m以下区域,其数值为0.03%;湿地和水体具有相似的分布特征,其一致性比例均在1500以上及200 m以下具有较高的数值,200~500 m区域一致性比例数值较小;人造地表和裸地则具有相反的分布特征,其中人工地表在200 m以下区域具有最好的一致性比例,其一致性比例总和为78%,200 m以上其一致性比例则较小,裸地在500 m以上区域具有最好的一致性比例,其一致性比例总和接近96%;冰川和永久性冰雪一致性区域几乎全部出现在1500 m以上区域。

Figure 5. The relationship of category consistency and slope
图5. 类别一致性随坡度变化特征图
图5揭示了FROM和Globeland30两种数据类别一致性随坡度的变化情况,从图中可以看出,二者类别不一致性区域主要位于2~15度之间,其面积接近占60%,2度以下区域不一致性最低,约占7.09%;耕地的一致性区域主要位于6度以下的平原、丘陵区域,约占耕地一致性总面积的57%,大于25度区域耕地一致性最小,仅占2.49%;森林、灌木、冰川和永久性积雪表现出相同的一致性变化特征,3种类别的一致性均随坡度的增加而呈上升趋势;草地的类别一致性则主要位于6度以上区域,2度以下比例最低,仅为3.89%;湿地、水体、人造地表的面积较小,其类别一致性区域主要为6度以下区域。
4.2. 基于误差矩阵的分析
图6揭示了2种数据的用户精度和制图精度特征,从图中可以得出二者的耕地、森林、草地、人造地表、水体和永久性积雪均具有较高的用户精度,均在75%以上,其中Globeland30的耕地、水体和永久性冰雪的用户精度值达到了89.81%、94.19%和93.48%,FROM数据的人造地表用户精度达到了94.74%。与上述类别相反,二者的灌木用户精度均较低,分别为42.86%和35.71%,Globeland30裸地的用户精度明显高于FROM,其数值分别为75.84%和40.92%,高出34.92%。相对于用户精度,二者的耕地、森林、水体、裸地和永久性冰雪均具有较高的制图精度,其中FROM数据裸地的制图精度为96.18%,Globeland30数据的森林制图精度为85.92%;对于草地类别,Globeland30具有较高的制图精度,其数值为83.46%,而FROM该类别制图精度则较低,为40.00%;与用户精度相似,二者的灌木制图精度均较低。

Figure 6. The comparison of user accuracy and producer accuracy
图6. 用户精度及制图精度比较
5. 结论
1) 基于国际组织发布的参考数据,误差矩阵计算结果表明2种30米分辨率土地覆被数据的林地、耕地、水体三种类别均具有较高的生产者精度和用户精度,Globeland30的草地具有较高的生产者精度和制图精度,林业、农业及水资源领域研究可以选择二者作为基础数据源,草地科学研究可以选择Globeland30作为基础数据源。与已有研究相同,两种数据的灌木类别的用户精度和制图精度均较低,因此未来如何集成多源数据及改进分类算法进而提高大尺度遥感数据灌木类别的识别精度,有效降低该类别与耕地、林地和草地间的错分是当前亟待解决的问题。
2) 类别空间混淆图谱揭示了二者类别在空间上的一致性及混淆空间分布特征,结果表明二者裸地具有最高的类别一致性,其次为林地、耕地和草地。类别一致性区域可以作为未来大尺度土地覆被数据验证训练样本选择及土地覆被数据精度评价参考样本选择提供数据来源。
3) 二者类别不一致性与高程具有典型的正相关,其不一致比例随着高程的增加明显增大,在1500 m以上区域,二者的类别不一致性比例最大,达到了42.91%;二者类别不一致性区域主要位于2~15度之间,其面积接近占60%,2度以下区域不一致性最低,约占7.09%。研究表明地形条件是影响大尺度土地覆被制图的重要因素,因此,未来应进一步加强高海拔区域土地覆被分类算法的研发。
基金项目
河北省自然科学基金(D2019402067)。
NOTES
*通讯作者。