基于高分辨率遥感影像的建筑物提取方法研究——基于ENVI平台的高分影像建筑物提取技术实证
Research on Building Extraction Method Based on High-Resolution Remote Sensing Imagery—Empirical Study on Building Extraction from High-Resolution Imagery Based on the ENVI Platform
摘要: 在城市发展中,建筑物具有关键作用,在高分辨率遥感影像上也占据显著地位。随着电子地图与GIS技术的进步,建筑物精确提取的需求日益增强。基于高分影像提取的建筑物数据,可用于面积估算、城市布局分析,并为城市规划、灾害监测和生态评估等提供支持。本文基于高分辨率遥感影像,开展建筑物提取研究。通过梳理研究背景与近期文献,采用监督分类和面向对象分类等方法进行提取,并开展分类后处理及精度验证。结果表明,在本研究区域中,基于规则的面向对象分类方法效果最优,总体分类精度达99.12%,Kappa系数为0.9826,错分误差为0.54%,漏分误差为0.47%,制图精度为99.53%,用户精度为99.46%。研究也发现,建筑物的波谱、形状和大小,以及影像波段与太阳直射角引起的色差与阴影,均会对提取精度产生影响。
Abstract: In urban development, buildings play a key role and occupy a significant position in high-resolution remote sensing images. With advances in electronic maps and GIS technology, there is an increasing demand for accurate building extraction. Building data extracted from high-resolution images can be used for area estimation, urban layout analysis, and provide support for urban planning, disaster monitoring, and ecological assessment. This paper conducts research on building extraction based on high-resolution remote sensing images. By reviewing the research background and recent literature, extraction is performed using methods such as supervised classification and object-oriented classification, followed by post-classification processing and accuracy verification. The results show that in the study area, the rule-based object-oriented classification method achieves the best performance, with an overall classification accuracy of 99.12%, a Kappa coefficient of 0.9826, commission error of 0.54%, omission error of 0.47%, map accuracy of 99.53%, and user accuracy of 99.46%. The study also finds that building spectra, shape, and size, as well as color differences and shadows caused by image bands and solar incidence angles, all affect extraction accuracy.
文章引用:董嘉骏. 基于高分辨率遥感影像的建筑物提取方法研究——基于ENVI平台的高分影像建筑物提取技术实证[J]. 地理科学研究, 2026, 15(2): 160-170. https://doi.org/10.12677/gser.2026.152017

1. 引言

随着遥感技术的飞速进步,其影像分辨率已经精细至分米级别,使得地物信息在影像上展现得更加丰富和清晰。这种高分辨率遥感影像数据正随着遥感领域的蓬勃发展而日益增多。在海量的遥感影像数据中,挖掘出有价值的信息,无疑是一项充满挑战的任务。遥感实用化仍是遥感技术从20世纪60年代发展至今面临的一个难题。为满足遥感实用化的需求,遥感器研究领域研制出了各种高灵敏度、高光谱、多角度、多类型、高分辨率的遥感器[1],在很大程度上改善了遥感影像数据源的质量。

传统的基于遥感影像的建筑物提取方法主要包括两个过程,一是利用面向对象、方向梯度直方图等方法对影像中的特征进行提取,二是通过随机森林、支持向量机等进行类别划分[2]。该类建筑物提取方法主要依据的是影像的光谱及空间特征信息,基于该类方法,已有学者进行了相关研究。方鑫等[3]基于光谱特征与形状特征提取建筑物。陶刚等[4]基于面向对象的思路提取遥感影像建筑物。吕道双等[5]使用支持向量机与多尺度融合技术相结合进行建筑物的分类与识别。但是,在处理具有复杂地物和背景的影像时,现有方法展现出了有限的泛化能力。这意味着,一个模型即使经过特定区域的影像训练,也难以有效地应用于其他区域。在国外,自从2010年Mnih和Hinton第一次将卷积神经网络用于道路和建筑物提取并提取成功以来,深度卷积神经网络已被广泛地应用于高分辨率图像的信息提取[6]。2018年,Li等人提出使用密集连接卷积块的编解码器结构网络模型对建筑物特征提取[7],在减少网络参数量的同时提高提取精度;同年,Marmanis等人将语义分割与边缘检测相结合,能够避免由于空间分辨率低导致高频信息丢失及建筑物边界模糊的问题[8]。Xu等人提出了一种基于密集连接卷积网络(DenseNet)设计的分割模型,并引入了针对局部特征和全局特征的注意力模块能够从遥感图像中进行道路提取[9],并提出了使用残差网络进行特征提取并结合边缘检测的建筑物提取方法[10]。综上所述,为验证建筑物提取方法在典型复杂城区的适用性,本研究选取建筑物密集、地形复杂的哈尔滨市道外区作为研究区域,该区域具有显著的城市特征,适于作为提取技术的测试场所。

2. 研究区域、数据来源

2.1. 研究区域

本文的研究区选择了黑龙江省哈尔滨市道外区城区的一块矩形区域(如图1)。这一矩形地带的地理坐标介于北纬45˚46'至45˚47'、东经126˚40'至126˚41'之间。该区域位于哈尔滨市中东部,研究区内建筑物数量众多,建筑风格各异,既有现代化的高层建筑,也有传统的低层建筑。这些建筑物的存在为不同的建筑物提取方法研究提供了丰富的样本。

Figure 1. Research area

1. 研究区域

2.2. 数据来源

数据下载来源为地理空间数据云平台的高分一号卫星,传感器为PMS2,其分辨率为2米,包含5个波段(全色、蓝、绿、红和近红外),影像获取时间为2022年7月22日。

3. 研究方法

本研究的技术流程涵盖对原始影像进行辐射定标、大气校正、裁剪与配准等预处理,随后分别采用监督分类(包括最大似然法、支持向量机等方法)和面向对象分类(涵盖基于规则与基于样本两种策略)两种方法进行地物分类。所有分类结果均经过分类后处理,并通过精度评价进行验证,最终形成研究结论。

3.1. 监督分类

监督分类是一种高效的分类方法,它依托于人们对试验区的经验理解来界定地物类别。通过精心挑选训练样本,这一方法将丰富的先验知识融入分类过程之中。随后,不同的分类器被训练以掌握这些知识,进而利用已学习到的判决规则或函数对新数据进行精确分类。目前最常用的监督分类方法有最大似然法、支持向量机、随机森林[11]及相应的优化算法。李华等[12]利用样本过滤及正态化方法提升样本典型性,进而提出一种基于最大似然分类的综合改进方法,提高建筑物与裸土的用户精度,降低错分率。在监督分类的众多方法中最小距离法因其简洁性和高效性在图像处理和模式识别领域得到了广泛应用。

3.2. 面向对象分类

面向对象的分类方法[13]以影像分割生成的同质对象作为基本分类单元,突破了传统像素级分类的局限,有助于实现更高层次的遥感影像分类与目标提取。Li等[14]利用遥感图像处理平台eCognition Developer中内置的多尺度分割算法、最近邻及隶属度分类方法对泰安市进行建筑物检测,较好分离建筑物和背景,该方法通过融合地物的光谱特征与空间信息,显著提高了信息提取的准确性和可靠性。

基于规则的面向对象信息提取,是一种利用预定义规则来识别和提取文本中信息的技术。这种方法的核心原理包括:信息转换为对象,系统首先将遥感影像中的像素或像素集合转换为对象。这些对象代表了影像中的不同地物,包括建筑物、道路、植被等。这一步骤通常涉及影像的分割过程,即根据像素的相似性或异质性将影像划分为不同的对象或区域。对于每一个对象,系统定义了一系列属性来描述其特性,如形状、大小、纹理、光谱特征等。这些属性反映了建筑物在遥感影像中的表现,如建筑物的轮廓、屋顶材质、阴影等。同时,也定义了对象的行为,即对象间可能存在的空间关系或拓扑关系。规则制定是面向对象信息提取的重点,它依据建筑物独有的光谱特征、形状特征、纹理特征以及上下文信息,构建一系列规则,以精确指导建筑物的信息提取过程。

4. 高分辨率遥感影像建筑物提取

4.1. 样本选择

监督分类前需进行样本制备。首先对图像进行预处理,随后根据典型地物特征建立七类感兴趣区(Region of Interest),分别为:水体(蓝色)、绿地(绿色,含林地与草地)、道路(黄色)、建筑物(红色)、其它用地(白色)、空地(粉色)和阴影(黑色)。各类样本通过ENVI软件在对应地物区域均匀选取若干小范围多边形构建,以充分反映其光谱与空间特征,为后续分类提供可靠训练数据。样本间的可分离性通过Jeffries-Matusita与Transformed Divergence参数(取值0~2.0)进行量化。根据经验,参数值大于1.9时表示样本可分离性良好;低于1.8需重新选择样本;低于1.0则建议合并类别。由表1可见,本研究选取的所有样本分离度均在1.9以上,表明样本间区分明确,满足监督分类要求。

4.2. 监督分类提取

本研究采用四种监督分类方法对高分辨率遥感影像进行建筑物提取。具体流程如图2,所有方法均基于ENVI平台实现,使用相同的训练样本(七类感兴趣区),确保了实验结果(图3)的可比性,为后续精度评价提供了基础数据支持。其中:

1) 最大似然法中阈值的选择,首先为确保分类的完整性,当阈值设为“None”时,系统会将每个像元都归入其概率最大的那个类别中,这保证了生成的分类图中没有任何“未分类(Unclassified)”的空洞,使结果图在视觉上是连续完整的。而本研究旨在对比四种监督分类方法与面向对象方法的性能。不设阈值可以展示算法在最原始状态下的分类能力,便于通过后续的精度评价(如混淆矩阵)来客观观察其在

Table 1. Sample separability

1. 样本分离度

样本

分离度

样本

分离度

建筑物和其它用地

1.90886369

水体和道路

1.99998257

绿地和水体

1.92663282

建筑物和水体

1.99999786

绿地和阴影

1.94979745

其它用地和空地

1.99999999

建筑物和空地

1.95572771

水体和空地

2.00000000

道路和空地

1.97021684

道路和其它用地

2.00000000

建筑物和道路

1.99869232

绿地和其它用地

2.00000000

水体和阴影

1.99943145

建筑物和阴影

2.00000000

绿地和空地

1.99983306

其它用地和阴影

2.00000000

建筑物和绿地

1.99993346

水体和其它用地

2.00000000

绿地和道路

1.99997415

道路和阴影

2.00000000

空地和阴影

2.00000000

处理颜色相近地物时的真实误分情况。

2) 支持向量机使用默认参数即突出核函数的默认优势:ENVI等软件中SVM (Support Vector Machine)的默认核函数通常是径向基函数RBF (Radial Basis Function),它在处理非线性遥感数据时具有极强的普适性。同时能减少过拟合风险,手动大幅度调整惩罚因子(C)或核函数参数(Gamma)虽然可能提高训练样本的匹配度,但容易导致过拟合,使分类模型在实际地物提取中的泛化能力下降。

3) 最小距离法因其参数依赖度低,该方法本身可调参数极少(如最大距离标准差阈值),在类别分布相对均匀的情况下,默认参数即能体现该算法的最佳分类逻辑。本研究中所有样本的分离度均在1.9以上,表明样本代表性良好,无需通过调整参数来强行修正分类边界。

4) 在平行六面体算法设置中,Single Value通常代表标准差系数。根据概率统计学中的三倍标准差原则,数值落在均值±3倍标准差范围内的概率高达99.73%。这意味着设置为3时该分类器将涵盖几乎所有的训练样本特征,确保该类别在特征空间中拥有足够大的“包容度”,从而尽量减少因边界过窄导致的漏分。此外还可以平衡“漏分误差”与“错分误差”,在复杂的城区环境中,地物光谱重叠严重,若设置过小(如1或2),分类框会非常狭窄,只有与样本极度相似的像元才会被提取,这会导致漏分误差(Omission Error)剧增。

4.3. 面向对象分类

4.3.1. 基于规则的面向对象分类

基于规则的面向对象分类方法通过多维度特征阈值设定实现建筑物精确提取,得到结果如图4,具体流程如下:

输入预处理后的影像,启用归一化植被指数NDVI(Normalized Difference Vegetation Index)和HSI(Hue-Saturation-Intensity色调–饱和度–亮度)颜色空间辅助波段。采用基于边缘的FX(Feature Extraction特征提取)分割算法(阈值40.0)进行多尺度分割,合并阈值设为97.0,纹理核尺寸保持默认值3。

通过五层递进式过滤规则实现建筑物精准识别:

  • 光谱过滤:利用Band1灰度平均值(90~225)剔除阴影和水体低反射率干扰。

Figure 2. Supervised Classification Flowchart

2. 监督分类流程图

  • 形态过滤:通过矩形度阈值(0.3~1.0)区分建筑物与道路的几何特征差异。

  • 植被抑制:基于NDVI值(以−0.06为界)分离植被覆盖区域。

  • 面积筛选:设置最小面积阈值15像素消除车辆等小斑块噪声。

  • 形状优化:控制延伸性上限18像素排除细长空地干扰。

上述这些阈值的设定是基于特征空间的分布差异与地物特征的概率集中区间,通过对样本的统计分析,寻找不同地物间非重叠的决策点。

1) 合并阈值(97.0):同质性最大化原则

基于对象间异质性增长极小化原则。通过多尺度连续测试观察统计趋势,设定97.0这一极高阈值是为了确保合并后对象的颜色(光谱标准差)和形状改变量极小。在保证建筑物内部高度同质的同时,防止因阈值过低导致建筑物与相邻道路发生“过度合并”。

Figure 3. Supervised classification results

3. 监督分类结果

Figure 4. Rule-based object-oriented classification results

4. 基于规则的面向对象分类结果

2) Band1灰度平均值(90~225):直方图双峰分析

基于波谱特征的正态分布及直方图分割理论。通过光谱直方图分析发现,阴影、水体等低反射地物集中在90以下。该区间基于样本均值±2或3倍标准差的覆盖原则设定。旨在包含95%以上的建筑物光谱概率区间,从而有效剔除低反射干扰及极少数高反射干扰。

3) 矩形度(0.3~1.0):几何形态显著性判别

基于形状因子的特征空间判别分析。统计表明研究区域内建筑形态具有明显规则性。大部分建筑对象矩形度大于0.3,而极不规则的绿地或碎块通常在0.2以下。覆盖从低层到高层建筑的形态概率分布中心,利用形状差异剥离“同谱异物”(如区分水泥路面与屋顶)。

4) 其他补充阈值的统计依据

NDVI (−0.06):利用植被波谱的红外陡峭特征。统计显示非植被地物的NDVI概率密度函数在−0.06附近存在波谷,以此作为决策点可实现99%以上的植被抑制。

最小面积(15像素):基于置信水平下的噪声剔除。统计学上认为小于该值的对象更大概率属于随机噪声或小型车辆,而非建筑物主体。

4.3.2. 基于样本的面向对象

采用K邻近算法(K = 5),K值的选择直接影响分类模型的泛化能力。在遥感影像处理中,选择5是一个经过统计优化的“平衡点”:如果K值设置得过大,分类边界会变得模糊。反之K值过小会产生“椒盐效应”。在小样本、多特征的遥感分类任务中,奇数或较小的常数(如3、5、7)能有效避免平局(Tie),且5在保证分类效率的同时,能提供足够的置信度。建立六类样本(建筑物/绿地/水体/道路/阴影/空地),分割合并参数与规则法一致,通过全属性选择实现对比分析,得到结果如图5

Figure 5. Sample-based object-oriented classification results

5. 基于样本的面向对象分类结果

4.4. 分类后处理与精度评价

4.4.1. 分类后处理

分类后对小斑块处理的方法有主要/次要分析、聚类处理和过滤处理等。聚类处理主要用于空间连续性比较差的图像,特别是涉及河流和小湖泊等线状地物的场景,采用聚类处理方法是极为有效的。此方法能够显著提高这些线状地物的连续性,从而优化分类效果。过滤处理技术与主要/次要分析方法相似,但其应用更侧重于解决孤岛问题。在小斑块处理的语境下,本文采纳了主要/次要分析方法进行操作。

4.4.2. 精度评价

本研究选用混淆矩阵作为定量评价工具,为系统评估不同分类方法在建筑物提取中的性能,本文汇总了其精度评价指标,包括总体分类精度、Kappa系数、错分误差、漏分误差、制图精度与用户精度,具体如图6所示。

Figure 6. Accuracy evaluation chart

6. 精度评价图

5. 结论与讨论

5.1. 主要结论

在遥感建筑物提取研究中,面向对象的分类方法,特别是基于规则的提取技术,规则法通过逻辑“与/并”关系组合多属性表达式,采用二进制权重(容差5)实现决策优化,最终输出包含矢量成果、分类图像及置信度图谱的多维结果。该方法显著提升了复杂城区环境下建筑物提取的精度与鲁棒性,其总体分类精度达99.12%,Kappa系数为0.9826,错分误差和漏分误差均低于0.6%,制图精度和用户精度均超过99%。

相比之下,监督分类方法(如最大似然法、支持向量机、最小距离法和平行六面体法)由于依赖单一光谱特征,存在较明显的误分和漏分问题,其中平行六面体法的漏分误差最高(23.01%),制图精度最低(76.99%)。

5.2. 建筑物提取误差来源分析

本研究实验结果显示,尽管基于规则的面向对象方法精度最高,但在复杂城区环境下仍存在微量误差。通过对错分与漏分像元的深度溯源,其误差产生的底层机理可归纳为以下三点:

1) “同谱异物”的光谱重叠机理与特征冲突

监督分类(如最大似然法与SVM)中严重的误分现象,本质上是由于建筑物屋顶材料(如水泥、沥青或新型合成材料)与城市道路、空地在可见光至近红外波段的波谱响应曲线高度重叠导致的。

水泥屋顶与混凝土道路:两者在Band1 (蓝光)至Band3 (红外)具有几乎相同的反射率变化趋势,在特征空间中形成了密集的重叠簇。单纯依赖光谱统计特征的分类器无法在n维特征空间内找到有效的线性或非线性超平面来划分这两类地物,从而导致大量道路被错误划归为建筑物。

低反射率材料与水体/阴影:深色沥青屋顶或处于背光面的暗瓦,其各波段反射率均极低,在统计学上落入了阴影与水体的概率分布区间(如文中Band1灰度值低于90的区间),触发了光谱过滤规则的误判。

2) 阴影导致的“信息空洞”与边界侵蚀效应

阴影不仅是“干扰”,它在机理上改变了地物的有效观测波谱密度。

光谱退化:建筑物的高大遮挡导致其背光面地物接收到的辐射主要来自大气散射而非太阳直射,这使得该区域的光谱特征发生严重向左偏移(低亮化)。在这种情况下,低层建筑或建筑物边缘的细节被阴影“吞噬”,导致算法判定该区域为阴影而非建筑主体,进而产生漏分误差。

几何畸变:太阳直射角引起的非垂直投影,使得阴影对象在几何上与建筑物对象相连,在面向对象的合并(Merge)过程中,阴影的低矩形度特征会拉低整个对象的矩形度均值,使其低于设定阈值(0.3),从而在形态过滤环节被错误剔除。

3) 空间分辨率限制下的“混合对象”与多尺度效应

由于高分一号PMS2数据分辨率为2米,在处理建筑边缘与附属设施(如露台、空调挂机、或屋顶微型花园)时,不可避免地产生了混合对象。

边缘不确定性:2米的像元尺寸意味着一个像元可能同时包含建筑边缘和绿地。在多尺度分割过程中,这种混合像元的异质性会干扰合并阈值(97.0)的判定。

尺度无法兼顾:如5.1节所述,在统一的分割参数下,大型规则屋顶被完美提取,但尺度微小的附属结构或形状复杂的边缘地物因其内部光谱异质性过大,被分割算法碎化为小斑块,随后被面积阈值规则(15像素)作为噪声滤除,这是导致制图精度损失的结构性原因。

5.3. 展望

随着中国城市化进程加快,城市的建筑物日新月异,各种建筑物的风格趋于多样化、复杂化和多元化,针对各种新型建筑的提取也成为了一个重要的研究课题。如何在传统方法的基础上实现创新,避免既耗时耗力得到的结果精度又低的问题是现在众多科研工作者的研究领域。随着人工智能技术的快速发展,基于深度学习的高分影像自动化提取技术在遥感学领域引起了广泛关注。这一技术不仅提高了遥感影像信息的处理效率,还为相关领域的研究和应用提供了更加精确和可靠的数据支持。同时,遥感影像信息自动化提取作为国家重要战略发展方向之一,对于推动我国遥感事业的发展具有重要意义。

致 谢

值此论文完成之际,谨以最诚挚的谢意献给所有曾给予我帮助与支持的人。衷心感谢我的导师。从论文选题到最终定稿,您始终以渊博的学识、严谨的治学态度给予我悉心的指导与关键的启发。感谢学院的各位老师,你们在课程学习与学术训练中传授的知识与方法,为本研究奠定了坚实的基础。感谢我的同窗与挚友们,在无数个并肩奋斗的日子里,是你们的讨论、鼓励与陪伴,让这段旅程充满温暖与力量。最后,将最深沉的感激献给我的家人。是我前行路上最坚实的后盾与勇气的源泉。

参考文献

[1] Zhang, X., Guo, Y. and Zhang, X. (2021) High-Resolution Remote Sensing Image Scene Classification by Merging Multilevel Features of Convolutional Neural Networks. Journal of the Indian Society of Remote Sensing, 49, 1379-1391. [Google Scholar] [CrossRef
[2] 孟妮娜, 王安东, 周校东. 建筑物线型排列模式识别的图卷积神经网络方法[J]. 测绘科学技术学报, 2019, 36(6): 627-631.
[3] 方鑫, 陈善雄. 密集城区高分辨率遥感影像建筑物提取[J]. 测绘通报, 2019(4):79-83.
[4] 陶刚, 刘洋. 基于面向对象的高分影像城市房屋信息提取与分析[J]. 电子技术与软件工程, 2019(9): 76-78.
[5] 吕道双, 林娜, 张小青. 面向对象的多尺度多特征高分遥感影像建筑物提取[J]. 北京测绘, 2019, 33(2): 191-195.
[6] Mnih, V. and Hinton, G.E. (2010) Learning to Detect Roads in High-Resolution Aerial Images. In: Daniilidis, K., Maragos, P. and Paragios, N., Eds., Lecture Notes in Computer Science, Springer, 210-223. [Google Scholar] [CrossRef
[7] Li, L., Liang, J., Weng, M. and Zhu, H. (2018) A Multiple-Feature Reuse Network to Extract Buildings from Remote Sensing Imagery. Remote Sensing, 10, 1350-1367. [Google Scholar] [CrossRef
[8] Marmanis, D., Schindler, K., Wegner, J.D., Galliani, S., Datcu, M. and Stilla, U. (2018) Classification with an Edge: Improving Semantic Image Segmentation with Boundary Detection. ISPRS Journal of Photogrammetry and Remote Sensing, 135, 158-172. [Google Scholar] [CrossRef
[9] Xu, Y., Xie, Z., Feng, Y. and Chen, Z. (2018) Road Extraction from High-Resolution Remote Sensing Imagery Using Deep Learning. Remote Sensing, 10, 1461-1476. [Google Scholar] [CrossRef
[10] Xu, Y., Wu, L., Xie, Z. and Chen, Z. (2018) Building Extraction in Very High Resolution Remote Sensing Imagery Using Deep Learning and Guided Filters. Remote Sensing, 10, 144-161. [Google Scholar] [CrossRef
[11] Cracknell, M.J. and Reading, A.M. (2014) Geological Mapping Using Remote Sensing Data: A Comparison of Five Machine Learning Algorithms, Their Response to Variations in the Spatial Distribution of Training Data and the Use of Explicit Spatial Information. Computers & Geosciences, 63, 22-33. [Google Scholar] [CrossRef
[12] 李华, 吴翰, 薛梅, 徐世武. 土地督察易混地物最大似然分类改进[J]. 遥感信息, 2018, 33(6): 132-138.
[13] 王俊, 秦其明, 叶昕, 王建华, 秦雪彬, 杨绣丞. 高分辨率光学遥感图像建筑物提取研究进展[J]. 遥感技术与应用, 2016, 31(4): 653-662.
[14] Li, C., Dong, X. and Zhang, Q. (2014) Multi-Scale Object-Oriented Building Extraction Method of Tai’an City from High Resolution Image. 2014 Third International Workshop on Earth Observation and Remote Sensing Applications (EORSA), Changsha, 11-14 June 2014, 91-95. [Google Scholar] [CrossRef