基于贝叶斯优化支持向量回归的老旧小区改造成本预测研究
Research on Cost Prediction of Old Residential Community Renovation Based on Bayesian Optimization Support Vector Regression
摘要: 近年来,随着我国推进城市更新的进程不断提速,老旧小区的改造工程持续增长。为了保障投资效益与项目质量,项目初期对工程造价进行科学、准确的评估已成为关键一环。针对传统预测方法在参数调优方面存在经验性强、效率低等问题,本文提出结合贝叶斯优化算法与支持向量回归(SVR)模型的方法。该模型可自动优化SVR的关键超参数,从而提升模型对复杂非线性数据的适应性与预测准确性。研究选取华东某省会城市200个老旧小区改造项目作为样本,提取了九项影响因子,并利用均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R²)等指标对比分析了标准SVR与BO-SVR模型的性能。结果表明,BO-SVR模型在预测精度和稳定性方面均优于传统模型。该方法为城市更新工程提供了有效的成本估算工具,具有良好的实际应用前景。
Abstract: In recent years, as China’s process of promoting urban renewal continues to accelerate, the renovation of old neighbourhoods continues to grow. In order to guarantee the investment benefits and project quality, scientific and accurate assessment of project cost at the early stage of the project has become a key part. Aiming at the problems of empirical and low efficiency in parameter tuning of traditional prediction methods, this paper proposes a method combining Bayesian optimisation algorithm and support vector regression (SVR) model. The model can automatically optimise the key hyperparameters of SVR, thus improving the model’s adaptability to complex nonlinear data and prediction accuracy. The study selected 200 old district renovation projects in a capital city in East China as samples, extracted nine influencing factors, and compared and analysed the performance of the standard SVR and BO-SVR models using the root mean square error (RMSE), mean absolute error (MAE) and coefficient of determination (R²). The results show that the BO-SVR model is superior to the traditional model in terms of prediction accuracy and stability. The method provides an effective cost estimation tool for urban renewal projects and has good practical application prospects.
文章引用:方志颖, 王嘉文. 基于贝叶斯优化支持向量回归的老旧小区改造成本预测研究[J]. 建模与仿真, 2025, 14(8): 184-194. https://doi.org/10.12677/mos.2025.148558

1. 引言

近几年来,我国积极开展城镇老旧小区的改造建设,并将其作为一项重要的民生项目和发展战略持续推进。据统计,全国范围内存在大量建于20世纪末及21世纪初的老旧小区,这些小区普遍存在基础设施老化、公共空间缺失、居住环境差等问题,严重影响了居民的生活质量[1]。因此,开展对这些小区的整体改造工作,不但能有效提升居民的生活环境,满足群众对更高生活质量的需求,也能以此推动城市更新。但是,大部分定额都是针对新建项目,缺乏专门的老旧小区改造定额标准,各个小区的维修成本差异很大。虽然同一类型的新建楼栋造价大体相当,老旧小区改造时却因老化损坏程度不同,改造成本也天差地别[2]。在决策阶段,快速而准确地估算改造所需投入,对控制项目预算至关重要。因此,开发一种精准、高效的成本预测模型,是提高管理水平、降低造价风险的重要手段。支持向量机(SVM)在处理工程领域预测成本问题时表现出较好的非线性拟合能力,因此在各个工程领域得到广泛的应用[3],但是目前在建筑工程方向大部分还是应用于新建项目的工程造价预测[4],而且其模型性能高度依赖其超参数设置。为此,本文引入贝叶斯优化算法对其进行参数调优[5],构建BO-SVR模型,并验证其在老旧小区改造项目中的应用效果。

2. 方法与模型构建

本研究的核心方法是构建一个基于贝叶斯优化支持向量机回归(BO-SVR)的预测模型。本章节将详细阐述其理论基础。

2.1. 支持向量机回归(SVR)原理

支持向量机(SVM)最初被设计出来解决两类分类问题,它的基本原理是通过构建一个高维空间的超平面,将两类数据尽可能清晰地分开,以使每类数据点与这个超平面之间的距离尽可能大。之后,研究人员将这种基本思想拓展应用到回归分析领域,提出了支持向量回归(SVR)算法,使其能够用于数值预测问题。

SVR的目标是找到一个函数 f( x ) ,使其能够尽可能地拟合训练数据 { ( x i , y i ) } i=1 N ,其中 x i 是输入特征

向量, y i 是对应的真实成本值。与传统回归方法(如最小二乘法)试图最小化所有样本的预测值与真实值之间的均方误差不同,SVR引入了由不敏感系数 ϵ 定义的“间隔带”(ε-insensitive tube)。这个概念是SVR的精髓:它假设我们对一定程度内的误差(小于ε)是可以容忍的,不计入损失。只有当样本点落在间隔带之外时,才认为产生了需要被优化的损失。线性SVR的数学形式可以表示为: f( x )= w T x+b ,其中,w为权重向量,b为偏置项。SVR的优化目标,即结构风险最小化,旨在同时最小化两部分内容:(1) 模型的复杂度(通过最小化 w 2 实现,这有助于提高模型的泛化能力);(2) 超出间隔带样本的总误差。这可以被形式化为一个凸二次规划问题:

min w,b,ξ, ξ * 1 2 w 2 +C i=1 N ( ξ i + ξ i * )

约束条件为:

{ y i ( w T x i +b )ϵ+ ξ i ( w T x i +b ) y i ϵ+ ξ i * ξ i , ξ i * 0,  i=1,2,,N

其中, C>0 是惩罚系数,它是一个权衡因子,用于平衡模型复杂度和训练误差; ϵ 是不敏感系数; ξ i ξ i * 是松弛变量,量化了样本点超出间隔带的程度。

在处理成本预测这类复杂的非线性问题时,SVR方法通常利用核函数(Kernel Function)的特性,将原来较难直接处理的低维输入数据,转化到更高维甚至无限维的特征空间中。在这样的新空间里,原有的数据关系可能变得简单而清晰,使得非线性问题得以更有效地用线性方式进行分析和预测。这一过程被称为“核技巧”,它避免了复杂的高维空间坐标计算。本研究选用最常用且性能稳健的高斯径向基核(RBF): κ( x i , x j )=exp( γ x i x j 2 ) 。此时,SVR模型的预测性能主要由三个关键超参数Cϵ和核参数γ共同决定[6]

2.2. 贝叶斯优化(BO)原理

贝叶斯优化是一种针对计算成本高昂的黑箱函数(Black-box Function)进行优化的强大序列化策略。在SVR模型中,模型的性能(如交叉验证误差)可以看作是一个关于超参数(C, ϵ, γ)的黑箱函数,因为我们无法知道其具体的解析表达式,只能通过一次完整的模型训练和验证来获得一个函数值。贝叶斯优化的目标正是在尽可能少的评估次数下,找到使该黑箱函数达到最优的超参数组合[7]

它主要包含两个核心部分:

(1) 概率代理模型(Probabilistic Surrogate Model):通常采用高斯过程(Gaussian Process, GP),它根据已有的观测点(已评估的超参数组合及其性能)来学习和更新对目标函数全局形态的概率性描述。GP不仅能预测任意未知点处目标函数的均值,还能给出该预测的不确定性(方差)。

(2) 采集函数(Acquisition Function):这是指导搜索方向的决策函数。它基于代理模型提供的预测均值和方差,计算每个候选点的“价值”。这个价值函数巧妙地平衡了探索(Exploration)和利用(Exploitation)的矛盾:一方面,它会倾向于在当前已知最优解的附近进行搜索(利用),以期找到更好的解;另一方面,它也会被不确定性高的区域所吸引,前往探索那些未知但可能隐藏着全局最优解的区域(探索)。常用的采集函数有期望提升(Expected Improvement, EI)、置信上界(UCB)等。

2.3. BO-SVR模型构建流程

结合SVR和贝叶斯优化,构建BO-SVR成本预测模型的流程(见图1)如下[8]

(1) 定义目标函数与搜索空间:明确优化的目标是最大化SVR模型在K折交叉验证下的负均方根误差(-RMSE)或负R2。同时,为超参数Cϵγ定义一个合理的、包含可能最优解的浮点数搜索范围。

(2) 初始化观测:在定义的搜索空间内,随机选择若干组(例如3~5组)超参数组合。使用这些组合分别训练SVR模型并评估其性能,形成一个初始的观测数据集。

(3) 迭代优化循环:

a. 拟合代理模型:基于当前所有已观测的数据点,使用高斯过程拟合目标函数的概率模型。

b. 最大化采集函数:在整个超参数搜索空间中,寻找能使采集函数(如EI)值最大化的下一组“最有潜力”的超参数。

c. 评估并更新:使用上一步找到的超参数组合来训练SVR模型,并通过交叉验证计算其真实性能,获得一个新的观测点(参数组合,性能)。将这个新的观测点加入到数据集中。

d. 重复步骤a至c,直到达到预设的迭代次数或优化预算。

Figure 1. BO-SVR prediction flowchart

1. BO-SVR预测流程图

(4) 输出最优解:在所有已评估过的超参数组合中,选出使目标函数最优(即模型误差最小)的一组,作为最终训练SVR模型的最佳参数。

3. 案例分析

3.1. 数据收集与特征工程

为了构建一个可靠的成本预测模型,本研究收集了涵盖多维要素的历史改造项目数据,以相对充分反映成本影响的主要方面[9]。为保证数据的代表性和可用性,所选样本均来自华东地区某省会城市2021年期间完成的政府立项改造工程(见图2),数据来源包括地方住建委备案资料、审计报告、以及实际施工图纸和结算清单等。所有项目均为居民住宅性质,建筑年代集中于1990年代至1995年前后,具有一定的结构与功能老化特征。在特征量化方面,本文结合规范、专家访谈和已有文献进行了系统设计。例如,结构类型量化参考《房屋建筑结构设计规范》对不同结构形式的施工复杂度进行评分;现场施工条件评分依据《施工现场标准化管理评价表》,综合考虑交通可达性、作业面协调度和文明施工要求;屋面类型区分则结合实地照片与设计图,简化为平屋面与瓦屋面两类,体现其改造难度差异。提取建筑面积、改造内容(如屋面、外墙、窗户更新)、建成年代等九类关键变量,构建待预测的成本样本集(见表1),目标值为实际造价(元)。

建筑面积X1,直接衡量改造规模,直接采用建筑面积;

建筑层数X2,层数越多,加固与装修量越大,直接采用实际层数;

结构类型X3,建筑结构类型会影响加固工艺的选择,因此本文将不同结构形式量化为权重值:砖结构0.5、砖混结构0.6、剪力墙结构0.7、框架结构0.8、框架–剪力墙结构0.9、筒体结构1.0。

楼梯面积X4,反映楼梯改造量,采用实际楼梯投影面积计量。

外立面类型X5,不同的材料外立面改造成本不同。石材、涂料、面砖、玻璃幕墙分别记为1,2,3,4。

现场环境条件X6,综合考虑施工场地位置、交通、管线和文明施工需求,按“差–好”四档赋值0.2、0.4、0.6、0.8。

屋面类型X7,瓦屋面和平屋面分别赋值1、2。

门窗面积X8,老旧小区的建筑门窗节能性能大多不能满足保温隔热的要求,需要对门窗进行更换符合节能保温要求的门窗,按照门窗投影面积计量。

房屋楼龄X9,自建成至改造年份的年限,反映结构与设施老化程度,本文中的房屋楼龄以建筑的实际建成时间至改造实施年份的年数进行量化。

Figure 2. Satellite image of an old residential community renovation project

2. 某老旧小区改造项目卫星图

Table 1. Original indicator data for old residential community renovation

1. 老旧小区原始指标数据

项目编号

建筑面积X1/m2

建筑层数X2

结构类型X3

楼梯面积X4/m²

外立面类型X5

施工条件X6

屋面类型X7

门窗面积X8/m2

楼龄X9/年

工程造价/元

A1

1498

7

0.6

21.06

2

0.6

1

260.01

20

698851.90

A2

855.79

5

0.6

28.51

2

0.6

1

330.30

20

713820.31

A3

4343.16

7

0.6

97.29

2

0.6

1

719.59

20

1282521.10

A4

4816.3

7

0.6

104.43

2

0.6

1

781.00

20

1349824.89

A5

1271.85

4

0.6

0

2

0.6

2

70.89

20

355196.72

A6

3906

7

0.6

104.35

2

0.6

2

766.98

20

1186204.86

A7

1793.82

7

0.6

32.78

2

0.4

1

385.56

20

698649.48

A8

2808.61

7

0.6

63.36

2

0.6

2

725.96

25

1063423.70

A9

2187.24

6

0.6

36.75

2

0.6

2

731.98

25

1075406.84

A10

2195.58

6

0.6

49.84

2

0.6

1

735.65

25

1096721.67

A11

2039.52

7

0.6

70.43

2

0.4

2

561.80

25

864437.93

A12

886.23

3

0.5

16

2

0.4

1

146.50

25

407718.64

A13

2103.48

6

0.6

35.8

2

0.6

1

732.68

25

1073080.42

A14

1330.5

3

0.5

41.6

2

0.6

1

180.67

25

506088.08

A15

2137.32

6

0.6

47.93

2

0.6

1

711.13

25

1055045.91

A16

6020

7

0.6

121.94

2

0.6

1

1111.39

20

1456132.52

A17

4088.49

7

0.6

28.94

2

0.6

1

740.16

20

1094694.92

A18

4031.64

6

0.6

74.02

2

0.4

1

696.58

20

1133623.88

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

A196

2302.32

4

0.6

20.39

2

0.6

1

138.93

20

457016.97

A197

3602.1

5

0.6

17.69

2

0.6

1

185.42

20

581955.63

A198

398.31

3

0.5

16.93

2

0.6

1

44.43

20

252310.76

A199

304.46

2

0.5

15.9

2

0.6

1

54.50

20

320385.83

A200

1498

7

0.6

21.06

2

0.6

1

260.01

20

698851.90

3.2. 数据预处理

原始数据无法直接用于模型训练,必须经过严格的预处理(见表2)。此过程旨在提升数据质量,确保模型训练的有效性和稳定性。

(1) 数据清洗:检查并处理数据中的缺失值(例如,对于数值型特征可使用均值或中位数填充)和异常值(通过统计方法如3σ准则识别并修正或删除)。

(2) 特征量化:将模型无法直接处理的定性特征(如“结构类型”)通过独热编码(One-Hot Encoding)等方式转化为数值型特征。

(3) 数据归一化:由于各特征的量纲和取值范围差异巨大,为避免模型训练时数值较大的特征不成比例地占据主导地位,需对所有特征进行归一化处理,例如使用Min-Max Scaling将数据统一缩放到[0, 1]区间。

Table 2. Processed data indicators

2. 处理后的数据指标

项目编号

建筑面积X1/m2

建筑层数X2

结构类型X3

楼梯面积X4/m2

外立面类型X5

施工条件X6

屋面类型X7

门窗面积X8/m2

楼龄X9/年

工程造价/元

A1

0.21

1

1

0.17

2

1

0

0.20

1

0.37

A2

0.10

0.6

1

0.23

2

1

0

0.27

1

0.38

A3

0.71

1

1

0.80

2

1

0

0.63

1

0.86

A4

0.79

1

1

0.86

2

1

0

0.69

1

0.91

A5

0.17

0.4

1

0.00

2

1

1

0.02

1

0.09

A6

0.63

1

1

0.86

2

1

1

0.68

1

0.78

A7

0.26

1

1

0.27

2

0

0

0.32

1

0.37

A8

0.44

1

1

0.52

2

1

1

0.64

0

0.67

A9

0.33

0.8

1

0.30

2

1

1

0.64

0

0.68

A10

0.33

0.8

1

0.41

2

1

0

0.65

0

0.70

A11

0.30

1

1

0.58

2

0

1

0.48

0

0.51

A12

0.10

0.2

0

0.13

2

0

0

0.10

0

0.13

A13

0.31

0.8

1

0.29

2

1

0

0.65

0

0.68

A14

0.18

0.2

0

0.34

2

1

0

0.13

0

0.21

A15

0.32

0.8

1

0.39

2

1

0

0.62

0

0.67

A16

1.00

1

1

1.00

2

1

0

1.00

1

1.00

A17

0.66

1

1

0.24

2

1

0

0.65

1

0.70

A18

0.65

0.8

1

0.61

2

0

0

0.61

1

0.73

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

∙∙∙

A196

0.35

0.4

1

0.17

2

1

0

0.09

1

0.17

A197

0.58

0.6

1

0.15

2

1

0

0.13

1

0.27

A198

0.02

0.2

0

0.14

2

1

0

0.00

1

0.00

A199

0.00

0

0

0.13

2

1

0

0.01

1

0.06

A200

0.21

1

1

0.17

2

1

0

0.20

1

0.37

3.3. 模型训练与评估

模型按照传统的划分比例进行划分,其中80%为训练集,20%为测试集。

3.3.1. 对比模型与超参数优化

(1) 标准SVR模型(基于网格搜索):作为一种基础的机器学习方法,这里采用传统的网格搜索(Grid Search)技术对SVR的超参数进行优化,目的是为不同的优化方法提供一个有效的对照组。

(2) BO-SVR模型(本文所提方法):将贝叶斯优化策略用于SVR模型超参数的自动调优。具体的参数优化范围设置如下:

1) SVR模型涉及的超参数包括惩罚因子C (取值范围[0.1, 1000]),核函数参数γ (取值范围[0.001, 1]),以及不敏感损失系数ε (取值范围[0.01, 1])。

2) 参数调优方法:在留一交叉验证(LOOCV)的每一轮过程中,无论采用网格搜索还是贝叶斯优化,参数优化过程都严格限制在当前的160个训练样本内进行,即通过训练集内部的交叉验证确定最优参数组合,并使用该最优参数组合对模型进行训练。最后,在被单独留出的测试样本上评估模型表现。这样严格区分训练与测试数据,有效避免了模型验证过程中的信息泄漏,确保了预测结果的公平性和客观性。

3.3.2. 性能评估指标

(1) 均方根误差(Root Mean Square Error, RMSE):

RMSE= 1 N i=1 N ( y i y ^ i ) 2

该指标反映了模型预测值和实际观测值之间的误差波动程度,可以理解为预测误差的样本标准差。RMSE对较大的预测误差(如异常样本点)尤其敏感,因此能更明显地体现出模型在极端情况下的预测稳定性。该指标的单位和待预测的目标变量(如成本)相同,RMSE的值越小,则说明模型预测效果越理想。

(2) 平均绝对误差(Mean Absolute Error, MAE):

MAE= 1 N i=1 N | y i y ^ i |

该指标的含义是对每一个样本的预测值与实际值之间误差的绝对值进行平均,直接反映出模型预测误差的平均水平。指标数值越低,说明预测效果越精确。

(3) 决定系数(R2):

R 2 =1 i=1 N ( y i y ^ i ) 2 i=1 N ( y i y ^ ) 2

该指标是衡量模型对数据变异性解释能力的无量纲指标,取值范围在0到1之间。R² 值越高,意味着模型对成本变动的解释程度越高,拟合的可靠性也越强。

4. 结果评估与讨论

本章节将基于上述模拟的实证分析,对预测结果进行展示和讨论(见表3图3~6)。

4.1. 预测的结果

Figure 3. Comparison of model prediction results

3. 模型预测结果对比

Table 3. Comparison of predictive performance of models

3. 各模型预测性能对比

预测模型

R Squared

RMSE

MAE

MAPE percent

BO-SVM

0.9526

108,010

86,223

14.66

Default SVM

0.9027

154,780

123,010

22.58

Figure 4. Comparison of model error metrics

4. 模型误差指标对比

Figure 5. Relationship between actual and predicted values

5. 真实值与预测值的关联性

Figure 6. Prediction errors for each test sample

6. 各测试样本的预测误差

4.2. 结果分析与讨论

结果分析:

(1) R-squared (决定系数):BO-SVM (0.953)比默认SVM (0.903)高出5个百分点。优化后的BO-SVM模型对数据变异性的解释能力达到了95.3%,相比默认模型的90.3%有了显著提升。这表明BO-SVM能更精准地拟合数据中存在的复杂规律,模型有效性更强。

(2) RMSE (均方根误差):BO-SVM (10.8万)比默认SVM (15.5万)降低了约30%。RMSE指标的急剧下降,是本次优化效果最显著的证明。它强有力地说明了BO-SVM在避免产生重大预测错误方面的卓越能力,模型的可靠性和风险控制水平得到了极大增强。

(3) MAE (平均绝对误差):BO-SVM (8.6万)比默认SVM (12.3万)降低了约30%。从MAE来看,优化后的模型其平均预测误差也减少了约三成,证明了模型整体预测精度的提升。

(4) MAPE (平均绝对百分比误差):BO-SVM (14.7%)比默认SVM (22.6%)降低了约三分之一。MAPE指标的改善,使得模型的预测结果在实际应用中更具参考价值。平均预测误差从超过22%降低到15%以下,这是一个具有实际业务意义的巨大进步。

(5) 为深入理解各影响因子对成本预测的具体贡献,本文对BO-SVR模型中的特征重要性进行了分析。经过分析,特征重要性分析结果明确指出,建筑面积(Area)是影响改造成本的最核心预测因子,其贡献度远超其他因素。紧随其后的是建成年份(Year Built)和窗户面积(Window Area)。这三大物理指标共同构成了成本预测的关键驱动力,说明项目的物理规模和老化程度是决定性因素。该结果可为工程管理人员在控制成本时提供参考。

实践意义:本研究提出的BO-SVR模型,不仅在理论上证明了其可行性,更在模拟实证中展现了其潜力。一个R2达到0.95的预测模型,意味着模型可以解释95%的成本变异,能够为项目决策者在项目初期提供一个相当可靠的成本估算参考。这有助于:(1) 科学编制项目预算:提高预算的准确性,避免因估算严重失真导致的项目超支或资金浪费。(2) 优化改造方案:在不同改造方案(如不同的改造等级、材料选择)之间进行成本效益分析。(3) 风险识别与管控:通过分析重要特征的权重,识别出对成本影响最大的关键因素,从而在项目管理中进行重点监控。

参考文献

[1] 王嘉, 白韵溪, 宋聚生. 我国城市更新演进历程、挑战与建议[J]. 规划师, 2021, 37(24): 21-27.
[2] 赵伟佳, 罗德才, 陈方, 等. 基于PCA-BP神经网络的既有建筑改造成本预测[J]. 土木工程与管理学报, 2024, 41(2): 89-97.
[3] 刘云, 李维嘉, 赵子豪, 等. 基于改进SVM的电力工程造价预测[J]. 沈阳工业大学学报, 2024, 46(4): 367-372.
[4] Salahaldain, Z., Naimi, S. and Alsultani, R. (2023) Estimation and Analysis of Building Costs Using Artificial Intelligence Support Vector Machine. Mathematical Modelling of Engineering Problems, 10, 405-411.
https://doi.org/10.18280/mmep.100203
[5] 石满红, 齐雪, 吴正, 等. 基于贝叶斯优化的支持向量机在乳腺癌辅助诊断中的应用[J]. 平顶山学院学报, 2025, 40(2): 43-45.
[6] 丁世飞, 孙玉婷, 梁志贞, 等. 弱监督场景下的支持向量机算法综述[J]. 计算机学报, 2024, 47(5): 987-1009.
[7] 张文安, 林安迪, 杨旭升, 等. 融合深度学习的贝叶斯滤波综述[J]. 自动化学报, 2024, 50(8): 1502-1516.
[8] Elshewey, A.M., Shams, M.Y., El-Rashidy. N., et al. (2023) Bayesian Optimization with Support Vector Machine Model for Parkinson Disease Classification. Sensors, 23, Article 2085.
https://www.mdpi.com/1424-8220/23/4/2085
[9] 齐园, 倪萍. 基于AHP的既有建筑结构改造施工成本影响因素分析[J]. 建筑经济, 2021, 42(S1): 116-119.