基于LASSO回归和岭回归的合肥市房价影响因素分析
Analysis of Factors Influencing Housing Prices in Hefei Based on LASSO Regression and Ridge Regression
摘要: 研究住宅商品房平均销售价格对于把握区域房地产市场动态、指导政策制定和居民购房决策具有重要意义。本文基于2002~2023年合肥市住宅商品房平均销售价格和相关的指标数据,运用LASSO回归和弹性网回归进行变量选择,得到了影响合肥市住宅商品房平均销售价格的主要因素,两种方法得到的模型精准度和拟合效果均较好,本理论丰富了住宅商品房价格的理论体系,为政府制定相关政策提供了实证依据。
Abstract: An investigation into the average selling price of residential commercial housing proves instrumental in comprehending regional real estate market dynamics, informing policy formulation, and facilitating home purchase decision-making. Leveraging Hefei’s residential housing price data spanning 2002~2023 alongside relevant indicators, this study employs LASSO regression and elastic net regression methodologies for variable selection, successfully identifying primary determinants of housing prices. Both modeling approaches demonstrate satisfactory predictive accuracy and model fit. The theoretical contributions herein augment existing frameworks pertaining to residential housing valuation while simultaneously furnishing empirical evidence to support governmental policy development.
文章引用:魏帮杰, 董翠玲. 基于LASSO回归和岭回归的合肥市房价影响因素分析[J]. 理论数学, 2025, 15(10): 1-11. https://doi.org/10.12677/pm.2025.1510244

1. 引言

房地产业是中国宏观经济的重要支柱,对推动水泥、钢材、基础设施建设等上下游产业具有显著带动作用。自1998年住房商品化改革以来,伴随城市化进程的加速,中国房地产市场持续高速发展,同时也伴随着房价的飞速上涨,部分大中城市房价超出普通居民的承受能力,存在一定的价格泡沫。房价过快上涨不仅影响国民经济的健康发展,还可能降低居民的生活的幸福感,逐渐演变为社会问题。因此,深入研究房价调控机制具有重要的现实意义。

合肥市是安徽省省会,是长三角城市群副中心,也是中部崛起的重要节点城市。近年来,由于经济发展迅速,科技创新能力显著提升,带动了房地产市场的快速发展。根据合肥市统计年鉴相关数据,2002年以来,合肥房价整体呈现波动上升的趋势,尤其是2016年后出现阶段性快速上涨,房价涨幅长期高于居民收入增速,2023年部分市区新房均价突破2万元/平方米。这一现象既反映了合肥城市能级提升带来的住房需求增长,也凸显出人口流入、土地供应、金融政策等多重因素对房价的综合影响。在当前“房住不炒”的调控基调下,深入研究合肥房价的影响因素,对于促进房地产市场平稳健康发展、保障居民合理住房需求具有重要意义。

国内很多学者对于我国住宅商品房平均销售价格的影响因素及预测进行了深入研究。时维阔针对我国房价快速增长的现象,利用计量经济学软件对房价影响因素进行回归分析,得出房价受人均可支配收入、房屋平均造价和房屋竣工面积三方面因素影响的结论[1]。汪轩昌建立灰色关联分析模型[2],确定了影响安徽省商品房价格的主要因素[3]。孙志妍用计量经济学的方法,通过对各解释变量和被解释变量建立多元线性回归方程得出人口结构影响房价的相关结论[4]。张侠等选取安徽省2003~2016年相关数据,运用普通最小二乘法,构建线性回归模型,结果表明安徽省房价上涨主要是由需求因素推动的,人口数的增加对房价的上涨起主要作用[5]。王玲等通过建立向量自回归模型(Vector Autoregressive, VAR) [6],从经济层面系统地研究了固定资产价格指数、消费价格指数(Consumer Price Index, CPI)、住宅竣工面积、居民可支配收入、国民生产总值(Gross National Product, GDP)对贵州省房价的影响[7]。胡显琴选取合肥市六个区为研究对象,运用R软件进行时间序列分析,建立自回归积分移动平均模型(Autoregressive Integrated Moving Average Model, ARIMA),结果表明合肥市房价将在短期内呈现小幅上升趋势[8]。王慧建立VAR模型针对GDP、房地产开发投资额、常住人口数对合肥房地产价格的影响进行了探究,结果表明常住人口数是影响房价的最重要因素[9]

由于影响住宅商品房平均销售价格的因素众多,且因素之间普遍存在共线性,本文应用变量选择方法从众多影响因素中选取影响住宅商品房平均销售价格的主要因素。考虑到岭回归(Ridge Regression) [10]将回归系数压缩至零的能力相对较弱,而最小绝对值收敛(Least Absolute Shrinkage and Selection Operator, LASSO)回归和弹性网回归在压缩系数方面更具有优势,而且能有效地处理变量之间的多重共线性。本文主要运用LASSO回归和弹性网回归研究影响2002~2023年合肥市住宅商品房平均销售价格的主要因素,并分析了这些影响因素程度,丰富了住宅商品房价格的理论体系,为政府制定相关政策提供了实证依据。

2. 回归模型的基本原理

2.1. 多元线性回归模型的建立

多元线性回归是一种重要的多变量统计建模技术,主要用于探究多个解释变量与一个响应变量之间的量化关系,它能同时考虑多个自变量对因变量的影响,还可以通过控制其他变量的干扰,准确估计每个自变量的独立效应,揭示变量间的内在关系。由于多元线性回归模型具有解释性强的特点,使其成为经济学、心理学、生物医学等领域最常用的统计工具之一。

多元线性回归模型如下:

Y=Xβ+ε (1)

其中,Y为被解释变量,是一个n × 1维的列向量; X=( X 1 ,, X p ) n × p阶的矩阵, β p × 1维的回归系数; ε 为随机扰动项。

当模型(1)满足经典假设时,应用最小二乘法可得到系数 β 的估计量为 β ^ OLS = ( X X ) 1 X Y ,其中X需列满秩。估计量 β ^ OLS 具有无偏性、有效性以及在计算时的高效性等优良性质。然而当面对高维数据时,最小二乘法会面临多重挑战,包括变量间共线性以及p > n时估计结果的不唯一性,导致模型过拟合等。针对这些局限性,学者们提出了LASSO回归和弹性网回归等正则化方法。

2.2. LASSO回归模型基本原理

Tibshirani R在1996年提出了LASSO [11]进行变量选择。作为一种改进的线性建模技术,其核心创新在于将L1正则化项融入目标函数。这种特殊的惩罚机制对模型系数的绝对值总和施加约束,在参数估计过程中能够自动将冗余变量的权重归零,从而同步完成特征筛选与参数估计的双重任务。该方法的独特优势在于既保留了传统变量选择方法的解释性,又具备正则化回归的稳定特性,特别是在处理高维数据时,能有效缓解变量间的相互干扰问题。

LASSO回归的目标函数为:

L L ( β )= 1 2n YXβ 2 2 +λ β 1 (2)

其中 λ β 1 =λ j=1 p | β j | 为惩罚项。LASSO回归的目标函数包括残差平方和和L1正则化项两部分,通过调节正则化参数 λ 的大小,可以控制变量选择的稀疏程度。当 λ 较大时,更多的系数被压缩至零,从而实现变量选择;当 λ 较小时,模型更接近于普通最小二乘法回归。特别地,当 λ=0 时,LASSO回归退化为普通最小二乘法回归。LASSO结合了正则化和优化技术,通过调节正则化参数 λ 的大小提供了一种高效且灵活的变量选择方法。

极小化目标函数(2)式可以得到回归系数 β LASSO回归估计 β ^ L

β ^ L =argmin{ 1 2n YXβ 2 2 }+λ j=1 p | β j | (3)

LASSO回归在变量选择过程中采用的是最小角度回归算法(Least Angle Regression, Lars) [12],它是一种逐步回归方法,专门用于解决L1正则化问题(如LASSO)中的变量选择。

正则化参数 λ 的选择通常采用K折交叉验证技术实现,该方法通过系统评估不同惩罚强度下模型的泛化性能来确定最佳取值。具体实施步骤包括:首先构建一个等比数列范围的正则化参数候选集,确保覆盖从强约束到弱约束的完整区间;然后执行K轮迭代验证过程,每次保留一个子集作为验证数据,其余K-1个子集用于模型训练,并记录各参数对应的预测误差;比较所有的预测误差结果,选择使预测误差达到最小值所对应的参数 λ ,或采用保守策略选取误差不超过最小值的一个标准差对应的参数 λ

2.3. 弹性网回归模型基本原理

弹性网(Elastic Net)是由ZouHastie在2005年提出的[13],是一种用于线性回归的正则化方法,具有L1正则化(LASSO回归)和L2正则化(岭回归)的优点。

弹性网回归目标函数为:

L EN ( β )= 1 n YXβ 2 2 + λ 1 β 1 + λ 2 β 2 2 (4)

其中 λ 1 β 1 + λ 2 β 2 2 = λ 1 j=1 p | β j | + λ 2 j=1 p β j 2 是惩罚项, λ 1 λ 2 是正则化参数,控制着L1L2正则化的强度。L1正则化可以进行变量选择,实现模型的稀疏化,使模型更加具有解释性;L2正则化可以降低模型的方差,并能有效地处理变量之间的多重共线性,使回归系数更具有稳健性。

由于 λ 1 λ 2 的取值范围均是 [ 0, ) ,不便于使用交叉验证和广义交叉验证(Generalized Cross-Validation, GCV)等方法同时进行最优正则化参数的选择,ZouHastie进一步提出 λ= λ 1 + λ 2 α= λ 1 /λ 。从而(4)式可以写为如下形式:

L EN ( β )= 1 n YXβ 2 2 +λ[ α β 1 +( 1α ) β 2 2 ] (5)

弹性网回归可以通过调节参数 α ,在LASSO回归和岭回归之间灵活切换,是一种更加灵活且强大的回归方法。当 α=0 时,弹性网回归退化为岭回归;当 α=1 时,弹性网回归退化为LASSO回归;当 0<α<1 时,弹性网回归为岭回归和LASSO回归的加权平均。模型(5)中回归系数 β 的估计值 β ^ EN

β ^ EN =argmin{ 1 n YXβ 2 2 +λ[ α j=1 p | β j | +( 1α ) j=1 p β j 2 ] } (6)

其中调节参数 0α1 可根据实际应用进行选择,正则化参数 λ0 可以通过交叉验证方法得到。

3. 实例分析

3.1. 数据来源及变量说明

本文在国内一些学者对住宅商品房平均销售价格的研究基础上[1] [5] [7] [9],同时考虑到数据的公开性及可获取性,选取了对合肥市2002~2023年住宅商品房平均销售价格影响较大的9个因素,具体包括地区生产总值(X1)、年末户籍人口数(X2)、城镇居民人均可支配收入(X3)、第三产业房地产生产总值(X4)、住宅房屋新开工面积(X5)、住宅商品房销售面积(X6)、人口自然增长率(X7)、居民消费价格指数(X8)、房地产开发投资额(X9)。数据来源于《合肥统计年鉴》,共22个样本。表1是关于上述变量的描述性统计分析。

Table 1. Descriptive statistical analysis of variables

1. 变量描述性统计分析表

变量

变量名

最小值

最大值

均值

标准差

Y

合肥市住宅商品房平均销售价格(元/平方米)

1618

15,530

7551.09

4873.76

X1

地区生产总值(亿元)

644.56

12673.78

5232.07

3970.04

X2

年末户籍人口数(万人)

444.68

806.6

634.82

144.1

X3

城镇居民人均可支配收入(元)

7145

59,609

28352.91

16805.54

X4

第三产业房地产业生产总值(亿元)

26.08

1081.05

411.54

367.71

X5

房屋新开工面积(万平方米)

231.8

1478.65

1037.96

350.95

X6

商品房销售面积(万平方米)

175.59

1705.72

996.29

413.5

X7

人口自然增长率(千分比)

4.18

12.27

7.11

2.43

X8

居民消费价格指数(百分比)

99.1

106.4

102.17

1.85

X9

房地产开发投资额(亿元)

40.12

1557.41

869.84

502.96

3.2. 数据预处理以及多重共线性检验

Figure 1. Correlation heat map

1. 相关性热力图

表1可以看出所选取的变量的量纲不相同,且数值范围差异大,因此需要对原始数据进行标准化处理,以提高模型性能和预测准确性。本文应用Z-Score标准化进行处理,即

Z= Xμ σ

其中 μ σ 分别为数据总体的均值和标准差。

图1绘制了标准化后各变量之间相关系数的热力图,可以看出被解释变量与解释变量以及解释变量之间均普遍存在相关性,其中合肥市住宅商品房平均销售价格(Y)只与人口自然增长率(X7)、居民消费价格指数(X8)的相关性较低。

应用方差膨胀因子(Variance Inflation Factor, VIF)对变量进行多重共线性检验,结果详见表2

Table 2. Test of multicollinearity of variables

2. 变量多重共线性检验

变量

VIF

变量

VIF

X1

1635.05

X6

6.84

X2

11.42

X7

2.02

X3

1488.01

X8

1.34

X4

86.47

X9

26.65

X5

9.36

方差膨胀因子(VIF)适用于检验变量共线性的强弱,当VIF大于10时,说明变量之间存在显著的共线性,当VIF大于5小于10时,说明变量之间存在共线性。变量选择时要消除多重共线性。

通过相关性热力图以及方差膨胀因子的计算,可以看出变量之间普遍存在多重共线性,其中X1X3的方差膨胀因子数值分别为1635.05、1488.01,说明X1X3与其他变量存在严重的多重共线性。下面应用LASSO回归和弹性网回归进行变量选择。

3.3. 变量选择及模型建立

应用R软件使用交叉验证方法得到LASSO回归的最优λ值为0.0855,并进行Bootstrap稳定性检验,即通过100次重采样计算变量被选中的概率。图2给出了交叉验证误差曲线图和应用LASSO方法进行变量选择的稳定性验证图。

将最优λ值带入(3)式,得到各变量对应的回归系数,具体见表3表3的左侧列举了各变量的系数、100次重采样中被选中的概率以及由图2稳定性验证图得到的结果。其中系数非零的变量分别为第三产业房地产业生产总值(X4)、房地产开发投资额(X9)、地区生产总值(X1)、城镇居民人均可支配收入(X3)。由图2的稳定性验证图以及表3左侧的第二列,第三列可以得到X4X9X1经过100次重采样中被选中的概率在0.5以上,且稳定性水平处于中等及以上,应保留。X3经过100次重采样中被选中的概率低于0.5,且稳定性较低,应考虑删除。得到LASSO回归模型如下,

Y ^ L =0.74055 X 4 +0.13178 X 9 +0.13478 X 1 (7)

由于解释变量存在较严重的多重共线性,为了更好地消除多重共线性的影响,应用弹性网回归进行变量选择时需要选取恰当的α值。本文将α设置为0.5,使用交叉验证方法得到最优λ值为0.1294,并进行Bootstrap稳定性检验。图3给出了交叉验证误差曲线图和应用弹性网方法进行变量选择的稳定性验证图。

Figure 2. Cross-validation error curve and stability verification diagram of variable selection using the LASSO method

2. 交叉验证误差曲线图和LASSO方法变量选择的稳定性验证图

Figure 3. Cross-validation error curve and stability verification diagram of variable selection using elastic net method

3. 交叉验证误差曲线图和弹性网方法变量选择的稳定性验证图

将最优 λ 值和 α=0.5 带入(6)式,得到各变量对应的回归系数,表3列举了各变量的系数、100次重采样中被选中的概率以及由图3稳定性验证图得到的结果。其中系数非零的变量分别为第三产业房地产业生产总值(X4)、地区生产总值(X1)、城镇居民人均可支配收入(X3)、房地产开发投资额(X9)、人口自然增长率(X7)、年末户籍人口数(X2)。由图3的稳定性验证图以及表3右侧的第二列,第三列可以得到6个变量经过100次重采样中被选中的概率均在0.5以上,且稳定性水平均在中等及以上,应保留。得到弹性网回归模型如下,

Y ^ EN =0.38032 X 4 +0.23950 X 1 +0.21535 X 3 +0.04279 X 9 +0.03622 X 7 +0.03586 X 2 (8)

Table 3. LASSO regression and elastic net regression coefficients and stability

3. LASSO回归和弹性网回归系数及稳定性

变量

LASSO回归

弹性网回归

系数

选择概率

稳定性

系数

选择概率

稳定性

截距项

0

1

0

1

X1

0.13478

0.51

0.23950

1

X2

0.23

0.03586

0.76

X3

0.21609

0.28

0.21535

1

X4

0.74055

1

0.38032

1

X5

0.14

0.26

X6

NA

NA

X7

0.33

0.03622

0.78

X8

NA

0.02

X9

0.13178

0.79

0.04279

0.71

通过方程(7)式和(8)式可以得到LASSO回归和弹性网回归分别选出了3个和6个非零变量,且均具有正向影响作用。

3.4. 模型拟合效果及评价对比

将影响2002~2023年合肥市住宅商品房平均销售价格的主要因素标准化后的数据分别带入LASSO回归模型(7)和弹性网回归模型(8)得到拟合值 Y ^ i L Y ^ i EN 图4绘制了合肥市2002~2023年标准化后的住宅商品房平均销售价格 Y i Y ^ i L Y ^ i EN 对比图。

图4可以看出建立的LASSO回归模型(7)和弹性网回归模型(8)对于2020年前的数据具有较好的拟合效果,说明LASSO回归和弹性网回归都能很好地解决变量间多重共线性问题,对变量进行选择。2020年后由于全国房地产价格普遍受到其他相关因素影响,导致2020~2023年合肥市住宅商品房平均销售价格出现一定的波动,从而出现两种方法拟合效果略差的现象。

表4给出了两种回归模型的对比分析结果,可以看出弹性网回归在拟合优度R²以及赤池信息准则(Akaike Information Criterion, AIC)上略优于LASSO回归,贝叶斯信息准则(Bayesian Information Criterion, BIC)略差于LASSO回归,但总体效果差别不大。综合考虑模型简洁度、变量系数的具体值以及过拟合风险,最终选择LASSO回归得到的变量及模型。

Figure 4. Comparison of the standardized average sales price of residential commercial housing in Hefei from 2002 to 2023 Y i and Y ^ i L Y ^ i EN

4. 合肥市2002~2023年标准化后的住宅商品房平均销售价格 Y i Y ^ i L Y ^ i EN 的对比图

Table 4. Model comparison analysis table

4. 模型对比分析表

模型

R2

AIC

BIC

LASSO回归

0.9801

−17.44

−10.9

弹性网回归

0.9813

−17.59

−8.86

4. 结论与建议

文章应用LASSO回归和弹性网回归方法,分析了影响2002~2023年合肥市住宅商品房平均销售价格的主要因素。结果表明这两种正则化方法均能有效处理解释变量之间的多重共线性问题,实现了稳健的变量选择。通过对模型性能的系统评估发现LASSO回归和弹性网回归均具有良好的模型精准度和拟合效果,且LASSO回归模型更为简洁,是更为理想的回归模型。

本研究通过LASSO回归得到合肥市住宅商品房平均销售价格三个具有统计显著性的核心影响因素,分别为第三产业房地产业生产总值(X4)、房地产开发投资额(X9)、地区生产总值(X1),且对合肥市住宅商品房平均销售价格均具有正向影响。作为衡量房地产行业规模与发展水平的重要指标,第三产业房地产业生产总值(X4)的增长直接反映市场供给能力和行业景气度。2002年以来,合肥市房地产服务业产值持续上升,尤其是2010年后城市化加速,带动住宅需求增长,推动房价上涨;房地产开发投资额(X9)同样对房价呈正向影响,但其作用具有一定的滞后性。合肥市房地产开发投资规模在2008年后迅速扩大,特别是在2016年“长三角一体化”政策推动下,大量资金涌入房地产市场,促使住宅供给增加,短期内可能缓解供需矛盾,但长期来看,投资增长往往伴随土地成本上升和高端住宅比例提高,从而推高整体房价水平;地区生产总值(X1)是衡量整体经济实力的核心指标,合肥市GDP自2002年起保持高速增长,产业结构优化和人口流入增强了居民购房能力,同时提升了土地价值和市场预期。

基于本研究,建议合肥市相关产业部门从供需两端协同施策,在供给端应优化土地供应节奏,建立房地产业监测预警机制,通过差异化供地政策引导开发企业合理投资,避免因短期内过度投资推高土地成本;在需求端需强化产业发展与人才政策的联动效应,通过培育新兴产业、完善公共服务等措施增强城市经济活力,使房价涨幅与居民收入增长相协调,同时健全多主体供给、多渠道保障的住房体系,重点发展保障性租赁住房满足新市民住房需求,实现房地产市场的长期平稳健康发展。

本研究将现代正则化方法应用于住宅商品房平均价格研究,为理解住宅商品房平均销售价格增长机制提供了新的分析框架,丰富了住宅价格的理论体系,也为地方政府制定政策提供了实证依据。

基金项目

新疆维吾尔自治区自然科学基金项目(2023D01A37, 2022D01A219)。

NOTES

*通讯作者。

参考文献

[1] 时维阔, 张坤. 我国房价影响因素的实证分析[J]. 北方经济, 2009(24): 25-27.
[2] 邓聚龙. 灰色系统理论教程[M]. 武汉: 华中理工大学出版社, 1990.
[3] 汪轩昌. 安徽省住宅商品房价格影响因素研究[J]. 赤峰学院学报(自然科学版), 2015, 31(21): 85-88.
[4] 孙志妍. 上海市人口结构对住宅商品房价格的影响[J]. 经济研究导刊, 2017(2): 94-95.
[5] 张侠, 吴晶晶, 孙道助. 基于线性回归模型的安徽省房价影响因素分析[J]. 阜阳师范学院学报(自然科学版), 2018, 35(4): 73-77.
[6] Sims, C.A. (1980) Macroeconomics and Reality. Econometrica, 48, 1-48. [Google Scholar] [CrossRef
[7] 王玲, 刘平清, 王梅, 等. 基于VAR模型对贵州省房价影响因素分析[J]. 电脑知识与技术, 2022, 18(02): 122-125+129.
[8] 胡显琴. 基于ARIMA模型的房地产价格预测研究——以合肥市为例[J]. 中国管理信息化, 2022, 25(5): 163-166.
[9] 王慧. 基于VAR模型的合肥市房价影响因素分析[J]. 金融文坛, 2023(5): 16-19.
[10] Hoerl, A.E. and Kennard, R.W. (2000) Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics, 42, 80-86. [Google Scholar] [CrossRef
[11] Tibshirani, R. (1996) Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society Series B: Statistical Methodology, 58, 267-288. [Google Scholar] [CrossRef
[12] Efron, B., Hastie, T., Johnstone, I. and Tibshirani, R. (2004) Least Angle Regression. The Annals of Statistics, 32, 407-499. [Google Scholar] [CrossRef
[13] Zou, H. and Hastie, T. (2005) Addendum: Regularization and Variable Selection via the Elastic Net. Journal of the Royal Statistical Society Series B: Statistical Methodology, 67, 768-768. [Google Scholar] [CrossRef