1. 引言
我国房地产投资快速增长,2022年房地产开发投资占全社会固定资产投资的比重为22.93% [1] 。影响房地产投资的潜在因素有很多,主要包括基础设施环境因素、经济环境因素、政策环境因素等方面,完备的基础设施能带动人口的流入和地区贸易的增长,对房地产市场的发展壮大具有强大的推动作用 [2] 。韦兰宁、唐晓莲基于面板向量自回归模型,发现房地产投资与就业量变化之间的互相影响在相应的周期内非常显著 [3] 。Weinberg等指出,消费水平对于房地产投资也存在影响 [4] 。乔林等在研究国内不同发展层次城市房价的影响因素时发现,人均收入对房地产影响达到43.16% [5] 。然而,上述文献仅研究单个影响因子,没有考量尽可能多的影响因子,为此本文引入两种贝叶斯时空模型,对多个影响因子加以评估,并对它们组成的复杂整体进行系统分析。
贝叶斯方法是将参数都视为随机变量并且服从于一定形式的分布,数据可以是离散的,可以服从于泊松分布、伯努利分布等。通过层次结构,贝叶斯方法可以将时间信息,空间信息和时间交互信息都纳入到一个模型中,并且通过MCMC模拟估计出来 [6] 。这里我们引入BYM和FBM两种模型,BYM (Besag-York-Mollie)模型由Besag等人提出 [7] ,FBM (Familiar Bayesian Spatio-Temporal)模型是G. Li等提出的一种模型 [8] 。在贝叶斯时空模型中,常添加空间随机效应参数,空间随机效用可以从邻近地区借力以稳定特定地区的风险,克服由于数据较少导致的不稳定估 [9] [10] 。同时,空间随机效应一般用来替代无法解释的空间结构,并且当数据存在过散分布和空间自相关时,空间随机效应模型的表现也较良好 [11] 。并且,在贝叶斯模型中加入时间项,可以解释样本的时间变化特点,Yu等 [12] 将时间项引入贝叶斯空间模型中,研究了酒水供应量减少后对于暴力事件发生率的影响。Bernardinelli等 [13] 将贝叶斯层次模型与时空交互模型结合起来,既包含了地区随机效应,也包含了平均趋势项和地区趋势项,使得模型可以评估时空相互影响。贝叶斯层次时空模型在社会学等领域中应用广泛 [14] [15] [16] ,Law等 [17] 采用了这个模型,研究了加拿大的随时间变化的小区域层级犯罪模式。Junming Li等分析论证了中国大陆地区卫生支出的时空演变并探讨了驱动因素以及驱动因素对演变的影响程度 [18] 。韩秀兰、李俊明构建了贝叶斯时空层次非线性模型和贝叶斯分域时空回归模型研究了2002~2015年中国35个主要城市住宅商品房价格时空演变规律和影响机制,并考虑年度人均GDP、第三产业值、人口密度等影响因素 [19] ,上述文献虽然考量了多个影响因子,但缺乏对影响因子的筛选,没有验证分析影响因子之间可能存在的多重共线性,并且对于研究区域整体的发展热度和局部的发展趋势缺乏研究。因而根据这些前人的研究成果,本文引入第三产业产值、客运总量、就业人数、人均GDP、小初高学校数量、医疗床位利用情况以及各地区的城市人口密度作为影响因子,并运用BYM和FBM建立贝叶斯时空模型。这里我们采用离差信息准则(Deviance Information Criterion, DIC)来比较两种模型之间的拟合程度,评价模型在应用中的优劣,一般DIC值越小模型拟合情况越佳 [20] 。
2. 理论分析
2.1. 数据相关性及因子分析
对2012~2021年中国大陆各地区的各影响因子、房地产投资的数据取平均值,而后对各潜在的影响因子同房地产投资额做相关性分析,这里采用简单相关性分析的方法,得出结果后对相关性系数进行检验,检验结果P值小于0.05具有统计学意义,大于0.05不具有统计学意义,予以舍弃,从而筛选出合适的影响因子。由于在实际问题当中可能出现多重共线性的问题,当有多重共线性的情况发生时,参数估计的结果不再具有有效性,而本文研究中探究多个影响因子对房地产投资的影响,所以在总体分析前需要消除共线性。我们通常需要通过VIF检验来排除掉某些有多重共线性的变量。VIF,Variance Inflation Factor,即方差膨胀因子。VIF指的是解释变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比,可以反映多重共线性导致的方差的增加程度。这里VIF越大,显示共线性越严重。经验判断方法表明:当0 < VIF < 10,不存在多重共线性;当10 ≤ VIF < 100,存在较强的多重共线性;当VIF ≥ 100,存在严重多重共线性。这里我们将VIF > 10的影响因子排除。
完成复相关性分析后,对筛选完成的影响因子进行因子分析。由于各个影响因子在单位及量纲上都不一致,因而需要对各影响因子进行归一化,从而方便后续的建模分析。归一化的取值范围是0~1。
在研究问题时,尽可能多的收集资料便于对问题有充分了解,实际数据建模中,有些变量不一定可以真正发挥作用,还可能加大计算工作量,所以要进行因子分析,这里采用因子分析对指标间进行降维,从而对各影响因子进行新的分类重组。运用Bartlett球度检验和KMO检验,检查变量是否独立或相关,Bartlett球度检验统计量设为0.05,KMO取值介于0~1之间,取值越接近1,则变量间的相关程度越强,KMO统计量大于0.7以上时,因子分析效果较好。
2.2. 贝叶斯时空模型的构建
BYM和FBM模型均是利用先验分布对模型中所有的未知参数进行描述,随后进行贝叶斯估计获得贝叶斯后验分布,并利用马尔科夫蒙特卡洛方法(MarkovChain Monte Carlo methods, MCMC)进行后验分布的计算,最终获得未知参数的估计值。由于各省的房地产投资值差异较大,本文采用泊松对数正态模型,在连接函数中加入描述数据离散性的误差项,容许数据过度离散的现象。
2.2.1. BYM模型的构建
设区域i在j时间段内房地产投资值为
,贝叶斯时空模型建模如下:
(1)
(2)
其中
是区域i在j时间段内的预期投资值。这里,我们采用时间序列模型——ARIMA模型,以2002~2011年的房地产投资真实值为基准,预估2012~2021年的房地产投资值。ARIMA模型的全称叫做自回归移动平均模型,ARIMA模型有三个参数:p,d,q。其中,p代表预测模型中采用的时序数据本身的滞后数;d代表时序数据需要进行几阶差分化,才是稳定的;q代表预测模型中采用的预测误差的滞后数。在p,d,q已知的情况下,ARIMA模型的数学形式如下:
(3)
是区域i在第j年的综合投资影响系数。
表示截距,
表示空间同质性,
表示空间异质性,
表示自回归时间效应,
表示时间效应的系数,
表示第j年的时间效应,
表示距离效应,
表示时空交互效应,
表示相应影响因子的协变量,
表示区域i第j年的第k个影响因子。
空间同质性
反映空间相关性,其先验信息一般通过条件自回归模型(Conditional Autoregressive Process, CAR)建模表示。模型公式如下:
(4)
其中,
表示区域i和区域j之间的空间效应;
代表区域i受到相邻m个区域空间效应影响的方差平均值,
代表区域i受到相邻m个单位空间效应影响的平均值,这里我们探寻的是中国大陆31个省、自治区和直辖市的空间同质性,所以,若两省级单位相邻则令
,反之则等于0。空间异质性由空间非结构效应反映,一般通过正态分布建模,即:
(5)
时间效应、时空交互效应一般也通过正态分布建模,而距离效应的建模方法与空间同质性的建模方法相同。这里所有的参数的超先验分布均采用标准差为(0, 10)的均匀分布,对于截距
的先验分布,这里采用无信息先验分布。
2.2.2. FBM模型的构建
FBM的数学形式如下:
(6)
(7)
(8)
这里,
表示截距,
表示房地产投资的空间分布,
代表在各区域里共同的时间变化趋势,
(
)代表共同的时间趋势中线性组成部分,
通过正态分布建模代表时间效应中的随机变化部分。
代表各区域各自的独立的时间变化趋势;
代表不包含在模型中但是对观测数据产生影响的随机误差项;。
表示相应影响因子的协变量,
表示区域i第j年的第k个影响因子。各参数采用正态分布建模,各参数的超先验分布采用方差(0, 10)的均匀分布
和
的先验分布与BYM模型相同。本文中的两种模型均在WinBUGS1.4中编译运行。
3. 实证分析
3.1. 数据来源
2012~2021年中国大陆地区房地产投资值数据来源于2012~2021年中国统计年鉴(http://www.stats.gov.cn/sj/ndsj/),诸影响因子来源于2012~2021年中国统计年鉴。共引入人均GDP、第三产业产值、高中学校数量、初中学校数量、小学学校数量、人均工资、人口密度、各省客运总量、各省就业人数、各省居民消费水平、医疗床位利用情况共计11个影响因子。中国基础地理信息数据来源于2019中国地图–审图号GS(2019)1822号。
3.2. 相关性及因子分析
将房地产投资值和各感兴趣的影响因子进行两两相关性分析,结果见表1:

Table 1. Correlation analysis between real estate investment and various influencing factors
表1. 房地产投资同各影响因子的相关性分析
相关性分析完成后,我们对结果进行检测,检测结果见表2:

Table 2. Detection of correlation analysis results between real estate investment value and various influencing factor indicators
表2. 房地产投资值与各影响因子指标相关性分析结果检测
通过上述分析,我们可以看到相关性分析的结果为各影响因子对房地产投资的影响值均大于0,而且相关性分析的检测结果显示,检测结果P值均小于0.05,因而均具有统计学意义。为消除多重共线性,进行复相关性分析及方差膨胀性因子的获取,结果见表3。

Table 3. Calculation results of variance inflation factor (VIF) for each influencing factor
表3. 各影响因子的方差膨胀因子(VIF)计算结果
通过表3我们可以发现,各个影响因子的VIF值均大于0小于10,所以各影响因子之间不存在多重共线性。接下来,在完成数据的归一化后,我们对各影响因子进行因子分析,降维处理,Bartlett球度检验和KMO检验结果见表4:

Table 4. Bartlett and KMO tests
表4. 巴特利特和KMO检验
由表4可知,KMO值大于0.7,且巴特利特球度检测的显著性是小于0.05的,所以适合进行因子分析。因子分析成分矩阵碎石图和空间组件图分别见表5:

Table 5. Component matrix after rotation
表5. 旋转后的成分矩阵
通过表4我们可以将十一个影响因子分成三类,其中高中学校数量、初中学校数量、小学学校数量、客运总量、第三产业产值以及医疗床位利用情况为一类,重新命名为社会因子;人口密度单独为一类,即人口密度因子;人均GDP、人均工资和消费水平为一类,重命名为经济因子。接下来,我们将以社会因子、经济因子、人口密度因子为影响因子,建立贝叶斯时空模型。
3.3. ARIMA模型预测
采集2002~2011年中国大陆各省、自治区和直辖市的房地产投资值,运用ARIMA模型预测2012~2021年中国大陆各省、自治区和直辖市的房地产投资值,作为本文研究的预估值,分别整理31个省、自治区和直辖市2002~2011年度的房地产投资数据,选择合适的p、d、q值,对中国大陆地区各个省、直辖市、自治区以2002~2011年数据为基准,进行时间序列的预测,结果见表6。

Table 6. Estimated real estate investment values from 2012 to 2021
表6. 2012~2021房地产投资预估值
3.4. 贝叶斯时空模型建模
3.4.1. BYM建模
假设中国大陆地区各省、自治区和直辖市i第j年的房地产投资发展程度为
,社会因子为
,经济因子为
,人口密度为
,各影响因子的协变量系数为
。那么构建的BYM数学模型如下:
在WinBUGS1.4中进行大约250,000次迭代,模型基本达到了收敛状态。模型达到收敛后,我们可以得出中国大陆31省、自治区和直辖市2012年到2021年的房地产投资发展程度的后验均值(见表7),同时可以得出五个影响因子对房地产投资的影响评估(见表8)。

Table 7. The development of real estate investment in different regions of Chinese Mainland from 2012 to 2021 under the BYM model
表7. BYM模型下2012~2021年中国大陆各地区房地产投资发展程度

Table 8. Impact assessment of various influencing factors under the BYM model
表8. BYM模型下各影响因子的影响评估
从表8的结果来看,三种影响因子对房地产投资发展程度都是存在着正相关的影响,经济因子对发地产投资的影响程度最大,社会因子的影响程度较小。
3.4.2. FBM建模
参照BYM模型,构建FBM数学模型如下:
在WinBUGS1.4中迭代250,000次,模型基本达到收敛。投资发展程度见表9,各影响因子的评估结果见表10。

Table 9. Development degree of real estate investment in different regions of Chinese Mainland from 2012 to 2021 under the FBM model
表9. FBM模型下2012~2021年中国大陆各地区房地产投资发展程度

Table 10. Impact assessment of various influencing factors under the FBM model
表10. FBM模型下各影响因子的影响评估
从表10的评估结果来看,结论与BYM相似。根据DIC值,我们可以对BYM和FBM模型进行一个对比,已知DIC值越小,模型拟合效果越好。DIC值见表11。

Table 11. Comparison of fit levels between two models
表11. 两种模型的拟合程度比较
注:DIC = Dbar + pD。
通过表11,我们可以较为容易的得出结论:FBM模型拟合程度要优于BYM。
显然,房地产投资发展程度大于1,则说明该地区的房地产投资额超过预期,反之则是低于预期。在社会因子、经济因子、人口密度因子的综合影响下,中国大陆地区各省、自治区、直辖市的房地产投资与预期值或多或少的发生了偏离。从表11结果来看,中国大陆地区绝大多数省、自治区、直辖市在2019年后的这2年中房地产投资额都低于预期,这也契合了新冠肺炎疫情爆发的三年以来,房地产市场的不景气。
每年的房地产投资发展程度评估只能体现中国大陆各地区当年的房地产投资发展状况以及空间分布,对于各地区整体在2012~2021这10年的整体发展热度以及局部发展趋势无法作出分析。因而,我们可以根据各省级行政区的空间相对大小分为热点、温点和冷点区域。区域分类的准则基于Richardson等提出
的分类准则 [21] :如果i地区的房地产投资空间相对大小大于1的后验概率
大于0.8,则属于热点区域;若小于0.2则属于冷点区域;若介于0.2到0.8之间,则属于温点区域。此外,也可以按照这个分类准则,将各地区的局部变化趋势分为快速增长区域、稳定增长区域和增长放缓区域,即若i地区的局部变化趋势大于0的后验概率
大于0.8则属于快速增长区域,小于0.2则属于增长放缓区域,介于0.2到0.8之间则属于稳定增长区域。运用FBM模型分析,结果分别如表12、表13所示:
根据表12和表13,从总体发展热度上看,中国大陆地区各个省、自治区和直辖市的房地产投资发展热度都在大于0.2,小于0.8这个区间范围内,因而2012~2021年这十年的总体房地产投资发展热度各地区均属于温点地区,发展平稳。从局部发展趋势上来看,2012~2021年这十年间各地区的局部发展趋势也在[0.2, 0.8]这个区间范围内,因而各地区房地产投资的局部发展趋势也是处于稳定增长,总量在稳定增长而增速在逐渐降低。

Table 12. The overall development heat of real estate investment in all regions of Chinese Mainland is greater than 1 posterior probability
表12. 中国大陆各地区房地产投资总体发展热度大于1后验概率

Table 13. Partial development trend of real estate investment in various regions of Chinese Mainland is greater than 0 posterior probability
表13. 中国大陆各地区房地产投资局部发展趋势大于0后验概率
4. 结论
本文通过运用BYM以及FBM两种贝叶斯时空统计模型,对2012~2021年中国大陆地区各省、自治区、直辖市的房地产投资的发展程度作了评估,并对社会因子、经济因子、人口密度因子三个综合影响因子对房地产投资的影响也作出了相应的评估,其中经济因子对发地产投资的影响程度最大,社会因子的影响程度较小。利用FBM模型,对31个省、自治区、直辖市的房地产投资发展程度作出了相应的评估分析。可以看出房地产投资发展程度越大说明该地区的投资风险相对较小,房地产实际投资额是超过我们的预期值的,该地区的房地产发展良好,因而适合将资金注入该地区;如果房地产投资发展程度较小,略微大于或者等于1,那么说明该地区房地产的投资相对饱和,同我们的预期较为吻合;如果房地产投资发展程度小于1,说明该地区存在一定的投资风险,这里的房地产投资额是低于我们的预期值的。从总体发展热度上来看,以2012~2021这10年的跨度综合评判,中国大陆地区各个省、自治区、直辖市的房地产投资发展热度都是属于温点区域。同样以这10年为准,各地区房地产投资局部发展趋势,我们可以看出,大陆各地区的局部发展趋势也是趋于稳定增长。从2021年31个省、自治区、直辖市的发展程度来看,在总体发展冷热度和局部发展趋势都趋于稳定发展的情况的前提下,天津、山西、内蒙古、辽宁、黑龙江、上海、江西、山东、广东、广西、四川、贵州、西藏、青海、宁夏、新疆的房地产投资发展程度较好(大于1),在未来的投资规划中可以重点考察上述省份。同时,我们建议相关部门在作房地产投资发展规划时应着重考虑区域的人均GDP、人均工资、居民消费水平以及当地的人口情况,这些因素影响地区的房地产开发和投资。
同时,本文通过对比BYM模型和FBM模型的DIC值,得出结论,FBM模型在房地产投资评估的模型分析中是要优于BYM模型,而且FBM模型能够更好地分析研究对象的时空演化,因而在对房地产投资类的时空建模问题中可以引入FBM模型加以解决。
NOTES
*通讯作者。