1. 引言
理论的发展离不开数据的支撑。在大数据时代来临之前,理论发展受阻于数据获取的困难,这需要大量的时间和精力。然而,随着现代技术的不断进步,数据呈现爆炸性增长,在为理论分析带来便捷的同时,也给数据分析带来了挑战。在进行实际问题分析时,常常会遇到相关变量过多,且变量间存在相依性等问题。传统的一些模型更适用于处理相关变量较少的情况,因此一些新的处理方法应运而生。
现实世界中,每时每刻都会产生高维时间序列数据,比如金融市场上的股票数据,环境监测数据以及医疗数据等。然而,经典的多元时间序列处理技术在处理这些高维时间序列数据时往往束手无策,运用因子模型进行降维能够更有效地处理这些数据。以宏观经济为例,经济是一个国家的命脉,了解一个国家经济的健康状况,可以帮助决策者制定更适合的经济政策,也能让消费者在生活和职业方面做出更明智的决定。例如,陆晓明通过相关系数,发现美联储货币政策会影响消费者的持有资产,进而影响消费者的消费信心 [1] ;邵延晟对货币政策的影响进行理论总结,发现货币政策会影响投资和消费,即货币政策不确定性上升时会削弱投资,同时会使消费者自行改变储蓄、消费和投资的分配 [2] 。反之,政府也可以通过财政政策和货币政策对宏观经济进行调控,引导国家的经济增长 [3] 。因此,对宏观经济数据进行分析至关重要。然而,宏观经济涉及的衡量指标众多,使用因子模型进行降维后,只需要使用少量的公共因子就能对经济数据进行解释,即可以找到影响宏观经济的最大的几个因子,从而帮助人们进行分析,且由于公共因子个数较少,数据分析的工作量会大幅下降。
自二十一世纪以来,高维时间序列因子模型在理论方面持续发展和完善,特别是与两个核心问题:因子个数和因子载荷的估计有关的理论方面。在这两个基本问题中,因子个数的确定又会影响因子载荷矩阵估计,因此确定因子个数的任务极其重要。估计因子个数的经典方法有主成分法、似然推理和比值估计法等。在比值估计法确定因子个数上,2012年Lam和Yao基于样本滞后信息协方差矩阵进行特征分解,提出了通过相邻特征值之比来确定因子个数的特征值之比法(Eigenvalue Ratio, ER) [4] ,2013年Ahn和Horenstein通过后
个特征值在后
个特征值的占比,提出了生长比估计法(Growth Ratio, GR) [5] ,2017年Xia等人在GR估计器的基础上进行改进,提出了转换贡献率之比(Transformed Contribution Ratio, TCR) [6] ,2018年Xia等人通过相邻特征值对于包含该特征值在内的所有更小特征值的贡献值比值,提出了贡献率之比法(Contribution Ratio, CR) [7] 。其中,TCR估计器在理论方面已经证明具有相合性,其余估计器还不具有该性质。
2. 模型介绍及估计方法
2.1. 模型介绍
近似静态因子模型 [8]
近似静态因子模型的结构如下:
,上式中,
是可观测数据;
是因子载荷矩阵,用于描述可观测数据与潜在因子之间的线性关系;
是公共因子,是影响所有可观测数据的共同因素;
是特殊因子,表示可观测序列中未被公共因子解释的部分。近似静态因子模型与传统因子模型的区别在于,近似静态因子模型允许特殊因子截面相关。
动态因子模型 [9]
动态因子模型的结构为:
,
。
模型中,
是由q阶滞后算子多项式构成的动态因子载荷矩阵,且因子载荷矩阵可能随时间变化,L是滞后算子,公共因子
为——ARMA过程,特殊因子
为未被动态因子解释的部分。
高维时间序列因子模型 [4]
高维时间序列因子模型的结构如下:
。
假设高维时间序列的维度为N,因子个数为r,则上式中,
是可观测时间序列数据,
是因子载荷矩阵,
是公共因子,
是特殊因子并且假设为白噪声序列。
在因子模型中,只有
是可观测数据,因子载荷矩阵、公共因子、特殊因子都是不可观测数据,其中因子个数和因子载荷矩阵都是待估计对象。高维时间序列因子模型是本文所关注的模型。
2.2. 预备知识
随机向量的协方差矩阵 [10]
假设x、y分别为p、q维随机向量,则随机向量x和y的协方差矩阵定义为:
,可简洁地表达为
,
表示
的转置。
特征值和特征向量 [11]
假设一个n阶矩阵A以及实数
,如果可以找到一个非零向量
,满足:
,则称
是矩阵A的特征值,
是矩阵A的属于特征值
的特征向量。
一阶差分 [12]
当自变量从t变到
时,函数
的改变量
,
称为函数
在点t的一阶差分。
二阶差分 [12]
对一阶差分后序列再进行一次差分称为二阶差分,记
为
的二阶差分,表示为:
。
2.3. 估计方法
首先介绍本文使用的比值估计法相关的估计器,分别为ER、CR、TCR、GR四种估计器。令
为可观测时间序列
的滞后k阶协方差矩阵,
,
为L的特征值,则ER、CR、TCR、GR估计器的估计原理为:
ER:
CR:
TCR:
GR:
其中,
是一个常数,通常取
,否则会出现对因子个数高估的情况。
下面介绍具体的估计步骤:
1) 对
进行特征分析,得出
的特征值和特征向量,其中
,
,
;
2) 将
的特征值按照降序排列为
;
3) 第i个最大特征值所对应的特征向量列排即得因子模型中待估计的因子载荷矩阵;
4) 根据四个比值估计器,分别得出特征值之比最小值处所对应的i即为因子个数的估计值。
3. 实证分析
3.1. 数据的选择
本文选取1959年1月~2023年12月的美国宏观经济数据——FRED-MD数据。FRED-MD数据从8个组别、共134个指标来描述美国的宏观经济。这8个组别分别是:收入和支出、劳动力市场、消费和订单、订单和库存、货币和信贷、利率和汇率、价格、股票市场。134个指标具体为实际个人收入、扣除转账收据的实际个人数据、实际个人消费支出等。FRED-MD数据来源见http://research.stlouisfed.org/econ/mccracken/sel/。
3.2. 数据的处理
在对数据进行分析降维之前,需要先对数据进行预处理。以实际个人收入数据(Real Personal Income, RPI)为例,做出关于RPI的时序图见图1。
观察时序图发现,随着年份的增长,实际个人收入也在不断增加,即RPI序列不是平稳时间序列,因此需要先通过差分等方法使数据变得平稳。而不同指标的数据可能需要不同的方法来变得平稳,将需要相同方法而变得平稳的数据归为一类,则所有指标的数据需要7种方法来成为平稳时间序列。
假设
表示指标,
表示该指标随时间的变化,则分为7个准则来对数据转换使数据平稳,具体准则见表1。

Table 1. Criteria for the transformation of data
表1. 数据的转换标准
表1中,
、
分别表示一阶差分和二阶差分。
在对原始数据进行转换之后,需要对数据进行异常值检验并处理,我们将满足下列不等式的称为异常值:
,式中,
表示第i个指标的平均值,
表示第i个指标第t个时间点的数据。将满足异常值条件的异常值剔除,但经过异常值剔除后的数据集存在缺失值,本文用该指标下的均值来填补缺失值,以得到最终的数据集。
3.3. 因子个数的估计
本文针对FRED-MD数据,使用R软件对可观测时间序列数据分别采用ER、CR、TCR、GR四种方法进行因子个数的估计,本文采用折线图来表示每种比值法对因子个数的估计,折线图中的最低点对应的横坐标即为因子个数的估计值,估计结果见图2。

Figure 2. Estimation of the number of factors under ER, CR, TCR, GR estimators
图2. ER、CR、TCR、GR估计器下对因子个数的估计
观察图2可知,ER估计器和GR估计器得到的因子个数为2,CR估计器和TCR估计器得到的因子个数为3。
为了判断估计效果的准确性,本文使用2002年Bai和Ng提出的AIC准则和BIC准则来进行比较 [13] 。每种估计器下的AIC值和BIC值见表2。AIC准则和BIC准则如下:

Table 2. The AIC values and BIC values of ER, CR, TCR, GR estimators
表2. ER、CR、TCR、GR估计器下的AIC值和BIC值
式中,
,
,
,
。
根据表2可知,不论选择哪组AIC和BIC,在CR和TCR估计器下的AIC值和BIC值都比ER和GR估计器得到的值小,根据AIC和BIC准则的含义可知,在CR和TCR估计器下,因子个数的估计结果更为准确。在因子个数估计值为2的情况下,影响美国宏观经济的因子解释为国内生产总值(Gross Domestic Product, GDP)、就业与失业;在因子个数估计值为3的情况下,将影响美国宏观经济的因子解释为GDP、就业与失业、消费价格指数和信心指数。公共因子GDP可以直观地反映出一个国家的经济在某段时间的强弱情况,如果GDP不断增长,则表明国家的经济强盛,反之则表明国家的经济有衰减趋势。公共因子就业与失业可以了解一个国家的就业市场,若失业率持续走高(就业率持续下降),则表明国家的经济下行。而公共因子消费价格指数和信心指数是从通货膨胀和消费者对未来的消费趋势去解释宏观经济。其中,消费价格指数(Consumer Price Index, CPI)可以反映通胀或通缩的程度,CPI为正数表示通胀,负数表示通缩。通胀或通缩会影响消费者的购买、企业的投资以及国家的进出口贸易;消费信心指数(Consumer Confidence Index, CCI)反映消费者对未来的消费趋势,CCI指数大于100表明消费者信心较足,指数在100以下表明消费者信心不足。当比值估计法识别出的因子个数为3个时,多了从消费价格指数和信息指数这一方面去解释宏观经济,而消费又是主导经济发展的核心,因此对宏观经济的解释更为准确。
4. 结论
本文选取了美国宏观经济数据,这是典型的高维时间序列数据,具有一定的代表性。由于宏观经济受到多种指标的影响,不同的指标之间会存在相关性,逐个分析会忽视它们之间的相关性,并且给数据分析带来很大的困难。因此,本文采用了因子模型对这些高维数据进行降维处理,在ER、CR、TCR、GR四种比值估计器下对因子个数进行识别,结合AIC准则和BIC准则,发现CR、TCR估计器对因子个数的识别效果要优于ER、GR估计器。因此,针对本文的数据,CR和TCR估计器识别出的公共因子能够更好地解释宏观经济的变化情况,即GDP、就业与失业、消费价格指数和信心指数对美国宏观经济的解释更加准确。