1. 引言
随着人们投资意识的不断提高,金融理财产品已成为我们日常生活中的一大经济支出。相比银行的定期存款而言,以股票为主的理财产品因其相对较高的收益在近年来受到了来自各方投资者的广泛关注,并因此衍生出了各种不同的投资理财产品。然而,高收益的理财产品通常伴随着高风险。作为普通投资者,在日常的情况下不具有进行个人投资交易的能力与专业知识。因此,人们往往会选择购买基金产品作为日常理财的手段,以期借助专业人士的投资操作,获取更大的投资收益。面对品种繁多的基金产品与其庞杂的财务数据,如何选择合适的基金,成为了人们所关注的问题。
对于特定的基金产品而言,我们可以从其披露的财务报表中获取各类与之相关的财务指标。这些财务指标种类多样,信息重叠关系复杂,但却真实地刻画了该产品的财务情况与运营历程。其中又以年报数据最为丰富,能反映较为全面的财务问题 [1] 。因此,需要采用合理的方法,对这些财务指标数据进行筛选与处理,为普通投资者对该基金产品的投资价值提供更为清晰直观的解释。本文从统计学的角度出发,给出了基于因子分析方法评价基金财务状况的一般步骤,进而对我国2017年度股票型基金财务数据进行了实证分析。为广大投资者提供了一个评价基金财务状况的可行方法,用以在投资行为中选择理想的基金产品。
2. 因子分析基本理论
因子分析,作为多元统计分析方法的一种,最早由Charles Spearman在1904年提出,并在心理学、社会学等领域被广泛应用。不同于主成分分析直接降维的方法,它的目的在于研究原始变量内部的复杂关系,并将之简化 [2] 。通过对于研究对象中可观测变量间的依赖关系与基本结构进行抽象,利用少数不可观测的潜在变量来表示其数据内部的基本结构,以达到对数据进行降维的目的。这些少数潜在变量被称为因子,通常能极大程度地揭示大量观测变量所蕴含的统计信息。
常见的对变量
进行因子分析的模型为R型因子分析模型:
(1)
(2)
其中F称为公共因子,
称为特殊因子。
称为第i个变量在第j个因子上的载荷,亦表示m维空间中一点
在坐标轴
上的投影,故A称为因子载荷矩阵。因子载荷
表示了变量
对公共因子
的依赖程度与相对重要性,对因子含义的理解具有很重要的作用。通常情况下,因子载荷矩阵A还具有如下统计意义:
(3)
(4)
其中
为A中第i行元素平方和,称为变量
的共同度,表示了全部公共因子对变量
的总方差所作的贡献。
为A中第j列元素平方和,表示同一公共因子
对各变量所提供的方差的总和,是衡量每一个公共因子相对重要性的尺度。实际应用中,建立因子分析的具体模型,就是根据样本数据通过“主轴因子法”对因子载荷矩阵进行求解的过程。
为了寻求抽象因子与研究变量间的关系,往往需要使用因子旋转的方法,使每个变量仅在一个因子上具有较大的载荷,以突出其与因子之间的联系。常用的方法有最大方差旋转法,即对因子载荷矩阵A进行正交变换,使得公共因子向量的各个分量也成为互不相关的公共因子 [2] 。
在因子分析中,不考虑特殊因子
,当
,且因子载荷矩阵A可逆时,可以得到每个样本在因子F上的相应取值
。即该样本在因子F上的因子得分。然而因子分析模型实际应用中更多情况下要求
,故仅能通过对因子得分的估计进行计算。常用方法有回归得分,Bartlett得分,Anderson-Rubin得分等 [3] 。以Thompson回归得分为例:
(5)
其中
为估计的因子得分,R是X的相关系数矩阵。通过因子得分可以建立因子与样本间的关系,以构造对样本的评价度量。
3. 基于因子分析的基金投资评价的一般步骤
因子分析作为一种有效的数据降维方法在不同的应用背景中具有一定的限制性。为此我们给出利用因子分析处理基金投资评价问题的一般步骤:
首先,对基金项目的所有财务指标进行筛选,去除数据缺失等无效指标。为保证因子得分结果有一定的趋势性,需采用负向指标正向化转换模型对指标进行合理的正向化处理 [4] 。对剩余指标进行相关性检验,将与其他变量皆具有高度相关关系的变量进行筛选剔除。因为此类变量在计算因子载荷过程中容易出现特征值为负值的情形,在样本量有限的情况下,影响因子分析效果。
其次,对数据进行KMO检验和Bartlett球形检验,以判断该问题是否适合于因子分析方法。其中KMO检验统计量主要判定变量间相关系数平方和和偏相关系数的平方和间的差异。KMO值越接近于1,证明变量间相关性越强,越适合进行因子分析。若KMO值小于0.5,则不适合进行因子分析。Bartlett球形检验用于检验变量相关矩阵是否为单位阵,即变量间是否独立。当且仅当Bartlett检验统计量p值小于0.05时,方能证明变量适合做因子分析。在此基础上对样本进行因子分析,分析因子的方差贡献率信息以及旋转后的因子载荷分布,以确认变量与因子之间的关系。依照基金领域相关概念对所提取的公共因子赋予语义上的解释,以总结其作用与影响。
最后,通过估计的因子得分情况进行因子综合得分的计算,给出直观的量化指标来确定样本的综合排序。为此我们给出因子综合得分的一般定义:
设对p个变量
,有m个公共因子
。第j个因子对于方差的贡献率为
,由方差贡献率决定的因子间的权重为
,第i个变量关于第j个因子的得分是
。则有以下等式成立:
(6)
(7)
其中
,
即为第k个样本在m个公共因子上的综合得分。
根据上述等式,投资者可计算因子得分数据并依照对单一因子作用的偏好进行排序,亦可根据计算得到的综合得分数据对所有样本整体进行直观的量化排序。
4. 实证研究
利用上述评价方法对2017年度股票型基金财务数据进行基于因子分析的实证研究,数据来源于CCER (China Center for Economic Research)中国经济金融数据库。
首先从股票型基金数据库中随机抽取150条基金产品财务数据,删除无效及不相关指标,并对负向指标进行正向化。进行相关性检验,并删去具有广泛相关性的指标,最终筛选至20个财务指标,分别为:最新基金份额(X1),期末单位净值(X2),净值增长率(X3),加权平均单位基金净收益(X4),佣金(X5),股票交易额(X6),债券交易额(X7),股票投资市值(X8),债券投资市值(X9),银行存款(X10),实收基金(X11),基金资产估计(X12),未分配收益(X13),股票利息收入(X14),债券利息收入(X15),存款利息收入(X16),收入合计(X17),股票投资成本(X18),债券投资成本(X19),费用合计(X20)。基于148条有效样本数据进行因子分析,得到如下结果:

Table 1. KMO and Bartlett’s test
表1. KMO和巴特利特检验
表1为KMO检验统计量和Bartlett球型检验的结果。其中KMO检验统计量的值为0.797,大于0.7,表示该数据很大程度上适用于因子分析的方法。同时Bartlett球形检验统计量的显著性值为0.000,小于0.05,说明相关系数矩阵非单位阵,亦表明因子分析在该问题上是有效的。
进而根据表2得到各个因子对于总方差的解释程度。
其中因子分析一共提取到5个公共因子,其累计方差贡献率为87.638%,超过85%。亦即利用因子分析的方法将原问题中20个财务指标变量通过5个公共因子代替,对样本数据做到了较大程度的降维。进而可以通过表3中旋转后的因子载荷量,分析变量与公共因子间的关系。
可以看到,第一个因子在变量X1,X8,X11,X12,X14,X16,X17,X18,X20上有较大载荷,这些变量皆与股票型基金的基本业务有关,可将第一个因子命名为主营业务因子。第二个因子在变量X7,X9,X15,X19上有较大载荷,这些变量皆与债券投资业务有关,可将第二个因子命名为副营业务因子。第三个因子在X3,X4上有较大载荷,这两个指标体现了股票型基金产品的净收益率与净收益增长率,可将第三个因子命名为净收益能力因子。第四个因子在X2,X10,X13上有较大载荷,这三个指标反应了股票型基金产品的期末资金结余情况,可将第四个因子命名为期末盈余因子。第五个因子在X5,X6上有较大载荷,这个两个指标反应了股票型基金产品的主要收入来源,可将第五个因子命名为盈利能力因子。

Table 2. Total variance explained
表2. 特征根与方差贡献率表
上述五个因子体现了股票型基金产品的不同表现。可以为投资者的选择提供一定的参考。可根据表4中的因子得分情况结合因子的方差贡献率则可对样本数据进行综合得分的计算。

Table 4. Factor score coefficient matrix
表4. 因子得分系数矩阵
得到旋转后的因子得分表达式,以主营业务因子F1为例:
(8)
则可以通过因子得分表达式计算样本在单一因子上的表现效果。以因子得分结果作为替代指标近似值,以因子方差贡献率和累计方差贡献率的比值作为替代指标的权重,根据(6) (7)式可以计算得到每个样本的综合得分作为评价基金产品的依据。表5仅展示综合得分排名前10位以及后10位的基金样本情况:

Table 5. Total score of fund products
表5. 基金产品综合得分
由表5可以得到在5个因子上综合得分表现较好的十个基金产品与综合表现较弱的十个基金产品。结合因子分析提取出的五个公共因子,还可以从主营业务,副营业务,净收益能力,期末盈余和盈利能力多个角度进行基金产品的具体对比。从而对复杂的财务数据指标,进行了简化解释与量化表达。
5. 结论与展望
本文将因子分析在基金产品财务数据上应用,从统计学的角度,以实际数据为出发点,为分析复杂专业的财务指标数据提供了一种简化方法。从基于2017年度股票型基金实际数据的实证分析结果可以看到,经过筛选得出的财务指标数据,在因子分析过程中有着较为高质量的表现。在由20维数据降为5维数据的过程中,保留了87.638%的完整信息含义,达到了数据在降维过程中的精度要求。并且经过因子旋转的变量使其高载荷的因子具有一定的语义解释功能。进而通过因子得分数据,可以对基金产品样本进行基于单一因子或整体综合的排序,以引导出量化的基金评价依据。
然而,在研究的过程中仍存在一些数据上的限制与可以深究的问题。其中在变量筛选的过程中,并不能做到完全的由数据驱动的变量选择。需要借助一定的主观分析与专业知识指导,方能正确区分有效指标与无效指标。根据因子分析的结果,可以得出初始因子与旋转后的因子并没有语义上的关联。因其计量值不同,不能混淆使用。同时因子分析对于旋转后因子的命名与解释仍旧是一个没有精确定义的领域 [5] 。另外,基于因子分析的理论,存在根据小部分样本的因子得分,向未知样本得分实现推广的可能。然而由于没有参考数据,无法构造损失函数进行优化处理。因此,仍需要从理论层面上对因子分析的相关指标进行更深入的研究与探索。