聚类分析和因子分析在绩效考评中的应用
The Applications of Cluster Analysis and Factor Analysis in Performance Evaluations
DOI: 10.12677/SA.2022.111016, PDF, HTML, XML, 下载: 109  浏览: 204  国家自然科学基金支持
作者: 刘秋彤:重庆大学数学与统计学院统计与精算学系,重庆;张应应*:重庆大学数学与统计学院统计与精算学系,重庆;重庆大学分析数学与应用重庆市重点实验室,重庆
关键词: R软件绩效考评聚类分析因子分析综合得分R Software Performance Evaluations Cluster Analysis Factor Analysis Composite Score
摘要: 采用R软件编程,运用聚类分析和因子分析的方法来进行绩效考评。首先采用系统聚类分析法得到四种不同距离的谱系图及绩效考评分类表。其次采用因子分析选取教学因子和科研因子,利用回归法计算教师们的前两个因子得分,以及他们的两类综合得分。由第一类算法计算的综合得分平等地对待两个因子,由第二类算法计算的综合得分以因子的方差贡献率为权重进行加权。最后对教师绩效进行综合分析,得出对教师的绩效进行分类时,当无具体名额限制时,采用系统聚类分析法,当有具体名额限制时,采用因子分析法。按与系统聚类法得到的分类的相合性,得出因子分析的第二类算法优于第一类算法,并采用第二类算法的计算结果来对有名额限制时的教师进行分类。
Abstract: Programmed in the R software, we use the methods of cluster analysis and factor analysis for performance evaluations. First, we adopt the hierarchical clustering method to get the four different distance hierarchical graphs and the classification table of the performance evaluations. Second, we use factor analysis to choose the teaching factor and the researching factor, use the regression method to calculate the first two factor scores of the teachers, and their two kinds of composite scores. The composite score computed by the first kind of algorithm treats the two factors equally, and the composite score computed by the second kind of algorithm weights the two factors by their variance contribution rates. Finally, we do a comprehensive analysis of teachers’ performance evaluations and obtain that using the hierarchical clustering method when there are no specific quantitative restrictions, and using factor analysis method when there are specific quota restrictions. According to the consistency with the classification by the hierarchical clustering method, we obtain that the factor analysis of the second kind algorithm is better than that of the first kind of algorithm, and use the calculation result of the second algorithm to classify teachers with quota limitation.
文章引用:刘秋彤, 张应应. 聚类分析和因子分析在绩效考评中的应用[J]. 统计学与应用, 2022, 11(1): 135-149. https://doi.org/10.12677/SA.2022.111016

1. 引言

绩效考评是绩效考核和评价的总称。绩效考评已经被广泛应用于各个组织机构,包括企业、政府机关、学校等,这些组织都会定期或者不定期的对组织成员的工作绩效进行考核,对成员起到一个督促的作用,同时也使组织能够更好地长远发展。在得到绩效考核结果后,对其正确准确的分析也是至关重要的。因此,笔者将在多元统计分析的理论基础上,运用R软件对绩效考核结果进行聚类分析和因子分析,以某校教师的考核绩效得分为例,对其进行不同方法的聚类分析,并对结果进行比较,进而运用因子分析方法对其具体的原因进行分析,从而得出相应的比较合理的等级分类,并给出合理的建议,以促进其更好的管理。

绩效考评的应用范围是极其广泛的,如在企业中,企业会对一定经营期间的经营效益、经营者业绩及其员工,通过相应的绩效考评做出客观、公正和准确的综合评判,加强企业的监管力度;在政府机关中,政府部门为实现其职能所确定的绩效目标的实现程度,以及为实现这一目标所安排预算的执行结果进行的综合性评价;在各高校中,学校会定期对教师的教学和科研等进行绩效考核,以对教师进行综合的评价。

本文剩余部分安排如下。第2节回顾多元统计分析 [1] [2] [3] [4] 中的聚类分析和因子分析的主要内容。在表1中给出了因子分析综合得分的表达式及特点。第3节给出了一个实例应用,针对某校对教师绩效测评的数据,利用聚类分析和因子分析对教师进行绩效考评。第4节总结。

2. 聚类分析和因子分析

2.1. 聚类分析

聚类分析(Cluster Analysis) [5] [6] [7] 是一类将数据所对应的研究对象进行分类的统计方法。这类方法的共同特点是:事先不知道类别的个数与结构;据以进行分析的数据是对象之间的相似性或相异性的数据。将这些相似或相异性数据看成是对象之间的“距离”远近的一种度量,将距离近的对象归入一类,不同类之间的对象距离较远。这就是聚类分析方法的基本思想。根据分类对象不同可以分为Q型(对样本聚类)聚类分析和R型(对变量聚类)聚类分析。笔者研究对样本进行聚类,即Q型聚类分析。

聚类的方法通常有系统聚类和动态聚类。笔者只使用系统聚类。

系统聚类的步骤一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的样本首先聚合为一类,而把另一些相似程度较小的样本聚合为另一类,直到所有的样本都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。在此其相似程度由距离定义。进行类别合并的准则是使得类间差异最大,而类内差异最小。根据距离不同,将主要采用四种方法:类平均法、Mcquitty相似法、最长距离法、离差平方和法。

2.2. 因子分析

因子分析(Factor Analysis) [8] [9] [10] [11] 是主成分分析的推广和发展,是多元统计分析中降维的一种方法,是一种用来分析隐藏在表面现象背后的因子作用的一类统计模型。因子分析是研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。

因子分析的主要应用有两个方面,一是寻求基本结构,简化观测系统,将具有错综复杂关系的对象(变量或样本)综合为少数几个因子(不可观测的随机变量),以再现因子与原始变量之间的内在联系;二是用于分类,对于p个变量或n个样本进行分类。

因子分析根据研究对象的不同可以分为R型和Q型因子分析。笔者采用R型因子分析。R型因子分析研究变量(指标)之间的相关关系,通过对变量的相关阵或协方差阵内部结构的研究,找出控制所有变量的几个公共因子(或称主因子、潜在因子),用以对变量或样本进行分类。

因子分析的数学模型的矩阵表达式为 [2]:

X = μ + A F + ε ,

其中 X = ( X 1 , X 2 , , X p ) T 为原始变量向量, μ = ( μ 1 , μ 2 , , μ p ) T 为原始变量向量的均值向量, A = ( a i j ) p × m 为因子载荷矩阵, F = ( F 1 , F 2 , , F m ) T 为公共因子向量, ε = ( ε 1 , ε 2 , , ε p ) T 为特殊因子向量。通常假定:

( E ( F ) , E ( ε ) , V a r ( F ) , V a r ( ε ) , C o v ( F , ε ) ) = ( 0 , 0 , I m , D , 0 ) ,

其中 I m 为m阶单位矩阵, D = d i a g ( σ 1 2 , σ 2 2 , , σ p 2 ) 为对角矩阵。令 g j 2 = i = 1 p a i j 2 (有些文献中用 v j 表示 g j 2

如 [12] [13] [14] ),则有

i = 1 p σ i i = i = 1 p V a r ( X i ) = j = 1 m g j 2 + i = 1 p σ i 2 .

g j 2 反映了公共因子 F j X 1 , X 2 , , X p 的影响,可视为公共因子 F j X 1 , X 2 , , X p 的总方差贡献。

通常 X 1 , X 2 , , X p 已经标准化了,此时 V a r ( X i ) = 1 , i = 1 p V a r ( X i ) = p

α j = g j 2 i = 1 p V a r ( X i ) = g j 2 p

是公共因子 F j X 1 , X 2 , , X p 的总方差贡献率。

为计算教师的综合排名,需要计算教师因子得分的综合得分。笔者考虑两类综合得分。见表1,其中上标c表示composite (综合)。因为相差一个常数倍不影响综合排名,所以第一类综合得分实际上等价于 F 11 c = j = 1 m F j ,即平等对待每个因子 [15]。类似地,第二类综合得分实际上等价于 F 23 c = j = 1 m g j 2 F j 。但在因子分析综合得分的理论研究和实际应用中经常使用 F 21 c = j = 1 m ( g j 2 / p ) F j ,即权重 g j 2 / p 为公共因子 F j X 1 , X 2 , , X p 的总方差贡献率 [12] - [17]。

Table 1. Expression and characteristics of comprehensive score of factor analysis

表1. 因子分析综合得分的表达式及特点

3. 实例应用——绩效考评

3.1. 数据收集

笔者通过查询资料获取某校对教师绩效测评的数据结果 [18],以此来进行聚类分析,数据是对教师教学质量分为12项指标: X 1 代表二级教研管理, X 2 代表教学资源的建设与应用, X 3 代表网络教学与管理, X 4 代表备课充分, X 5 代表重点突出, X 6 代表联系实际, X 7 代表激励能力, X 8 代表信息量, X 9 代表能力培养, X 10 代表课堂管理, X 11 代表作业批改, X 12 代表答疑态度。前三项指标涉及教学管理,根据教师实际完成情况进行评分;后九项为课堂教学相关,分别为以班为单位,每个学生对每个任课教师的这九项指标进行不计名打分,每项指标满分为10分,以各项指标的综合平均分进行统计。表2给出了25位教师的指标分数表,现要求将这25位教师分为优、良、中、称职、不称职五类。

Table 2. Performance evaluation score table of 25 teachers in a school

表2. 某校25名教师绩效考评得分表

3.2. 分析过程

3.2.1. 星图分析

根据星图可以直观的看出各个教师在不同指标上的绝对得分的分布情况。R程序运行结果如图1所示,由图可以明显看出第6名教师在每个指标上的得分都较高,综合水平较高;第18和20名教师在每个指标上的得分都较低,总体水平应属于不称职;第12、25、19、21、22、23名教师,总体水平应属于中下游。但是仅通过星图,我们难以看出数据的内在比较关系,因此需要进一步分析。

Figure 1. Star chart of performance scores of teachers

图1. 各教师绩效得分星图

3.2.2. 聚类分析

采用类平均法、Mcquitty相似法、最长距离法和离差平方和法进行聚类,运行结果如图2所示。

综合星图和四种不同距离的谱系图所得结果汇总如表3所示。

Figure 2. Dendrograms of four different distances

图2. 四种不同距离的谱系图

Table 3. Classification table of performance evaluation

表3. 绩效考评分类表

综合图1及星图分析,我们知道包含第6名教师的分类应为第1类,包含第18和20名教师的分类应为第5类,中间的第2,3,4类也可以通过聚类分析的分类结果和观察图1得到,第2类的星图比第3类的星图大,第3类的比第4类的大。由此我们得到了教师绩效得分的分类及相应的排名等级。但是为了分析产生这种结果的具体原因是什么,还需要运用因子分析进行更深一步的分析。

3.2.3. 因子分析

由极大似然法因子分析计算的旋转后的因子载荷阵见表4

Table 4. Factor loading estimation after rotation

表4. 旋转后的因子载荷估计

选取两个公共因子的累积贡献率已经达到79.5%,在得到的结果中,公共因子还有比较鲜明的实际意义。第一公共因子系数绝对值较大的变量主要是: X 1 * (二级教研管理), X 3 * (网络教学与管理), X 4 * (备课充分), X 5 * (重点突出), X 6 * (联系实际), X 7 * (激励能力), X 9 * (能力培养), X 11 * (作业批改), X 12 * (答疑态度)。因此,称第一公共因子为教学因子,第一公共因子的值越大,则说明该教师的教学能力越强。第二公共因子系数绝对值大的变量主要是: X 1 * (二级教研管理), X 2 * (教学资源的建设与应用), X 3 * (网络教学与管理), X 8 * (信息量), X 10 * (课堂管理), X 11 * (作业批改), X 12 * (答疑态度)。而其中,因子系数绝对值相对较大一些的为 X 2 * (教学资源的建设与应用)、 X 8 * (信息量)和 X 10 * (课堂管理)。因此,称第二公共因子为科研因子,第二公共因子的值越大,该教师的科研能力越强。

利用回归法计算教师们的前两个因子得分,以及他们的综合得分。然后比较两类综合得分算法的结果,择优选择。这两类综合得分的表达式请见表1。根据这两类算法,得出的各名教师综合得分及其综合排名情况分别见表5表6

Table 5. The comprehensive score of teachers calculated by the first type of comprehensive score algorithm and the comprehensive ranking by F c

表5. 由第一类综合得分算法计算的教师综合得分及按 F c 的综合排名

Table 6. The comprehensive score of teachers calculated by the second type of comprehensive score algorithm and the comprehensive ranking by F c

表6. 由第二类综合得分算法计算的教师综合得分及按 F c 的综合排名

因此,通过因子分析,不仅可以将教师得分进行聚类比较,还可以更清晰明了地分析出每名教师的优势和有待提高的地方,有助于有针对性地提高教师能力和改善教学质量。

3.2.4. 综合分析

将以上对教师绩效得分的聚类分析和因子分析以及绩效得分原始数据结合起来对教师绩效进行综合分析。根据实际情况,分为无具体名额限制和有具体名额限制两种情况,将聚类结果在因子得分散点图上呈现出来,进行多方法比较分析,最终得到其中最好的方案。

1) 无具体名额限制时,采用聚类分析法

表3中得出的四种聚类方法对应的5个分类结果在因子得分散点图上呈现出来,如图3所示。前面分析得到 F 1 (第一公共因子)的值越大,该教师的教学能力越强, F 2 (第二公共因子)的值越大,该教师的科研能力越强。图3中右上角的点对应的教师 F 1 F 2 的值都较大,则 F 1 j c ( j = 1 , 2 , 3 ) F 2 j c ( j = 1 , 2 , 3 , 4 ) 的值都较大,说明该教师的教研综合能力强,相反左下角的点对应的教师 F 1 F 2 的值都较小,则 F 1 j c ( j = 1 , 2 , 3 ) F 2 j c ( j = 1 , 2 , 3 , 4 ) 的值都较小,说明该教师的教研综合能力弱。为方便起见,以后用 F 1 c 表示 F 1 j c ( j = 1 , 2 , 3 ) ,用 F 2 c 表示 F 2 j c ( j = 1 , 2 , 3 , 4 ) 。教师们的教研综合能力从大到小排序大致上对应于图3中的点具有从右上角到左下角的趁势。图3进一步验证了表3的分类及排名是正确的。

类平均法 Mcquitty相似法最长距离法 离差平方和法

Figure 3. Presentation of cluster analysis results on factor score scatter diagram

图3. 聚类分析结果在因子得分散点图上的呈现

图3可以看出,类平均法和Mcquitty相似法有相同的聚类结果,3个图上的5个分类基本上是按照从右上角到左下角依次排列下来。类平均法、Mcquitty相似法的第1,4类只包含一个点,第2类特别庞大。最长距离法的第1类只包含一个点,第2类特别庞大。离差平方和法的每个类大小合适,是四种方法中最好的分类。从而当无具体名额限制时,由离差平方和法可得教师绩效得分的分类。编号为6、4、7、5、9、2、3、1、8的教师绩效为优,编号为14、15、11、10、13的教师绩效为良,编号为24、16、17的教师绩效为中,编号为19、21、22、23的教师为称职,编号为18、20、12、25的教师为不称职。

2) 有具体名额限制时,采用因子分析法

由系统聚类分析法得到的分类的每个类的个数大小一般与具体的名额限制数不相等,此时不宜继续使用系统聚类分析法,可以采用因子分析法。

根据因子得分的两种算法结果,将其排名画成折线图以观察其趋势,具体如图4所示。左图(右图)为按 F 1 c ( F 2 c )从大到小排序的排名折线图。图中的1表示排名第1,25表示排名第25 (最后),注意与图3中的教师编号相区别。图4的排名折线图都具有从右上角到左下角的趁势,说明两种算法都是合理的。

第一类算法 第二类算法

Figure 4. Two kinds of algorithm ranking line graph of factor scores

图4. 因子得分两类算法排名折线图

那么第一类算法和第二类算法到底哪一种较好呢?我们结合系统聚类法得到的分类结果来分析。图5是教师编号折线图。第1(2)列的三个图按 F 1 c ( F 2 c )从大到小排名,第1 (2, 3)行的两个图聚类采用类平均法、Mcquitty相似法(最长距离法,离差平方和法)。我们考虑连接类与类之间的折线数。显然如果按因子得分法计算的综合排名与按系统聚类法得到的分类相合的话,连接类与类之间的折线数应较少,甚至为1,连接类与类之间的折线可以通过查看表3表5表6图5图5中第1行的两个图的5个类之间折线数均为1(例如,第1行左图中连接第1类和第2类之间的折线为连接编号为6和2的折线,记为6-2,连接第2类和第3类之间的折线为14-19,连接第3类和第4类之间的折线为23-12,连接第4类和第5类之间的折线为12-20),说明因子得分的两种算法与按类平均法、Mcquitty相似法得到的分类相合。第2行左图的5个类之间折线数为1 (6-2),7 (4-1, 1-24, 9-10, 10-16, 16-11, 13-17, 17-15),1 (14-19),3 (21-25, 25-22, 23-12);第2行右图的5个类之间折线数为1 (6-2),6 (4-1, 1-9, 9-8, 10-24, 24-13, 14-16),1 (17-19),3 (19-25, 25-21, 23-12)。第2行右图连接第2类和第3类之间的折线数为6,比第2行左图对应的折线数7少1,说明因子得分的第二类算法比第一类算法与按最长距离法得到的分类更相合。第3行左图的(1, 2)类之间折线数为3 (9-10, 11-8, 8-13),(1, 3)类之间折线数为2 (1-24, 24-9),(2, 3)类之间折线数为4 (10-16, 16-11, 13-17, 17-15),(2, 4)类之间折线数为1 (14-19),(4, 5)类之间折线数为3 (21-25, 25-22, 23-12);第3行右图的(1, 2)类之间折线数为1 (8-11),(2, 3)类之间折线数为3 (10-24, 24-13, 14-16),(3, 4)类之间折线数为1 (17-19),(4, 5)类之间折线数为3 (19-25, 25-21, 23-12)。第3行左图连接类与类之间的折线总数为13

Figure 5. Teacher number line chart. The three plots in column 1 (2) are ranked from large to small by F 1 c ( F 2 c ). The two plots in line 1 (2, 3) are clustered by class average method, Mcquitty similarity method (longest distance method, sum of squares of deviation method)

图5. 教师编号折线图. 第1 (2)列的三个图按 F 1 c ( F 2 c )从大到小排名. 第1 (2, 3)行的两个图聚类采用类平均法、Mcquitty相似法(最长距离法,离差平方和法)

条,第3行右图连接类与类之间的折线总数为8条,说明因子得分的第二类算法比第一类算法与按离差平方和法得到的分类更相合!综上,因子得分的第二类算法比第一类算法与按系统聚类法得到的分类更相合!

根据第二类算法的计算结果来对有名额限制时的教师进行分类。案例中教师总数为25名,假定优、良、中、称职、不称职五类的名额分别为:2、7、7、7、2。则当有具体名额限制时,根据第二类算法的结果得到(参见表6):编号为6、2的教师绩效为优,编号为3、5、7、4、1、9、8的教师绩效为良,编号为11、10、24、13、15、14、16的教师绩效为中,编号为17、19、25、21、22、23、12的教师为称职,编号为20、18的教师为不称职。

4. 总结

笔者采用R软件编程,运用聚类分析和因子分析的方法来进行绩效考评。根据星图可以直观地看出各个教师在不同指标上的绝对得分的分布情况。首先采用类平均法、Mcquitty相似法、最长距离法和离差平方和法进行聚类,得到四种不同距离的谱系图及绩效考评分类表。其次采用因子分析选取两个公共因子教学因子和科研因子,其累积贡献率已经达到79.5%,利用回归法计算教师们的前两个因子得分,以及他们的两类综合得分。由第一类算法计算的综合得分平等地对待两个因子,由第二类算法计算的综合得分以因子的方差贡献率为权重进行加权,按两类综合得分分别对教师进行排名。最后将以上对教师绩效得分的聚类分析和因子分析以及绩效得分原始数据结合起来对教师绩效进行综合分析,得出对教师的绩效进行分类时,当无具体名额限制时,采用系统聚类分析法,当有具体名额限制时,采用因子分析法。按与系统聚类法得到的分类的相合性,得出因子得分的第二类算法优于第一类算法,并采用第二类算法的计算结果来对有名额限制时的教师进行分类。

这些方法不仅仅可以应用在教师绩效考评中,还可以运用在企业、政府机关单位等,而且一个公平、公正、综合、合理的绩效考评体系可以使分析的结果更具有代表性和说服性,有利于促进组织提高管理能力,有利于更快更好地实现组织的目标和价值。

基金项目

本研究受教育部人文社会科学研究西部和边疆地区项目(20XJC910001),国家社科基金西部项目(21XTJ001)和国家自然科学基金面上项目(72071019)支持。

NOTES

*第一作者。

#通讯作者。

参考文献

[1] Johnson, R.A., Wichern, D.W. 实用多元统计分析[M]. 陆璇, 译. 第4版. 北京: 清华大学出版社, 2001.
[2] 薛毅, 陈丽萍. 统计建模与R软件[M]. 北京: 清华大学出版社, 2007.
[3] 王学民. 多元应用分析[M]. 上海: 上海财经大学出版社, 2009.
[4] 杨虎. 多元数据统计分析[M]. 北京: 高等教育出版社, 2013.
[5] 王萍萍. 中国农村贫困的地区聚类分析——兼论分地区反贫政策选择[J]. 调研世界, 1999(12): 5-8.
[6] 吕岩威, 李平. 一种加权主成分距离的聚类分析方法[J]. 统计研究, 2016, 33(11): 102-108.
[7] 沈小云, 衣俊艳. 面向聚类分析的自适应弹性网络算法研究[J]. 计算机工程与应用, 2017, 53(9): 175-183.
[8] 李璞, 屈鑫乙, 王迪. 高校教师工作生活质量测量研究[J]. 高教发展与评估, 2018, 34(3): 48-56+66+115.
[9] 李欢,熊梦莹, 聂斌, 杜建强, 周丽, 黄强. 融合因子分析的随机森林研究[J]. 计算机工程与应用, 2019, 55(23): 125-130.
[10] 钱耀军. 海南与其他经济特区间经济社会发展水平差异测度研究——基于动态因子分析[J]. 调研世界, 2019(4): 61-65.
[11] 王诺斯, 彭绪梅, 徐晗. 高校兼职教师教学能力提升路径研究[J]. 高教发展与评估, 2019, 35(4): 53-65+80+112.
[12] 林海明, 林敏子. 主成分分析法与因子分析法应用辨析——兼与《我国上市公司赢利能力与资本结构的实证分析》一文作者商榷[J]. 数量经济技术经济研究, 2004(9): 155-160.
[13] 林海明, 张文霖. 主成分分析与因子分析的异同和SPSS软件——兼与刘玉玫、卢纹岱等同志商榷[J]. 统计研究, 2005(3): 65-69.
[14] 林海明. 因子分析应用中一些常见问题的解析[J]. 统计与决策, 2012(15): 65-69.
[15] 王学民. 对主成分分析中综合得分方法的质疑[J]. 统计与决策, 2007(8): 31-32.
[16] 苏为华. 多指标综合评价理论与方法问题研究[D]: [博士学位论文]. 厦门: 厦门大学, 2000.
[17] 冯根福, 吴林江. 我国上市公司并购绩效的实证研究[J]. 经济研究, 2001(1): 54-61+68.
[18] 熊艺, 马朝东. 基于R软件的聚类分析方法在教师绩效考核中的应用[J]. 科技资讯, 2007(19): 191-192.