1. 引言
随着社会经济结构的日益复杂和新兴业态、产业的层出不穷,产业链管理和混合经营逐渐成为各类经济实体的主要运营模式,给行业归类判断造成了不少困难 [1] 。新兴产业的不断涌现,推动了制定这些新兴产业领域行业分类统计标准的发展。黄雯怡等通过全球工业企业的发展现状,进而提出江苏省工业企业存在的问题及对策建议 [2] 。范震等通过三阶段DEA-Malmquist模型测算我国“十三五”期间地区工业企业的创新效率 [3] 。孙兰芸等对河北省全部和主要行业规上工业企业技术创新的现状进行分析,归纳出其呈现的特点并提出加快河北省工业企业技术创新发展的对策建议 [4] 。本文选取上海市规模以上的工业企业的相关数据。采取《上海市统计年鉴》里划分行业的准则,按照行业分类,将上海市的行业划分成33个。从事在各行业中人员,按照职业类型,依次被划分为中层及以上管理人员,专业技术人员,办事人员和有关人员,社会生产服务和生活服务人员和生产制造及有关人员。而在这所有行业中,热门行业中从业人数的密度,鲜有人探讨。本文基于聚类分析和主成分分析的方法,探讨各类型从业人员在33个行业里的分布情况,以及从事的目的和原因。
2. 数据来源和方法
2.1. 数据来源
本文使用的数据来源于《上海市统计年鉴》,数据是关于上海市规模以上的工业企业,按33个行业类别划分,分析2021年不同职业类型的从业人员期末人数的分布情况。其中职业类型分为中层及以上管理人员,专业技术人员,办事人员和有关人员,社会生产服务和生活服务人员和生产制造及有关人员。
2.2. 研究方法
2.2.1. 系统聚类和K均值聚类
系统聚类法又称分层聚类法,是聚类分析的一种方法。其做法是开始时把每个样品作为一类,然后把距离最小的样品首先聚为小类,再将已聚合的小类按其类间距离再合并,不断继续下去,最后把一切子类都聚合到一个大类 [5] 。K均值聚类法,是根据给定的参数k,先把n个对象粗略地分为k类,然后按照某种最优原则,通常表示为一个准则函数,修改不合理的分类,直到准则函数收敛为止,就得到了一个最终的分类 [6] 。实际运用中,系统聚类法每一步都要计算类间距离,计算类偏大。尤其当样本量很大时。所以一般学者采用较多的方法是K均值聚类法 [7] 。
2.2.2. 主成分分析
主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。由于多元统计分析处理的是多变量问题,变量较多,维数较大,増加了分析问题的复杂性 [8] 。但在实际问题中,变量之间可能存在一定的相关性,因此,所讨论的全部变量中可能存在信息的重叠.为去除这些信息重叠,人们自然希望用个数较少但是保留了原始变量大部分信息的几个不相关的主成分来代替原来较多的变量 [9] 。主成分分析的本质就是“有效降维”,既要减少变量个数,又不能损失太多信息。换句话说,就是“降噪”或者“沉余消除”,将高维数据有效地转化为低维数据来处理,揭示变量之间的内在联系,进而分析解决实际问题。
3. 上海市规模以上工业企业的从业人数探讨的聚类分析
3.1. 数据处理
本文将要对上海市规模以上的工业企业(包含33个行业)进行聚类分析。将上海市规模以上的工业企业,33个行业进行分类。为了方便进行聚类分析和主成分分析,将行业用变量X替代,整合到文本文件,之后导入R软件进行分析。具体替代见表1。
Table 1. Introduction to industrial enterprises above designated size in Shanghai (including 33 industries)
表1. 上海市规模以上的工业企业(包含33个行业)简介
3.2. 系统聚类
根据处理好的数据,在R软件中对上海市33个行业类别进行系统聚类分析。通过简单连接法、完全连接法和平均连接法生成系统树图,根据生成的三种系统树图选择最优的分类效果 [10] 。选用平均连接法进行系统聚类,如图1所示。通过平均连接法的系统聚类,将上海市33个行业类别分为4类:
第1类:铁路、设备修理、非金属矿物、仪器仪表、茶水、化学纤维、开采、烟草、木材、废弃资源、皮革、有色金属、其他、黑色金属、家具、印刷、纺织、造纸、农副、服装、文教。
第2类:橡胶、金属。
第3类:电力、食品、医药、机械、化学原料、专用设备。
第4类:通用设备、汽车、计算机。
Figure 1. Complete connection method system tree diagram
图1. 完全连接法系统树图
3.3. K均值聚类
根据处理好的数据,在R软件中对上海市33个行业类别进行K均值聚类分析。碎石图能够直观地判断聚类的合适数目 [11] 。在R软件中输出了相应的碎石图,如图2所示。从碎石图来看,K取3或者4时,能够较好地反应整体。
Figure 2. K-means clustering gravel map
图2. K均值聚类碎石图
当K均值聚类取4时,将33个行业分成四大类,如图3所示。K均值聚类中类间平方和在总平方和的占比为83.0%。33个行业分为四大类,第一类包含7个行业,第二类包含3个行业,第三类包含16个行业,第四类包含7个行业。
第一类:食品、化学原料、医药、橡胶、金属、专业设备、机械。
第二类:通用设备、汽车、计算机。
第三类:开采、农副、茶水、烟草、纺织、服装、皮革、木材、家具、造纸、印刷、文教、燃料、化学纤维、黑色金属、有色金属。
第四类:非金属矿物、铁路、仪器仪表、其他、废弃资源、设备维修、电力。
Figure 3. K-means clustering diagram divided into four categories
图3. 分为四大类的K均值聚类图
当K均值聚类取5时,将33个行业分成五大类,如图4所示。K均值聚类中类间平方和在总平方和的占比为86.4%。33个行业分为五大类,第一类包含14个行业,第二类包含5个行业,第三类包含3个行业,第四类包含8个行业,第五类包含3个行业。
第一类:开采、农副、茶水、烟草、纺织、服装、皮革、木材、家具、造纸、印刷、文教、燃料、化学纤维。
第二类:食品、医药、橡胶、金属、电力。
第三类:通用设备、汽车、计算机。
第四类:非金属矿物、黑色金属、有色金属、铁路、仪器仪表、其他、废弃资源、设备修理。
第五类:化学原料、专用设备、机械。
两种K均值聚类分析输出结果有所差异。在两种K均值聚类情形下,化学原料,专业设备和机械聚都为一类。通用设备,汽车和计算机都聚为一类。其他行业的聚类发生一定变化。其中,K取5的聚类是将K取4聚类的第五类划分成一类。
4. 上海市规模以上工业企业的从业人数探讨的主成分分析
4.1. 相关系数矩阵
在进行主成分分析时,首先求出变量间的相关系数矩阵。通过相关系数矩阵,观察变量间的相关性 [12] 。若变量间存在较强的相关性,则适合做主成分分析;反之,则不适合做主成分分析 [13] 。此次分析中包含6个变量,其中y1为从业人员期末人数,y2为中层及以上管理人员,y3为专业技术人员,y4为办事人员和有关人员,y5为社会生产服务和生活服务人员,y6为生产制造及有关人员。在相关系数矩阵中,如表2所示,y2、y3、y4之间相关性较强。即中层及以上管理人员,专业技术人员,办事人员和有关人员和社会生产服务和生活服务人员相关性较强。所以该数据适合做主成分分析。下一步做主成分分析,求样本相关矩阵的特征值和主成分载荷。
Figure 4. K-means clustering diagram divided into five categories
图4. 分为五大类的K均值聚类图
Table 2. The correlation coefficient matrix of occupational type variables
表2. 职业类型变量的相关系数矩阵
4.2. 主成分分析
主成分分析能够有效降维,在R软件中先得到变量的相关系数矩阵,基于相关系数矩阵对中层及以上管理人员,专业技术人员,办事人员和有关人员,社会生产服务和生活服务人员和生产制造及有关人员五个变量进行降维。输出结果如表3所示。
在职业类型变量的相主成分分析中,前二个主成分的累积的贡献率为95.73%,于是取前二个主成分,可以得出:
Table 3. Principal component analysis results of occupational type variables
表3. 职业类型变量的主成分分析结果
第一主成分对应的系数符号全为正数且y2*、y3*和y4*对应的载荷值较大,可视为反应中层及以上管理人员,专业技术人员,和办事人员和有关人员的主成分,第二主成分对应的系数中y5上的取值为负且载荷值特别大,可视为反应社会生产服务和生活服务人员。
再通过分析在R软件获得的基于协方差的主成分分析的碎石图,确定主成分。从碎石图,我们可以看出,前二个主成分的方差占了总方差变化的大部分,因此本文主成分的个数为2是适当的。如图5所示。
Figure 5. K-means clustering diagram divided into five categories
图5. 基于协方差的主成分分析碎石图
4.3. 主成分综合评价
通过聚类分析和主成分分析,以所得分类结果为基准,对上海市33个行业的从业人员期末人数进行主成分综合评价。为便于分析,将上海市33个行业划分为4个梯队。各主成分的因子得分均值和主成分综合得分均值,结果如表4所示。
Table 4. Factor scores and comprehensive scores of principal components
表4. 主成分的因子得分和综合得分
结果如表4可知,第一主成分中得分最高是5.20,包含的行业有通用设备、汽车、计算机和机械。第二主成分中得分最高的是0.43,包含的行业有专用设备、化学原料、金属、医药、橡胶、电力、仪器仪表、铁路和设备修理。第一梯队的第一主成分的因子得分均值为5.205,第二主成分为0.081,主成分综合得分为3.801。遥遥领先于其他梯队。可知在规模以上工业企业中,通用设备、汽车、计算机和机械热度不减,从业人员密度较高。互联网浪潮下,电子设备几乎是生活中的必备物品,如手机、电脑。近几年来,大数据技术,人工智能不断融入到现代生活中 [14] 。电子设备行业同时发展迅速 [15] 。行业的发展离不开人才的引入 [16] 。这使得从事电子设备的人员相较于其他行业是很高的 [17] 。汽车行业也是如此。近年来,新能源汽车进入人们视野,这种环境友好型,价格亲民的汽车备受人们亲睐。随着“双碳”政策的实行,未来新能源汽车行业将会吸引更多人才加入 [18] 。
5. 结论
本文基于《上海统计年鉴》的数据,探讨了上海市规模以上的工业企业,按33个行业类别划分,不同类型职业从业人数的分布情况。通过系统聚类模型选用平均连接法,将33个行业分成4类。通过K均值聚类模型,将33个行业划分成4和5类进行讨论。结果表明,通用设备、汽车、计算机行业的从业人员密度较大。行业的选择和时代大背景密切相关。之后进行主成分分析,在第一梯队的行业是计算机、电气机械和器材制造业,汽车制造业和通用设备制造业。近年来,互联网发展迅猛,电子行业同时发展起来,如“互联网大厂”等公司是很多从业人员的选择,计算机行业仍是热门就业选择。随着“双碳”政策的实行,汽车行业的新能源汽车备受人们亲睐 [19] 。汽车行业在未来可能会吸引更多人员加入。使得规模以上工业企业的发展效率大大增高。