基于聚类和主成分分析的港口竞争力评价研究
Port Competitiveness Evaluation Based on Cluster and Principal Component Analysis
DOI: 10.12677/ORF.2024.141088, PDF, HTML, XML, 下载: 50  浏览: 89 
作者: 陈涵怡, 金婷婷, 尚雨浩:南京信息工程大学数学与统计学院,江苏 南京;陈涵滢:桂林理工大学信息科学与工程学院,广西 桂林
关键词: 主成分分析层次聚类港口综合竞争力K均值聚类Principal Component Analysis Hierarchical Clustering Comprehensive Competitiveness of Port K-Means Clustering
摘要: 随着全球化进程的加快,各国之间的贸易联系愈加紧密,港口已不再仅仅是联结水路运输、铁路运输与公路运输的枢纽,更是资金、技术、信息的中转站,是城市面向世界的重要窗口。本文采用主成分分析和聚类分析相结合的方法对我国年吞吐量在1000万吨以上的13个沿海港口的港口综合竞争力进行了分析和评价。我们首先构建了港口综合竞争力评价指标体系,包含4个一级指标和13个二级指标。然后我们通过主成分分析法从13个影响指标中提炼出三个主成分作为影响港口竞争力的新指标,并得出各港口三个主成分的得分。在这基础上,我们对各港口三个主成分得分求加权平均数,最终得出各港口综合竞争力的得分和排名。我们把根据主成分分析方法得出的港口综合竞争力排名与真实排名作对比,发现两者虽有出入但相差不大。根据各港口三个主成分的得分,我们进行层次聚类和K均值聚类,通过聚类个数与类内平方和、类间平方和的关系曲线图,选定适合的聚类数目。层次聚类和K均值聚类的结果在聚成两类时相差较大,但在聚成三类时则比较相似。
Abstract: With the acceleration of the process of globalization, the trade links between countries have become more and more close. Ports are no longer just the hub connecting water transport, railway transport and road transport, but also a transit station for capital, technology and information, which is an important window into the world. In this paper, principal component analysis and cluster analysis are used to analyze and evaluate 13 coastal ports with an annual throughput of more than 10 million tons. First, we study the factors that influence the port competitiveness, which can be divided into four aspects: The scale of port development, the conditions of port in-frastructure, the economic conditions in the hinterland of port and the development potential of port, from which we select 13 impact indicators, the evaluation index system of comprehensive competitiveness of ports is constructed. Then we use principal component analysis to extract three principal components from 13 impact indicators as a new indicator of port competitiveness, and get the scores of each port’s three principal components. On this basis, we weighted the sum of the three principal component scores of each port to get the overall competitiveness of each port score and ranking. Compare the ranking of port comprehensive competitiveness based on principal component analysis with the real ranking, and find that there are differences but not much difference between them. According to the scores of the three principal components of each port, we conduct hierarchical clustering and k-means clustering, and select the appropriate number of clusters by the graph of the number of clusters and the relationship be-tween the number of clusters and the sum of squares within and among clusters. The results of hierarchical clustering and K-means clustering are quite different when they are grouped into two groups, but similar when they are grouped into three groups.
文章引用:陈涵怡, 金婷婷, 尚雨浩, 陈涵滢. 基于聚类和主成分分析的港口竞争力评价研究[J]. 运筹与模糊学, 2024, 14(1): 947-959. https://doi.org/10.12677/ORF.2024.141088

1. 引言

港口是位于江、海、河、湖沿岸,供来往船只停靠、装卸货物和上下旅客的地方,是水陆交通的结点,也是国际间贸易往来的门户。随着港口服务功能的逐渐完善,港口产业链的不断延伸,港口对区域经济的带动作用使得其重要性得到凸显,港口已不再仅仅是联结水路运输、铁路运输与公路运输的枢纽,更是资金、技术、信息的中转站,在国家发展全局中处于战略核心地位。

在港口逐渐成为国家战略性资源,国际与国内港口之间的竞争愈演愈烈的今天,通过研究港口竞争力,并对港口的港口竞争力做出评价,有助于港口找到自身发展中存在的缺陷与不足,突破发展瓶颈,从而在竞争中占据更多优势 [1] 。

2. 理论介绍

2.1. 主成分分析法

假设研究的数据集有P个指标,记为P维随机变量 X = ( x 1 , x 2 , , x p ) T ,该变量的协方差矩阵记为 Σ 。主成分分析就是通过线性变换,将原始的P维随机变量X转变为新的P维随机变量Y,

Y = ( y 1 y 2 y p ) = ( γ 11 γ 12 γ 1 p γ 21 γ 22 γ 2 p γ p 1 γ p 2 γ p p ) ( x 1 x 2 x p ) (1)

Y = Γ X , Γ = ( γ 1 T γ 2 T γ p T ) (2)

其中 Γ 为正交矩阵。

主成分分析的中心思想是让数据集的维度减少,但其中的信息要尽可能多地保留。信息可以通过方差来衡量,方差越大,信息就越多。

Var ( y 1 ) = cov ( y 1 , y 1 ) = [ cov ( Y ) ] 11 = [ cov ( Γ X ) ] 11 = [ Γ Σ Γ T ] 11 = γ 1 T Σ γ 1 (3)

第一主成分为 y 1 ,使其方差最大化就是求解下面这个优化问题:

max γ 1 γ 1 T Σ γ 1 , s .t . γ 1 T γ 1 = 1 (4)

L ( γ 1 , λ ) = γ 1 T Σ γ 1 + λ ( 1 γ 1 T γ 1 ) ,两边同时对 γ 1 求偏导:

L ( γ 1 , λ ) γ 1 = 2 Σ γ 1 2 λ γ 1 = 0 (5)

即:

Σ γ 1 = λ γ 1 (6)

由此可知 λ Σ 的一个特征值, γ 1 为这个特征值对应的特征向量。

上式两边左乘 γ 1 T ,得:

γ T Σ γ 1 = λ γ T γ 1 = λ (7)

因此,

max γ T Σ γ 1 = max λ (8)

所以 λ Σ 的最大特征值, γ 1 为对应的特征向量。

使第二主成分 y 2 的方差最大化:

max γ 2 γ 2 T Σ γ 2 , s .t . γ 2 T γ 2 = 1 , γ 2 T γ 1 = 0 , γ 1 T γ 1 = 1 (9)

L ( γ 2 , λ 1 , λ 2 , λ 3 ) = γ 2 T Σ γ 2 + λ 1 ( 1 γ 2 T γ 2 ) + λ 2 γ 2 T γ 1 + λ 3 ( 1 γ 1 T γ 1 ) ,两边同时对 γ 2 求偏导,得:

L ( γ 2 , λ 1 , λ 2 , λ 3 ) γ 2 = 2 Σ γ 2 2 λ 1 γ 2 + λ 2 γ 1 = 0 (10)

(10)式两边左乘 γ 2 T ,化简得:

γ 2 T Σ γ 2 = λ 1 max γ 2 T Σ γ 2 = max λ 1 (11)

(10)式两边左乘 γ 1 T ,得:

2 γ 1 T Σ γ 2 + λ 2 = 0 (12)

γ 1 T Σ = ( Σ γ 1 ) T = ( λ γ 1 ) T ,因此上式又可以写成:

2 λ γ 1 T γ 2 + λ 2 = 0 (13)

得出 λ 2 = 0 。把 λ 2 = 0 代回上式,得:

Σ γ 2 = λ 1 γ 2 (14)

由以上可知 λ 1 Σ 的第二大特征值, γ 2 为对应的特征向量。

以此类推,可得第三个,第四个乃至第P个主成分,这些主成分之间线性无关,因为

cov ( y i , y j ) = γ i T Σ γ j = μ γ i T γ j = 0 (15)

在这P个主成分中选取前r个主成分代替原来P个指标,就实现了主成分方法的降维,其中 Σ 的特征值反映了X的信息量。

2.2. 聚类分析法

聚类一般可以分为对样本的聚类和对变量的聚类。在聚类之前,首先需要度量样本之间的距离和类间距离,常用的度量样本之间距离的方法有三种,假设有n个样本和p个变量:

欧式距离:

d i j = k = 1 p ( x i k x j k ) 2 (16)

绝对距离:

d i j = k = 1 p | x i k x j k | (17)

马氏距离:

d i j = ( x i x j ) T S 1 ( x i x j ) (18)

其中,S是由 x 1 , x 2 , , x n 得到的协方差矩阵 S = 1 n 1 i = 1 n ( x i x ¯ ) ( x i x ¯ ) T , x ¯ = 1 n i = 1 n x i

常用的度量类间距离的方法有四种:

最短距离法:

D ( G 1 , G 2 ) = min x i G 1 y j G 2 { d ( x i y j ) } (19)

它的直观意义为两个类中最近两点距离。

最长距离法:

D ( G 1 , G 2 ) = max x i G 1 y j G 2 { d ( x i y j ) } (20)

它的直观意义为两个类中最远两点间的距离。

重心法:

D ( G 1 , G 2 ) = d ( x ¯ , y ¯ ) (21)

式中: x ¯ , y ¯ 分别为 G 1 , G 2 的重心。

类平均法:

D ( G 1 , G 2 ) = 1 n 1 n 2 x i G 1 x j G 2 d ( x i , x j ) (22)

它等于 G 1 , G 2 中两样本点距离的平均, n 1 , n 2 分别为 G 1 , G 2 中的样本点个数。

主要的聚类方法有两种,分别是K-means和层次聚类。

K-means:假设要将n个样本分成k类,先在这n个样本中随机选取k个样本作为起始的聚类中心 [2] ,计算其余样本与这k个聚类中心的欧氏距离,将样本归于距离最小的那一类,然后重新计算聚类中心以及样本点与新的聚类中心的距离并再次进行归类……当聚类中心的位置不再变化时,迭代停止,此时的聚类结果就是最终的结果。

层次聚类:开始时每个样本自成一类,然后每次将类间距离最近的两类合并,合并后重新计算新类与其他类之间的距离,然后再合并……直到所有的样本都被覆盖,最终形成一棵有层次的聚类树。

3. 实证分析

本章主要利用主成分分析和聚类分析的相关理论,对2019年我国年吞吐量在1000万吨以上的13个沿海港口的港口综合竞争力进行分析和评价 [3] ,港口综合竞争力的指标体系如表1所示,数据主要来源于各地区统计年鉴和国家统计局的最新数据。

Table 1. Port comprehensive competitiveness evaluation index system

表1. 港口综合竞争力评价指标体系

3.1. 港口综合竞争力主成分分析

首先对数据进行标准化 [4] 处理,公式如下:

y i j = x i j x ¯ j s j , i = 1 , 2 , , 13 ; j = 1 , 2 , , 13 (23)

其中, x i j 表示第i个港口第j个指标的原始取值, y i j 表示标准化后第i个港口第j个指标的数值, x ¯ j 表示第j个指标的平均值,计算公式如下:

x ¯ j = i = 1 13 x i j 13 , j = 1 , 2 , , 13 (24)

s j 表示第j个指标的标准差:

s j = i = 1 13 ( x i j x ¯ j ) 2 12 , j = 1 , 2 , , 13 (25)

计算标准化后数据的相关系数矩阵R:

R = Y T Y 12 , Y = ( y i j ) , i = 1 , 2 , , 13 ; j = 1 , 2 , , 13 (26)

将相关系数矩阵可视化,如图1所示。下三角中第i行第j列的数字表示第i个指标和第j个指标的相关系数,相关系数越大,两者的相关性越强,对应上三角中第j行第i列格子圆点的颜色就越深。由图1可知,这13个指标之间相关性较强。

Figure 1. Diagram of the correlation

图1. 相关图

计算相关系数矩阵的特征值和特征向量:

| R λ E | = 0 (27)

得出的特征值按从大到小的顺序排列,依次为 λ 1 = 7.753 λ 2 = 1.818 λ 3 = 1.212 ,……, λ 13 0 。根据对应的特征向量 α 1 , α 2 , , α 13 ,构造主成分的表达式:

F i = α i T X , i = 1 , 2 , , 13 (28)

式中: X = ( X 1 , X 2 , , X 13 ) T ,F1为第1主成分,F2为第2主成分,……,F13为第13主成分。

此时还没有实现降维,我们需要从13个主成分中选取前 r ( r 13 ) 个主成分作为新的综合性变量,前r个主成分的方差贡献率之和为累积方差贡献率 [5] ,要求大于等于85%。第i个主成分的方差贡献率为 λ i / j = 1 13 λ j ,前r个主成分的累积方差贡献率为 i = 1 r λ i / j = 1 13 λ j

Table 2. Variance contribution rate of principal component and cumulative variance contribution rate

表2. 主成分的方差贡献率和累积方差贡献率

表2可知,当选取三个主成分时,方差的累积贡献率已经超过了80%,当选取六个主成分时,方差的累积贡献率达到了98%,再结合碎石图来决定主成分的个数。

Figure 2. Diagram of the scree

图2. 碎石图

图2中我们可以很清晰地看到,转折点出现在第2个因子的位置,当主成分的个数大于3时,对应公共因子的特征值小于1,其影响已经很微弱了,因此选取3个主成分较为合适,得到的3个主成分分别是

z 1 = 0.278 x 1 + 0.351 x 2 + 0.336 x 3 + 0.335 x 4 + 0.313 x 5 + 0.339 x 6 + 0.329 x 7 + 0.33 x 8 + 0.297 x 9 0.159 x 10 0.134 x 12 z 2 = 0.127 x 1 + 0.162 x 3 + 0.231 x 5 0.126 x 6 0.149 x 7 0.342 x 9 + 0.588 x 11 0.29 x 12 0.552 x 13 z 3 = 0.419 x 1 0.154 x 4 + 0.106 x 5 0.193 x 6 0.231 x 7 0.178 x 8 0.653 x 10 0.268 x 11 + 0.34 x 12 0.225 x 13

将标准化后的港口数据带入主成分的表达式,可得各港口前3个主成分的得分,如表3所示,其中C1、C2、C3分别表示第一、第二、第三主成分得分。

Table 3. Port principal component score

表3. 港口主成分得分情况

以三个主成分对应的特征值占比为权,最终得出的主成分得分加权就是各港口的综合得分。主成分得分的权重如表4所示:

Table 4. The weight of the principal component score

表4. 主成分得分的权重

港口综合得分的计算公式如下:

C = 0.5963938 C 1 + 0.1398233 C 2 + 0.0932070 C 3 0.5963938 + 0.1398233 + 0.0932070 (29)

其中,C为综合得分,C1为第一主成分的得分 [6] ,C2为第二主成分的得分,C3为第三主成分的得分。十三个港口的综合得分及排名如表5所示:

Table 5. Overall score and ranking of ports

表5. 港口的综合得分及排名

在根据主成分分析得出的13个沿海港口综合竞争力的排名中,上海港位列第一,宁波——舟山港则屈居第二,而真实的排名两者却正好相反。宁波——舟山港的货物吞吐量长年占据国内榜首,远远大于上海港,但上海港所在地上海市经济实力雄厚,交通发达,贸易往来频繁,这对于上海港的发展是极其有利的,也使得上海港即便在某些方面不如宁波——舟山港,但预测的排名仍然在宁波——舟山港之上。

天津港和大连港的预测排名和真实排名一致,但青岛港和广州港的排名两者正好调换了位置。无论从货物吞吐量、泊位数量、国民生产总值还是外贸进出口总额,广州港都力压青岛港,但青岛港的实际利用外资额、外贸进出口总额增长率、实际利用外资额都远远大于广州港,2019年广州港的外贸进出口总额增长率为−2.4%,而青岛港的外贸进出口总额增长率为11.4%,这些都进一步说明了青岛港这几年发展的势头要明显强于广州港,发展潜力巨大,因此青岛港的预测排名要优于实际排名。

总体来说,根据主成分分析得出的港口综合竞争力排名与真实排名相差不大,误差在前后一名到两名内浮动,结果的可信度较高。

3.2. 港口综合竞争力聚类分析

Figure 3. Three-dimensional diagram of port principal component score

图3. 港口主成分得分的三维立体图

图3反映了这13个港口主成分的得分情况。在已经对变量进行主成分降维的前提下,我们对这13个港口进行聚类。

3.2.1. 层次聚类

层次聚类不需要预先确定聚类个数,但需要确定在一个聚类分析中类的最佳数目。一个好的聚类结果,其组内方差必须尽可能的小,而组间方差需要尽可能的大。R语言的NbClust包能够帮助我们确定一个聚类分析中类的最佳数目,结果如表6所示:

Table 6. The selection of the number of hierarchical clustering clusters

表6. 层次聚类聚类数目的选择

聚类个数为2、3和11时,赞同数较多。由于我们的样本港口数只有13,因此聚类个数为2或3比较适宜。

当聚类个数为2时,结果如图4所示:

Figure 4. The cluster graph when the number of clusters is 2

图4. 聚类个数为2时的聚类图

当聚类个数为3时,结果如图5所示:

Figure 5. The cluster graph when the number of clusters is 3

图5. 聚类个数为3时的聚类图

3.2.2. 均值聚类

均值聚类需要事先确定所要提取的聚类个数,我们同样可以调用NbClust包来帮助我们确定类的数目,结果如图6所示,其中聚类个数为2和3时,赞同数较多。

Figure 6. K-means the selection of the number of clusters

图6. K-means聚类数目的选择

也可以参考聚类个数与类内平方、类间平方和的关系曲线图,观察图中曲线的走势变化选择适当的聚类数量。

Figure 7. Graph of the relationship between the number of clusters and the squares within and between classes

图7. 聚类个数与类内平方、类间平方的关系曲线图

图7中左表示随着聚类个数的增加,组内方差平方和有一个明显的下降趋势,但在三类之后,下降的趋势减弱。同样地随着聚类个数的增加,组间方差平方和也随之上升,但在三类之后上升的趋势减缓。结合调用NbClust包后所得结果,我们选择2、3、4为聚类的个数。

当聚类个数为2时,结果如表7所示:

Table 7. The result of port clustering when cluster is type 2

表7. 聚为2类时的港口聚类结果

当聚类个数为3时,结果如表8所示:

Table 8. The result of port clustering when cluster is type 3

表8. 聚为3类时的港口聚类结果

当聚类个数为4时,结果如表9所示:

Table 9. The result of port clustering when cluster is type 4

表9. 聚为4类时的港口聚类结果

在聚类分析中,层次聚类的结果和均值聚类的结果截然不同。当把13个港口分成两类时,层次聚类把上海港归为一类,而其他12个港口归为一类;均值聚类则把天津港、上海港、宁波舟山港、青岛港和广州港归为一类,观察可知,这五个港口就是主成分分析中综合得分排名前五的港口。虽然上海港在港口发展规模、港口基础设施建设方面一直处于比上不足,比下有余的状态,但上海港的GDP、第三产业总产值、外贸进出口总额和其他港口相比简直是一骑绝尘,所以说上海港是“全能发展型选手”,把它另归为一类也无可厚非。当把13个港口分为三类时,层次聚类和均值聚类的结果非常相似,只是层次聚类将天津港从宁波舟山港、青岛港和广州港中踢了出去。天津港和青岛港在其他指标上差别不大,但青岛港的实际利用外资额、外贸进出口总额增长率远远大于天津港,所以投资对于港口发展来说是至关重要的。

4. 结论

本文对我国年吞吐量在1000万吨以上的13个沿海港口的港口竞争力进行了分析和评价,得到的排名从前往后依次为:上海港、宁波——舟山港、广州港、天津港、青岛港、大连港、烟台港、日照港、连云港港、秦皇岛港、营口港、汕头港和湛江港。这个预测的排名和真实的排名相差不大,误差在三名以内,说明这种运用主成分分析法对港口进行排名的方法结果可信度较高。

由各港口主成分的得分,我们进行层次聚类和K均值聚类。层次聚类和K均值聚类的结果在聚成两类时相差较大,但在聚成三类时则比较相似。

参考文献

[1] 施桦. 舟山港域竞争力评价[D]: [硕士学位论文]. 舟山: 浙江海洋大学, 2017.
[2] 刘翠玲, 王少敏, 吴静珠, 等. 基于太赫兹时域透射成像技术的葵花籽内部品质无损检测研究[J]. 光谱学与光谱分析, 2020, 40(11): 3384-3389.
[3] 陈辛. 基于主成分分析法的我国沿海港口竞争力评价研究[D]: [硕士学位论文]. 杭州: 浙江工业大学, 2011.
[4] 任东海. 主成分分析和聚类分析在高职学生成绩综合评价中的应用[J]. 计算机时代, 2023(11): 64-67+70.
[5] 韩智强, 左新黛, 周勇军, 等. 基于主成分-逐步回归的大跨弯连续刚构桥冲击系数计算[J]. 公路交通科技, 2022, 39(1): 72-80.
[6] 吴勇, 徐亚琼, 曾俞森, 等. 丘陵区耕地细碎化与种植多样性的空间相关性分析——以武胜县鸣钟乡为例[J]. 西华师范大学学报(自然科学版), 2023, 44(3): 305-310.