基于多维标度法的互联网基本资源发展状况评价
Evaluation of the Development of Basic Internet Resources Based on Multidimensional Scaling
DOI: 10.12677/SA.2020.95077, PDF, HTML, XML, 下载: 565  浏览: 782 
作者: 秦 丰:长安大学理学院,陕西 西安
关键词: 多维标度法多维标度图非度量MDS聚类分析Multidimensional Scaling Method Non-Metric MDS Clustering Analysis
摘要: 简述了多维标度分析方法的思想及原理,采用多维标度法和聚类分析对全国31个省份互联网基本资源的发展状况进行综合的评价与分析,结果显示全国31个省份互联网基本资源的发展状况可分为四个层次,并以此分类为城市的交流与发展提供参考。
Abstract: This paper briefly introduces the idea and the principle of multidimensional scaling analysis method. The development status of Internet basic resources in 31 provinces of China is analyzed and evaluated by multi-dimensional scaling and clustering analysis. The result shows that the development status of Internet basic resources in 31 provinces of China can be divided into four levels, which can provide reference for the exchange and development of cities.
文章引用:秦丰. 基于多维标度法的互联网基本资源发展状况评价[J]. 统计学与应用, 2020, 9(5): 754-761. https://doi.org/10.12677/SA.2020.95077

1. 引言

实际问题中,得知城市之间的距离或得知了城市之间的距离大小次序,如何确定他们之间的相对位置;若得知了消费者对某些类品牌产品之间的差异程度的资料,如何确定他们在消费者认知中的相对位置,进而衡量消费者的偏好。在生活中我们通常会需要确定对象之间的相对距离来对其进行评价。本文主要针对互联网基础资源的发展状况进行评价,确定各个地区互联网发展的相对位置,并结合聚类分析结果为城市发展,企业投资提供参考。

2. 多维标度法概述

多维标度法是一种多元统计方法,其所要解决的问题是:当n个对象两两之间的相似性或距离确定之后,确定这些对象在一个合适的低维空间中的相对位置。低维空间中的任意一个点代表一个对象,通过该空间中点与点之间的距离来反映对象两两之间的相似性,通过多维标度法使得空间中点与点之间的距离与原对象两两之间的相似性尽可能一致,使得降维过程中发生的形变尽可能的小。

多维标度法的目的是通过客体间的距离或相似数据来表现他们之间的空间分布,进而通过空间相对位置来揭示实际客体间的亲疏和相似程度。多维标度法首先通过操作构建一个关键的维数,进而在该维数下表现样本的坐标,最后画出它的多维标度图。

根据基础数据的不同,多维标度法可以分为两类:一类为度量的多维标度法(metric MDS),另一类为非度量的多维标度法(nonmetric MDS)。前者使用的数据是定量数据,即用间隔尺度或比率尺度测得的数据 [1]。后者使用的数据是定性数据,即用次序尺度测得的相似数据 [1]。

3. 多维标度法理论简述

3.1. 度量多维标度分析相关理论

一个距离矩阵 D = ( d i j ) n × n 称为欧式型的 [2],若存在某个正整数p及p维空间 R p 中的n个点 x 1 , , x n ,使得

d i j 2 = ( x i x j ) ( x i x j ) , i , j = 1 , 2 , , n (1)

对于距离阵 D = ( d i j ) n × n ,设p和 R p 中的n个点 x 1 , , x n ,矩阵表示为 X = ( x 1 , , x n ) ,用 d ^ i j 表示 x i x j 的欧式距离, D ^ = ( d ^ i j ) ,使得 D ^ 与D在一定条件下相近,则称X为D的一个解,称 x i 为D的一个拟合构造点,X为拟合构图,D的拟合距离阵为 D ^ ,特别的,当 D ^ = D 时,称 x i 为D的构造点,X为构图。得出拟合构图就可以得出n个拟合构造点 x i 的坐标,我们就可以画出多维标度图,进而对原始客体进行一个合理的统计解释。

A = ( a i j ) a i j = 1 2 d i j 2 B = H A H H = I n 1 n 1 n 1 n ,一个的距离阵 D = ( d i j ) n × n 是欧式型的充分必要条件是 B 0

对于必要性:

设D是欧氏型的,则由定义可知,存在 x 1 , , x n R p ,使得

d i j 2 = 2 a i j = ( x i x j ) ( x i x j ) (2)

可得

B = H A H = A 1 n A 1 n 1 n 1 n 1 n 1 n A + 1 n 2 1 n 1 n A 1 n 1 n (3)

带入可得

b i j = a i j a ¯ i . a ¯ . j + a ¯ .. (4)

其中 a ¯ i . = 1 n j = 1 n a i j , a ¯ . j = 1 n i = 1 n a i j , a ¯ .. = 1 n 2 i = 1 n j = 1 n a i j

求得 a i j a ¯ i . a ¯ . j a ¯ .. 带入可得

b i j = ( x i x ¯ ) ( x i x ¯ ) , i , j = 1 , , n (5)

其中 x ¯ = 1 n i = 1 n x i

将上式用矩阵表示并根据负定矩阵的性质有

B = ( b i j ) n × n = ( ( x 1 x ¯ ) ( x n x ¯ ) ) ( ( x 1 x ¯ ) , , ( x n x ¯ ) ) 0 (6)

其中,B为拟合构图X的中心化内积矩阵。

对于充分性:

p = r a n k ( B ) λ 1 , , λ p 为B的正特征根, x ( 1 ) , , x ( p ) 为对应的特征向量。

由于 B 0 ,则由谱分解定理

B = H A H = Γ Λ Γ (7)

式中 Λ = diag ( λ 1 , , λ p ) λ 1 λ p 为B的p个正特征值, Γ 的p个列为对应的p个标准正交化的特征向量。取 X = Γ Λ 1 / 2 ,其为 n × p 阶矩阵。把这个X写成 X = ( x 1 , , x n ) = ( x ( 1 ) , , x ( p ) ) ,于是有:

X X = ( Γ Λ 1 / 2 ) ( Γ Λ 1 / 2 ) = Λ , B = X X (8)

b i j = x i x j 。由此求得 x i x j 两点的距离平方

( x i x j ) ( x i x j ) = b i i 2 b i j + b j j = a i i 2 a i j + a j j = 2 a i j = d i j 2 (9)

这表明存在正整数p和一个 n × p 阶矩阵 X = Γ Λ 1 / 2 ,使得X是D的构造点,即D是欧氏型的。

根据上述度量多维标度法的基本思想及方法,则其一般步骤:

(1) 计算对象两两之间的距离阵 D = ( d i j ) n × n

(2) 由距离矩阵求得 A = ( a i j ) n × n , a i j = 1 2 d i j 2

(3) 令 B = ( b i j ) ,其中 b i j = a i j a ¯ i . a ¯ . j + a ¯ ..

(4) 求B的r个正特征值 λ 1 λ r 和r个正特征值 λ 1 , , λ r 对应的标准正交化的特征向量,维数空间r一般为2、3以达到可视化的效果。

(5) 根据 X = Γ Λ 1 / 2 ,得到r维拟合构图。

3.2. 非度量多维标度法的相关理论

在实际问题中,我们所能得到的n个客体的数据可能既不是相似系数也不是距离 [3],而只是他们之间某种差异程度的大小次序,其大小仅表明他们在排序队列中所处的位置,我们的目标是通过客体间的差异顺序找出一个拟合构图X拟合客体原本的差异关系。

非度量多维标度法,首先要构造一个可以反映样本信息的合适的r维空间,并用空间中的任意n个点来表示这n个客体,用 X i = ( x i 1 , , x i r ) 表示第i个客体在r维空间的坐标,由这n个点组成的结构叫做初步图形结构,此时点间的距离数值大小次序不一定和原始客体之间的差异次序相同。接着,我们要一步步修正初步图形结构,使得这些代表客体的点之间距离的大小次序和原始客体之间的差异次序尽可能匹配。这其中的核心在于选择关键的维数和检验初步图形结构是否匹配进而进行修改。

对于坐标空间维数的确定 [4],理论上n个客体, n 1 维空间可以完全反映出原本客体的次序,但是维数太高会使得计算复杂且结果不直观。实际中我们往往采用2、3维空间,然后去挑选出匹配程度最好的维数空间。

下面给出Kruskal非度量方法:

假定存在n个客体的不相似阵 ( δ i j ) n × n ,首先用r维空间中任意不同点代表不同客体, X i = ( x i 1 , , x i r )

表示第i个客体在r维空间的坐标,用 d i j 表示初步图形中客体i和客体j间的距离:

d i j = ( x i 1 x j 1 ) 2 + ( x i 2 x j 2 ) 2 + + ( x i r x j r ) 2 (10)

若用 d i j 确定的次序与原始客体的不相似次序不匹配,就逐步调整n个点的空间位置使得 d i j 与不相似系数的 δ i j 的完全一致 [5]。即若:

δ i 1 j 1 δ i 2 j 2 δ i m j m ,则 d i 1 j 1 d i 2 j 2 d i m j m , m = 1 2 n ( n 1 ) (11)

问题的核心是 d i j δ i j 的匹配性。Kruskal采用最小二乘单调回归求解出 δ i j 的单调正解 d ^ i j ,然后将 d ^ i j 与实际距离 d i j 进行对比并作差,最后使用这个差值平方标准化之后作为匹配程度的度量,称之为应力(STRESS) [5]。

STRESS = [ i = 1 n 1 j = i + 1 n ( d i j d ^ i j ) 2 i = 1 n 1 j = i + 1 n d i j 2 ] 1 2 (12)

d i j d ^ i j 越接近,STRESS指数就越小,表明拟合程度越好。实际中,我们往往当STRESS指数小于某个定值时,就认为该模型的拟合程度良好;若STRESS指数大于预先给定的临界值,就继续修改初始图形,进而得到一个新的图形结构模型。一般采用迭代方法,找到使STRESS指数小于某个阙值的r维空间中的n个客体的坐标。

4. 多维标度法在互联网基本资源评价中的应用

互联网之于当今信息时代,就如同土地之于农业时代,机器之于工业时代,互联网作为一种重要的基础设施,正在对人类社会的变革发挥着巨大的作用,就像以蒸汽机为基础的机械制造时代,以电为原动力的电气化时代,以计算机为推动力的信息革命时代,如今互联网必将对今后的智能时代起到无法替代的作用,每个人已经和互联网深深结合在了一起,从1994年4月20日,我国正式接入国际互联网以来,在二十多年的奋斗历程中,我国互联网状况全面发展,“互联网+”的推进,都在告诉我们互联网已成为我国基础设施建设、生态建设、经济转型、城市发展、技术创新中不可或缺的内容。但是能够反映互联网发展的状况的指数众多,与此同时,各个地区的互联网发展的情况各异,各个指标此高彼低。因此必须对各地区互联网基本资源的发展状况进行综合的评价与分析。

本文分别利多维标度法和聚类分析 [6] 进行分析与评价并进行比对。其所依托的客体是2017年年底全国31个省份各省互联网主要指标发展情况。其所引用的资料来自于《中国统计年鉴2018》,一共选取了9个指标:域名数x1 (万个),网站数x2 (万个),网页数x3 (万个),IPv4地址数x4 (万个),互联网宽带接入端口x5 (万个),互联网拨号用户x6 (万户),移动互联网用户x7 (万户),移动互联网接入流量x8 (万户),互联网宽带接入用户x9 (万户),具体数据见表1

Table 1. The development of major Internet indicators in 31 provinces

表1. 全国31个省份各省互联网主要指标发展情况

下图和数据表示分别利用度量多维标度法和聚类分析进行处理的结果。

Figure 1. Multi-dimensional scale diagram

图1. 多维标度图

Figure 2. Cluster analysis results

图2. 聚类分析结果

5. 总结

在多维标度图(图1)中,由于我们在维数中选择了二维,即用二维平面可以比较直观地反映各地区的位置。在PC互联网中,北京表现比较出色,排名第一,紧接其后的是浙江和广东,评价结果与《中国互联网发展报告2017》蓝皮书评估结果不谋而合。这是有其原因的,因为这三地分别立足本地实际,开展了一系列促进互联网发展的措施,由其北京作为首都,互联网应用广泛,在企业联网化,电子政务,以及网络管理队伍建设完善。广东地处粤港澳大湾区,互联网基础好,规模大,创新能力强,尤其以深圳和广州为代表。浙江作为网络建设强省,互联网基础资源雄厚,已由坐落于杭州的阿里巴巴公司为代表的互联网电子商务业务辐射至全省互联网发展的方方面面。在移动互联网方面,广东位列第一,其后是江苏、浙江和河南。广东在移动互联网方面表现优异,广东有14家企业入围了2018年中国互联网企业100强,腾讯和网易排名前五。江苏省移动宽带用户规模巨大,位居前列。在我国的“新四大发明中”,网购和支付宝都在浙江诞生、孕育与发展,移动互联网发展强势,蚂蚁金服、阿里巴巴在移动互联网发展中持续发力。河南在以云计算、物联网为代表的移动互联网中发展迅速。上海作为老牌强省,互联网发展均衡。陕西因为一带一路,高校科研单位云集,这在一定程度上促进了陕西互联网的发展。河北因为坐落在京津翼城市群,其互联网水平都得到长足性发展。

在聚类分析图(图2)中,我们选择离差分析和法(Word),类内离差平方和尽可能地小,类间离差平方和尽可能地大,具体步骤为:所有样本自成一类,每次减少一类,在类聚合的过程中,选择使方差增量最小的两类聚合,最后所有的样本聚合成一类。按照聚类图整理出聚类结果为表2

由聚类表(表2)可得,互联网基础资源发挥发展状况最好的是首都北京。其次是互联网基因厚实的浙江和广东。接着是河北、江苏、河南、上海、陕西占据互联网发展新高地的省份,而剩余省份被分为一类。

Table 2. Cluster result tablet

表2. 聚类结果表

对比多维标度的结果和聚类分析的结果发现,两种分析方法的结果高度一致,北京处在互联网发展第一梯队,广东和浙江处在互联网基础资源发展第二梯队,江苏,河南,上海,河北,陕西处在第三梯队。分析结果对于我们了解各省市互联网发展状况有一定的帮助,为各省市之间的交流和发展,企业的投资和发展,城市经济的发展和转型提供了参考。

参考文献

[1] 王斌会. 多元分析及R语言建模[M]. 广州: 暨南大学出版社, 2011: 268-270.
[2] 张润楚. 多元统计分析[M]. 北京: 科学出版社, 2006: 291-294.
[3] 马慧, 魏立力. 基于多维标度和聚类的CPI数据结构分析[J]. 兰州文理学院学报(自然科学版), 2019, 33(3): 13-17.
[4] 赵静, 蒲越. 基于MDS对工业科技人才培养的研究分析[J]. 吉林化工学院学报, 2017, 34(3): 82-86.
[5] 曾薇, 赵守盈. 非计量多维尺度中的单调最小二乘回归技术[J]. 中国考试, 2011(10): 8-9.
[6] 揭水平. 多维标度法的聚类分析: 问题与解法[J]. 统计与决策, 2009, 24(11): 148-149.