基于PCA-K均值聚类算法的古代玻璃制品的成分分析与鉴别
Component Analysis and Identification of Ancient Glassware Based on PCA-K Mean Clustering Algorithm
DOI: 10.12677/aam.2025.1411474, PDF, HTML, XML,    科研立项经费支持
作者: 刘忠慧*, 李进友#:广西民族师范学院数学与计算机科学学院,广西 崇左
关键词: Pearson卡方检验玻璃制品K-Means聚类主成分分析Pearson’s Chi-Squared Test Glass Products K-Means Clustering Principal Component Analysis
摘要: 本文主要对古代玻璃制品相关检测数据进行风化前后规律的研究,根据风化规律进行亚分类,并建立玻璃制品各项化学成分含量风化前的预测模型,同时根据分类规律,对未知类别的玻璃制品进行鉴别。首先采用数据可视化和Pearson卡方检验方法分析表面风化情况与玻璃类型、颜色和纹饰之间的相关性。其次,采用Python软件计算玻璃在风化前后各项化学含量的均值和方差,获得玻璃的风化规律,并利用风化前后各项化学成分含量的平均值的改变比率来预测风化前的化学含量。最后,利用数据可视化分析高钾玻璃和铅钡玻璃的分类规律。采用主成分分析(PCA)和K-Means聚类方法对两种玻璃进行亚分类,并利用ROC曲线对分类模型进行了合理性和敏感性分析。通过分类模型对未知类别的玻璃制品化学成分含量进行分析并鉴别其所属类型,即文物编号A1,A5,A6,A7为高钾玻璃,A2,A3,A4,A8为铅钡玻璃。通过模型敏感性分析,说明分类结果有较好的稳定性和准确性。
Abstract: This paper mainly studies the pre- and post-weathering patterns of the relevant detection data of ancient glassware, conducts subclassification based on the weathering patterns, and establishes a prediction model for the content of various chemical components of glassware before weathering. At the same time, it identifies glassware of unknown categories according to the classification patterns. Firstly, data visualization and Pearson chi-square test methods were adopted to analyze the correlation between surface weathering and the type, color and pattern of glass. Secondly, Python software is used to calculate the mean and variance of each chemical content of the glass before and after weathering, obtaining the weathering law of the glass. Then, the change rate of the average value of each chemical component content before and after weathering is utilized to predict the chemical content before weathering. Finally, data visualization is utilized to analyze the classification patterns of high-potassium glass and lead-barium glass. The principal component analysis and K-Means clustering methods were adopted to subclassify the two types of glass, and the ROC curve was used to analyze the rationality and sensitivity of the classification model. Through the classification model, the chemical composition content of glass products of unknown categories was analyzed and their types were identified. Specifically, the cultural relic numbers A1, A5, A6, and A7 were high-potassium glass, while A2, A3, A4, and A8 were lead-barium glass. Through model sensitivity analysis, it is indicated that the classification results have good stability and accuracy.
文章引用:刘忠慧, 李进友. 基于PCA-K均值聚类算法的古代玻璃制品的成分分析与鉴别[J]. 应用数学进展, 2025, 14(11): 178-192. https://doi.org/10.12677/aam.2025.1411474

1. 引言

丝绸之路[1]是中外闻名的文化交流的通道,而玻璃则是在丝绸之路上贸易往来的重要物证。在近年来出土的古代玻璃[2]花样繁多、纹饰较为丰富,可呈现出中国文化的特点,且对中国的古代文明的考查有着巨大的贡献,而不同种类的玻璃有着不同的参考价值。随着时间的推移,古代玻璃容易受微生物、土壤等环境因素的影响,出现了风化的现象,使玻璃的化学成分含量变化很大,从而影响了对玻璃制品类别的正确判断与鉴定[3]。合理对古代玻璃表面风化情况与其类型、纹饰和颜色的相关性进行分析,对其化学成分的关系进行描述性分析并预测风化前的玻璃化学成分,正确鉴别未知类别的玻璃制品,不仅可以有效地提高考古工作人员工作效率,还可以进一步做到更好的对其采取保护措施。所以能够对现有的古代玻璃制品的相关数据给出更加有效的量化指标从而进行分类,快速地、准确地、低成本地识别和判断玻璃的类型,是考古工作者与文物修复者非常关注的一个问题。

2. 数据预处理

本研究的样本涉及58件中国古代玻璃文物,相关样品的信息如表1所示。将对表1中的玻璃文物表面风化与其文物类型、纹饰以及颜色的关系进行分析,并对其化学成分含量进行分析,预测玻璃文物风化前的化学成分含量。

Table 1. Sample information (Partial)

1. 样品的信息(部分)

文物编号

纹饰

类型

颜色

表面风化

01

C

高钾

蓝绿

无风化

02

A

铅钡

浅蓝

风化

03

A

高钾

蓝绿

无风化

03

A

高钾

蓝绿

无风化

04

A

高钾

蓝绿

无风化

05

A

高钾

蓝绿

无风化

06

A

高钾

蓝绿

无风化

2.1. 量化处理

为了更好的进行相关性分析,本文在对玻璃文物的表面风化与其玻璃类型、纹饰和颜色的关系进行分析之前,分别对表1中“类型”“纹饰”“表面是否风化”三个指标进行标量化处理,量化结果见表2所示。

Table 2. Quantified processing results

2. 量化处理结果

量化前

量化后

高钾,铅钡

1,2

纹饰A,B,C

1,2,3

风化,未风化

1,2

黑、蓝绿、绿、浅蓝、浅绿、深蓝、深绿、紫

1,2,3,4,5,6,7,8

2.2. 缺数据处理

由于表3表4中存在大部分玻璃文物各个化学成分比例为空的,空白处表示未检测到此文物的化学成分,并非缺失,可能含量很少导致检测不到[3]。故本文将空值填充“0”或采用k-NN插补方法对表3表4中的空值进行填充,以便后续计算。表1中19号、40号、48号和58号文物缺失颜色数据,经观察发现,此4个文物均属于铅钡风化玻璃。本文对这4个空值采用最频繁值填充,填充后可得19号、40号、48号和58号玻璃颜色为浅蓝。

Table 3. Essential information on sampling sites for ancient glass artifacts (Partial)

3. 古代玻璃文物采样点的基本信息(部分)

文物采样点

二氧 化硅 SiO 2

氧 化 钠 Na 2 O

氧 化 钾 K 2 O

氧 化 钙 CaO

氧 化 镁 MgO

氧 化 铝 Al 2 O 3

氧 化 铁 Fe 2 O 3

氧 化 铜 CuO

氧 化 铅 PbO

氧 化 钡 BaO

五氧 化二磷 P 2 O 5

氧 化 锶 SrO

氧 化 锡 SnO 2

二氧 化硫 SO 2

01

69.33

9.99

6.32

0.87

3.93

1.74

3.87

1.17

0.39

02

36.28

1.05

2.34

1.18

5.73

1.86

0.26

47.43

3.57

0.19

03部位1

87.05

5.19

2.01

4.06

0.78

0.25

0.66

03部位2

61.71

12.37

5.87

1.11

5.5

2.16

5.09

1.41

2.86

0.7

0.1

04

65.88

9.67

7.12

1.56

6.44

2.06

2.18

0.79

0.36

05

61.58

10.95

7.35

1.77

7.5

2.62

3.27

0.94

0.06

0.47

06部位1

67.65

7.37

1.98

11.15

2.39

2.51

0.2

1.38

4.18

0.11

06部位2

59.81

7.68

5.41

1.73

10.05

6.04

2.18

0.35

0.97

4.5

0.12

01

69.33

9.99

6.32

0.87

3.93

1.74

3.87

1.17

0.39

Table 4. Basic information of sampling points for unknown category glass cultural relics

4. 未知类别玻璃文物采样点的基本信息

文物 编号

表面 风化

SiO 2 (%)

Na 2 O (%)

K 2 O (%)

CaO (%)

MgO (%)

Al 2 O 3 (%)

Fe 2 O 3 (%)

CuO (%)

PbO (%)

BaO (%)

P 2 O 5 (%)

SrO (%)

SnO 2 (%)

SO 2 (%)

A1

无风化

78.45

6.08

1.86

7.23

2.15

2.11

1.06

0.03

0.51

A2

风化

37.75

7.63

2.33

34.3

14.27

A3

无风化

31.95

1.36

7.19

0.81

2.93

7.06

0.21

39.58

4.69

2.68

0.52

A4

无风化

35.47

0.79

2.89

1.05

7.07

6.45

0.96

24.28

8.31

8.45

0.28

A5

风化

64.29

1.2

0.37

1.64

2.34

12.57

0.81

0.94

12.23

2.16

0.19

0.21

0.49

A6

风化

93.17

1.35

0.64

0.21

1.56

0.27

1.73

0.21

A7

风化

90.83

0.98

1.12

5.06

0.24

1.17

0.13

0.11

A8

无风化

51.12

0.00

0.23

0.89

0.00

2.12

0.00

9.01

21.24

11.34

1.46

0.31

0.00

2.26

注:数据来源于2022年全国大学生数学建模竞赛[3]

2.3. 删除无效数据

根据2022年全国大学生数学建模竞赛C题,题目规定各个化学成分比例的累加和在85%~105%之间,则为有限数据[3]。本文通过Excel累加计算得出文物编号为15和17的累加和的数值分别为79.47%,71.89%,均不在规定的有效范围内,所以将它们直接剔除,则有67条有效数据。

3. 玻璃制品风化情况与其特性的相关性分析

3.1. 数据可视化分析

根据数据处理后的玻璃数据,利用excel进行数据统计分析,将从表1中玻璃文物的表面有无风化与其玻璃类型、纹饰和颜色的占比进行可视化分析并分析它们的相关性。将具体分析指标如下:

图1可知,铅钡玻璃相对于高钾玻璃,其风化数量占比更大,说明铅钡玻璃比高钾玻璃更容易风化。观察图2可得纹饰A对于玻璃的风化与未风化的效果是一样的,纹饰为B类的玻璃均风化,纹饰C对玻璃风化有着较大的影响,风化比例占63%;颜色为黑色的均为风化玻璃,颜色为绿色与深蓝色均为未风化玻璃,其中蓝绿、浅蓝、深绿三种颜色的玻璃其风化占比相对较大,其风化比例均已超57%,浅绿与紫色的玻璃风化占比总体来说相对较小。

Figure 1. Pie chart of weathered and unweathered glass

1. 玻璃风化与未风化的饼状图

Figure 2. Column chart of weathering presence/absence, decoration types, and colors

2. 有无风化与纹饰种类、颜色的柱状图

3.2. 相关性系数分析

相关性系数分析常用于变量之间的线性相关程度的研究,一般是用于说明在两个变量之间是否存在相关的关系以及变量之间相关关系的紧密程度。计算相关性系数的公式步骤如下:

Step 1:计算出玻璃类型的均值

X ¯ = i=1 n X i n

Step 2:计算出它的方差

S 2 = i=1 n ( X i X ¯ ) n1

Step 3:计算出它的标准差

S= i=1 n ( X i X ¯ ) n1

Step 4:分别计算出纹饰与颜色的均值

玻璃表面风化与其颜色、类型、纹饰的相互相关系数的热力分布图,见图3所示。

根据热力分布图可知,玻璃表面风化与其颜色、类型、纹饰有一定的相关性,其中纹饰和颜色的相关性最高。

Figure 3. Correlation coefficient heat map

3. 相关系数热力图

3.3. 卡方检验差异性

本文对表面有无风化做Pearson卡方检验[4],分为三组关系进行讨论,其中变量分别为玻璃纹饰、类型和颜色。表面风化情况与纹饰的检验步骤如下:

Step 1:提出假设

H 0 :纹饰和表面风化情况相互独立不相关。

H 1 :纹饰表面风化情况不相互独立,存在一定的相关性。

Step 2:计算检验统计量

根据表1整理玻璃纹饰与表面风化情况的数据,如下:

Table 5. Statistical data on patterns and surface weathering

5. 纹饰与表面风化统计数据

纹饰

风化

未风化

合计

A

11

11

22

B

6

0

6

C

17

13

30

合计

34

24

116

利用表5中的数据,计算每一行列的期望频数,公式如下:

e ij = n i n j n , i=1,2,3;j=1,2

其中 n i 表示行数据, n j 表示列数据, n 为样本容量,可得其期望频数见表6

Table 6. The expected frequencies for each row and column

6. 每行列的期望频数

e 11

e 12

e 21

e 22

e 31

e 32

期望频数

6.45

4.55

1.76

1.24

8.79

6.21

接着采用原数据与估计期望值的偏离程度来计算卡方统计量 χ 2 ,公式如下:

χ 2 = i=1 3 j=1 2 ( f i e ij ) 2 e ij

其中 f i 为玻璃纹饰表面风化的数据。

最后,同理计算出玻璃纹饰、类型和颜色与表面风化情况的Pearson卡方检验结果如表7所示。

Table 7. Pearson’s chi-squared test results

7. Pearson卡方检验结果

组别

Pearson卡方 χ 2

似然比

线性相关

P值

纹饰

4.957

7.120

0.137

0.084

玻璃类型

6.880

6.889

6.762

0.009

颜色

7.234

9.004

0.946

0.405

表7可得,表面风化情况与玻璃类型的P值为0.009,小于0.05,则拒接原假设 H 0 ,接受假设 H 1 。即玻璃类型与表面风化情况不相互独立且存在一定的相关性。由它们的线性相关值为6.762,可知它们有一定的线性相关性。表面风化情况与纹饰和颜色的P值均大于0.05,说明在显著水平5%以上,不能拒接原假设 H 0 ,即接受原假设 H 0 ,且线性相关值分别为0.137,0.946,说明线性相关性很弱。因此表面风化情况与玻璃纹饰和颜色均相互独立不相关。

4. 玻璃化学成分含量的统计规律与预测还原

4.1. 玻璃化学成分的描述性统计规律

为分析风化情况与化学成分含量的统计规律,本文根据表3,剔除化学含量总和不在85%~105%之间的数据后[3],采用Python软件分别对高钾玻璃和铅钡玻璃在风化前后各项化学含量的描述性统计,并总结出风化前后不同化学含量的均值和方差,具体结果见表8表9

Table 8. The mean and variance of chemical composition of high-potassium glass before and after weathering

8. 高钾玻璃化学成分风化前后的均值和方差

化学成分

风化均值/%

未风化均值/%

二者差值/%

风化方差/%

未风化方差/%

SiO 2

93.97

69.43

24.54

1.73

8.92

Na 2 O

0

2.78

−2.78

0

0.64

K 2 O

0.82

10.21

−9.39

0.19

2.81

CaO

0.87

6.59

−5.72

0.49

2.25

MgO

0.59

1.26

−0.67

0.07

0.53

Al 2 O 3

1.93

6.39

−4.46

0.96

2.47

Fe 2 O 3

0.27

1.87

−1.60

0.07

0.94

CuO

1.56

2.46

−0.9

0.93

1.47

PbO

0

0.64

−0.64

0

0.66

BaO

0

1.12

−1.12

0

1.01

P 2 O 5

0.34

1.29

−0.95

0.18

1.14

SrO

0

0.07

−0.07

0

0.03

SnO 2

0

2.36

−0.36

0

0

SO 2

0

0.41

−0.41

0

0.06

Table 9. The mean and variance of chemical composition of lead-bismuth glass before and after weathering

9. 铅钡玻璃化学成分风化前后的均值和方差

化学成分

风化均值/%

未风化均值/%

二者差值/%

风化方差/%

未风化方差/%

SiO 2

35.38

54.82

19.44

16.23

14.33

Na 2 O

2.86

3.34

−0.48

2.30

1.14

K 2 O

0.31

0.42

−0.11

0.24

0.44

CaO

2.20

1.18

1.02

1.40

1.22

MgO

1.11

0.98

0.13

0.54

0.37

Al 2 O 3

3.93

3.14

0.79

3.75

1.43

Fe 2 O 3

0.94

1.88

−0.94

0.70

1.68

CuO

2.22

1.84

0.38

2.81

2.62

PbO

37.03

22.42

14.61

15.79

8.40

BaO

10.63

10.51

0.12

7.02

7.27

P 2 O 5

3.90

1.03

2.87

3.58

1.75

SrO

0.38

0.48

−0.10

0.19

0.28

SnO 2

0.67

0.40

0.27

0.57

0

SO 2

2.27

3.66

−1.39

0.44

0

观察表8得出,高钾玻璃文物风化均值与未风化的均值之差变化量较大排前5的化学元素为: SiO 2 , K 2 O,CaO, Al 2 O 3 , Na 2 O 。风化后, SiO 2 的含量增加较大,而 K 2 O,CaO, Al 2 O 3 , Na 2 O 的含量均在逐渐减少。说明高钾玻璃文物在风化前后化学元素硅、钾、钙、铝和钠流失较大。对于显色化合物 Fe 2 O 3 ,和 CuO 风化后逐渐在减少。

表9可知,铅钡玻璃在风化前后的化学成分含量均值变化最靠前的化学物品有 SiO 2 ,PbO, P 2 O 5 , S 2 O,CaO ,而且风化后, SiO 2 PbO 含量增加较大, P 2 O 5 ,CaO 的化学含量稍微增加,而 S 2 O 的化学含量逐渐减少。说明对于铅钡玻璃来说,风化前后主要变化的元素有硅、铅、磷、硫和钙。

4.2. 预测风化前的化学含量

由于各个类型玻璃的化学成分含量的不同,导致可能有部分化学含量未检测到,因此数据整体上出现较多的“0”值。为了更准确预测风化前的化学含量,本文对两种玻璃各化学成分分别统计风化后和未风化数据的平均值,记为 W i , F i ( i=1,,14 ) 。再利用风化后各化学成分含量的平均值与风化前的平均值之比得到改变比率 α i ( i=1,,14 ) ,即计算公式为

α i = W i F i , i=1,,14 (1)

那么相应得到风化前化学成分含量的预测公式为

y= α i x i ,  i=1,,14. (2)

其中 x i 为风化后各个化学成分的含量。

表8表9中化学成分风化前后的平均值相加得到 W i , F i ( i=1,,14 ) ,再带入公式(1)中得到风化前后各化学成分含量的平均值比率,见表10所示。

Table 10. The average ratio of chemical component contents before and after weathering

10. 风化前后各化学成分含量的平均值比率

S i O 2

Na 2 O

K 2 O

CaO

MgO

Al 2 O 3

Fe 2 O 3

CuO

PbO

BaO

P 2 O 5

SrO

SnO 2

SO 2

α

1.04

0.47

0.06

0.4

0.75

0.62

0.32

0.88

1.61

0.91

1.83

0.69

0.88

0.56

最后利用公式(2),分别计算得高钾玻璃和铅钡玻璃风化后数据风化前的化学成分含量预测值,如表11表12所示。

Table 11. Prediction table of weathering point of high-potassium glass

11. 高钾玻璃风化点预测表

编号

S i O 2

Na 2 O

K 2 O

CaO

MgO

Al 2 O 3

Fe 2 O 3

CuO

PbO

BaO

P 2 O 5

SrO

SnO 2

SO 2

07

96.34

0

0

0.43

0

1.23

0.05

2.85

0

0

1.12

0

0

0

09

98.82

0

0.035

0.25

0

0.82

0.10

1.36

0

0

0.64

0

0

0

10

100.64

0

0.06

0.08

0

0.50

0.08

0.74

0

0

0

0

0

0

12

98.06

0

0.06

0.29

0

0.91

0.09

1.45

0

0

0.27

0

0

0

22

96.04

0

0.04

0.67

0.48

2.17

0.11

0.48

0

0

0.38

0

0

0

27

96.43

0

0

0.38

0.41

1.55

0.06

1.36

0

0

0.66

0

0

0

Table 12. Prediction table of weathering point of lead-bismuth glass

12. 铅钡玻璃风化点预测表

编号

S i O 2

Na 2 O

K 2 O

CaO

MgO

Al 2 O 3

Fe 2 O 3

CuO

PbO

BaO

P 2 O 5

SrO

SnO 2

SO 2

02

37.73

0

0.06

0.94

0.89

3.55

0.60

0.23

76.36

0

6.53

0.13

0

0

08

20.95

0

0

0.60

0

0.83

0

9.16

46.17

28.42

6.57

0.26

0

1.44

11

34.93

0

0.01

1.41

0.53

1.67

0

4.34

40.88

13.30

17.17

0.26

0

0

19

30.83

0

0

1.17

0.44

2.21

0.43

3.09

68.94

4.87

16.16

0.13

0

0

23

55.94

3.72

0

0.2

0.53

0.88

0

2.63

27.34

10.79

0

0.23

0

0

25

52.63

1.09

0

0.25

0

1.18

0.50

0.99

51.36

6.05

0.35

0.14

0

0

26

20.58

0

0

0.58

0

0.43

0

9.30

47.54

29.35

5.73

0.31

0

1.10

28

70.80

0

0.02

0.54

0.75

2.91

0.13

0.29

27.6

3.68

1.90

0.08

0.20

0

29

65.8

0.43

0.02

1.19

1.12

8.89

0.26

0.65

19.82

1.85

0.75

0.17

0

0

34

37.21

0

0.02

0.31

0

1.00

0.15

1.32

74.95

9.1

0.62

0.15

0

0

36

41.15

1.04

0.01

0.15

0

0.99

0.10

0.60

67.0

9.86

0.13

0.15

0

0

38

34.24

0.65

0

0.27

0

1.59

0.09

0.64

79.39

8.91

0.88

0.28

0

0

39

27.30

0

0

0.44

0

0.31

0

0.77

98.26

6.57

2.12

0.42

0

0

40

17.38

0

0

0.75

0

0.28

0.06

0

113.03

6.09

3.24

0.47

0

0

41

19.20

0

0.03

1.99

2.05

2.06

0.57

0.17

71.03

8.88

13.65

0.32

0

0

42

53.31

2.70

0.01

0.32

0.82

2.19

0

2.35

35.23

9.53

0.15

0.24

0

0

43

12.91

0

0

2.10

0.67

1.40

0.24

4.71

96.36

6.63

0

0.44

0

0

44

63.17

1.44

0.01

0.87

0

7.87

0.25

0.38

21.91

4.75

0

0.18

0

0

48

55.46

0.38

0.02

1.13

1.16

8.46

0.33

0

25.29

6.65

2.01

0.17

1.15

0

49

29.94

0

0

1.83

1.10

3.34

0.88

0.62

55.03

5.56

20.31

0.31

0

0

50

18.70

0

0

1.28

0.35

1.16

0.10

0.99

70.84

12.92

11.60

0.46

0

0

51

25.60

0

0

1.43

0.89

3.26

0.38

1.21

64.79

8.14

14.82

0.27

0.41

0

52

26.77

0.57

0

0.91

0.41

0.72

0.07

0.62

76.35

7.86

10.45

0.30

0

0

53

66.21

1.43

0.01

0.31

0.86

3.76

0

0.48

21.99

8.18

0

0.19

0

0

54

23.17

0

0.02

1.28

0.96

2.57

0

0.73

89.29

6.41

7.76

0.61

0

0

56

30.31

0

0

0.49

0

1.15

0

0.70

66.41

14.06

4.65

0

0

0

57

26.44

0

0

0.52

0

1.35

0

1.02

72.61

15.74

0

0

0

0

58

31.61

0

0.02

1.40

0.59

2.18

0.28

2.75

63.35

6.97

16.45

0.17

0

0

5. 玻璃亚类的划分

5.1. 高钾、铅钡玻璃的分类规律

为了分析两种玻璃的分类规律,本文根据表1表3中的数据,观察得出两种玻璃的分类与它们的纹饰、颜色以及主要的化学组成成分有着密切的关系。根据数据分别统计高钾玻璃与铅钡玻璃的纹饰、颜色以及化学成含量占比最大与最小的柱状图,见图4所示。

Figure 4. Statistical chart of chemical content, patterns and colors

4. 化学含量、纹饰和颜色统计图

图4得到,铅钡玻璃的纹饰A、C占比较高,而高钾玻璃相对出现较少,纹饰B仅在高钾玻璃中存在。黑色、绿色、紫色三种颜色仅在铅钡玻璃中存在,浅蓝色、浅绿色以及深绿色中多数为铅钡玻璃,蓝绿色中大多数为高钾玻璃。从化学成分含量上看,两种玻璃的 SiO 2 含量最高。由于 SiO 2 为古代玻璃的主要成分,且化学性质相对稳定,不易与环境中的其他物质发生反应,因此我们不将二氧化硅作为辨别玻璃类型的成分。故除了 SiO 2 外,高钾玻璃中 K 2 O 含量占比最大, P 2 O 5 含量占比最小;铅钡玻璃中 PbO 含量占比最大, Al 2 O 3 含量占比较多,而 SrO 含量占比最小。因此综合以上判别玻璃类型的因素,可以初步判断玻璃的类型。

5.2. 分类模型的建立与求解

本文采用主成分分析[5]降低自变量的维数,再利用K-Means聚类方法[6]进行分类,具体步骤如下:

Step 1:将空值出现次数大于等于5的化学成分含量删除,即删除了 Na 2 O,SnO 2 SO 2 ,剩下的化学成分中存在空值使用“0”填充。将以上筛选出来的化学成分进行数据规范化处理,公式如下:

b ij = a ij min 1in ( a ij ) max 1in ( a ij ) min 1in ( a ij ) , i=1,,n;j=1,,p

Step 2:利用主成分分析保留累计贡献率为95%以上的主成分数据。

Step 3:计算样本间两两之间的距离。由于Step 1进行了数据规范化,故采用欧几里得距离计算样本 w i w j 之间的距离,其计算公式为:

d( w i , w j )= ( k=1 n ( b ik b jk ) 2 ) 1/2 , i=1,,n;j=1,,p

Step 4:K-Means聚类,聚类的过程如下:

1) 随机初始化K个聚类中心,即K个类中心向量。

2) 对每个样本,计算其与各个类中心向量的距离,并将该样本指派给距离最小的类。

3) 更新每个类的中心向量,更新的方法为取该类所有样本的特征向量均值。

4) 直到各个类的中心向量不再发生变化为止,作为退出条件。

将化学成分含量作为变量,导入K-Means聚类模块KMeans,利用KMeans创建聚类对象model,设置聚类个数为2,即高钾玻璃和铅钡玻璃随机。初始状态设置为0,最大迭代次数设置为500,利用Python程序得到67条聚类结果。其中聚类结果为1的文物,如图5所示。

Figure 5. A map of cultural relics with a cluster label of 1

5. 聚类标签为1的文物标号图

观察图5,利用K-means聚类得到的结果为文物01、03部分1、03部分2、04、05、06部分1、06部分2、07、09、10、12、13、14、15、16、17、18、21、22、23未风化点、25、27、28未风化点、29未风化点、31、32、33、35、37、42未风化点1、42未风化点2、44未风化点、45、46、47、48、49未风化点、53未风化点、55为高钾玻璃。文物02、08、08严重风化点、11、19、20、24、26、26严重风化点、30部位1、30部分2、34、36、38、39、40、41、43部位1、43部位2、49、50、50未风化点、51部位1、51部位2、52、54、54严重风化点、56、57、58为铅钡玻璃。此结果与原始数据的文物类型进行对比,相似度达83%。

5.3. 类结果的合理性、敏感性检验

划分结果的合理性检验

对于划分结果的合理性检验,本文利用ROC曲线检验模型来反映K-Means聚类结果的合理性和有效性。ROC曲线越接近左上方,模型的查全率就越高,而ROC曲线所表示的学习器的精确度也是最高的;ROC曲线最接近左上方的点为最优的分类阈值,而伪正例和伪反例的数量最小[4]

模型评估指标:ROC曲线一般用于评估二分类模型性能,是衡量分类型模型准确度中最基本、最直观、计算最简单的方法,其中AUC值越接近1,说明模型性能越好,越接近0.5,说明模型性能一般[5]。故本文采用ROC曲线对K-Means聚类模型进行结果分析评估,得到表13中的评价指标数据。

Table 13. Model evaluation index table

13. 模型评估指标表

精确率

准确率

灵敏度

F1值

AUC

0.89

0.82

0.83

0.84

1

图6表13可以看出,模型评估的精确率、准确率和F1值都在82%以上,说明模型效果较佳。AUC的值为1,说明采用K-Means聚类划分的结果合理性和有效性较好。灵敏度值为83%,说明分类模型做出的分类效果较为稳定。

将Step 1空值填充“0”的方法修改为采用k-NN插补方法进行填充,再使用其余步骤得到以下结果,见图7

Figure 6. The AUI graph of the K-Means clustering results

6. K-Means聚类结果的AUI图

图7可知,k-NN插补方法对表格中空值填充后继续采用K-means聚类得到的结果为01、03部分1、03部分2、04、05、06部分1、06部分2、07、09、10、12、13、14、15、16、17、18、21、22、27、28未风化点、29未风化点、31、32、33、35、44未风化点、45、46、48、49未风化点、53未风化点为高钾玻璃。文物02、08、08严重风化点、11、19、20、23未风化点、24、25未风化点、26、26严重风化点、30部位1、30部分2、34、36、37、38、39、40、41、42未风化点1、42未风化点2、43部位1、43部位2、47、49、50、50未风化点、51部位1、51部位2、52、54、54严重风化点、55、56、57、58为铅钡玻璃。此结果与原始数据的文物类型进行对比,相似度达84.06%。与空值用“0”填充方法对比仅有7次不同,并得出模型评估指标表中精确率、准确率、灵敏度和F1值有所提高,但提高幅度不大。结果见表14。说明空值用“0”填充或用k-NN插补方法填充,对最终的结果影响不是很大。

Figure 7. The map of cultural relics with a clustering label of 1 in the k-NN interpolation method

7. k-NN插补方法的聚类标签为1的文物标号图

Table 14. Model evaluation index table in the k-NN interpolation method

14. k-NN插补方法的模型评估指标表

精确率

准确率

灵敏度

F1值

AUC

0.89

0.84

0.84

0.85

1

5.4. 对未知文物类别分类

表4中所给未分类玻璃文物的化学成分比例进行分类。与表3不同,表4不是随机表面采样检测到的化学成分比例,故不需要对表4中数据作风化和未风化分类处理。第5.1和5.2小节对表3中的化学成分含量数据进行分类,利用K-Means分类方法鉴别高钾玻璃和铅钡玻璃。同理,对表4中未知类别的玻璃采用同样的分类方法,利用表3数据训练好的K-Means分类模型进行分类,得出分类结果如表15所示。

Table 15. K-Means clustering result table

15. K-Means聚类结果表

玻璃类型

文物编号

高钾玻璃

A1,A5,A6,A7

铅钡玻璃

A2,A3,A4,A8

观察统计得出表4中化学成分 KO,PbO,BaO, Al 2 O 3 , P 2 O 5 ,SrO 含量如表16所示。

Table 16. Chemical composition content table of KO,PbO,BaO, Al 2 O 3 , P 2 O 5 ,SrO

16. KO,PbO,BaO, Al 2 O 3 , P 2 O 5 ,SrO 的化学成分含量表

文物编号

KO

PbO

BaO

Al 2 O 3

P 2 O 5

SrO

A1

0

0

0

7.23

1.06

0.03

A2

0

34.3

4.69

2.33

14.27

0

A3

1.36

39.58

8.31

2.93

2.68

0.52

A4

0.79

24.28

2.16

7.07

8.45

0.28

A5

0.37

12.23

0

12.75

0.19

0.21

A6

1.35

0

0

1.52

0.21

0

A7

0.98

0

11.34

5.06

0.13

0

A8

0.23

21.24

4.69

2.12

1.46

0.31

基于图4分析的结果分析出玻璃亚分类的规律,观察表16可得,文物编号A2,A3,A4,A8的 PbO,BaO 含量较高, SrO 含量较小;A5中 PbO, Al 2 O 3 含量较高,故文物编号A2,A3,A4,A5,A8分类为铅钡玻璃;A1,A6中 PbO,BaO 的含量较小,且A6,A7中 KO 含量较高,A7中 P 2 O 5 含量较小;故文物编号A1,A6,A7分类为高钾玻璃。

分类结果的敏感性检验

将空值出现次数大于等于2的化学成分删除,得到聚类结果见表17,聚类结果与表15相比,仅有A8分类不同。从统计化学成分含量分类规律上看,表15表16结果对比发现,仅A5分类不同。从而说明分类模型的分类效果比较稳定。

Table 17. K-Means clustering result table

17. K-Means聚类结果表

玻璃类型

文物编号

高钾玻璃

A1,A5,A6,A7,A8

铅钡玻璃

A2,A3,A4

6. 结论

本文首先对玻璃文物表面风化情况与其类型、纹饰和颜色进行了数据可视化分析,得出铅钡玻璃比高钾玻璃更容易风化。纹饰B最容易风化,其次是纹饰C。蓝绿、浅绿和深绿三种颜色的玻璃风化较大,而绿色、深蓝、浅绿和紫色的玻璃风化较小。接着做出相关系数的热力分布图,分析出玻璃表面风化与其颜色、类型、纹饰有一定的相关性,其中纹饰和颜色的相关性最高。并且利用Pearson卡方检验方法,有玻璃类型与表面风化情况不相互独立且存在一定的相关性,而表面风化情况与玻璃纹饰和颜色均相互独立不相关。其次,采用Python软件分别计算出两种玻璃在风化前后各项化学含量的均值和方差,得出高钾玻璃文物在风化前后化学元素硅、钾、钙、铝和钠流失较大,而铅钡玻璃风化前后主要是硅、铅、磷、硫和钙元素流失较大。再利用风化前后各项化学成分含量的平均值的改变比率来预测高钾玻璃和铅钡玻璃风化前的化学含量。最后,利用数据可视化分析出表3中高钾玻璃和铅钡玻璃的分类规律。采用主成成分和K-Means聚类方法分析对两种玻璃进行分类,并在此模型基础上,对表4中未知类别的玻璃制品进行分类。该方法不仅为文物保护与鉴别提供了新的视角和方法,同时展示数据驱动文化遗产保护领域研究的应用潜力。

基金项目

课题受到广西民族师范学院2024年度校级科研项目(项目编号:2024YB123)的资助。

NOTES

*第一作者。

#通讯作者。

参考文献

[1] 周静. 丝绸之路与中国早期玻璃艺术[J]. 艺术与设计(理论), 2012, 2(5): 144-146.
[2] 冯百龄. 中国出土古代玻璃珠数据库建设与应用[D]: [硕士学位论文]. 西安: 西北大学, 2021.
[3] 全国大学生数学建模组委会. 2022 “高教社杯”全国大学生数学建模竞赛赛题[EB/OL].
https://dxs.moe.gov.cn/zx/a/hd_sxjm_sthb/220811/1792383.shtml, 2025-11-11.
[4] 李群, 徐红剑, 杨金, 等. 基于Pearson卡方检验算法评价指标优选的波密-墨脱地区泥石流易发性评价[J]. 地质科技通报, 2025, 44(4): 316-329.
[5] 周纲, 黄瑞, 刘度度, 等. 基于改进K-Means聚类和皮尔逊相关系数户变关系异常诊断[J]. 电测与仪表, 2024, 61(3): 76-82+152.
[6] 黄恒秋, 莫洁安, 谢东津, 等. Python大数据分析与挖掘实战(微课版) [M]. 北京: 人民邮电出版社, 2020.