1. 引言
随着我国丝绸之路的发展,早期贸易的物品越来越受关注,这使得古代玻璃成为考古人员的重要研究内容。古代丝绸之路是古玻璃发展的重要媒介,我国古代玻璃主要以含氧化铅和氧化钡较高的铅钡玻璃为特色,铅钡玻璃是我国最早制造出的本土玻璃。由于判别玻璃类型等信息主要依据其化学成分,因此本文将利用决策树模型对古代玻璃制品的化学成分进行数据分类,R型聚类分析法研究不同化学成分之间的关系,进而对古代玻璃制品进行分类以及预测出风化前各元素含量。
2. 预备知识
1) 决策树是一种用于数据分类的方法,通过建立一种树形结构来进行问题决策。它是直观运用概率分析的一种图解法,每个内部节点表示某种特征的测试,每个分支代表一个测试输出,每个叶节点是输出结果 [1] 。在建立决策树模型时,通常采用ID3算法,即利用信息增益来度量。
信息熵(H)以及信息增益(I)定义为:
(1)
其中p表示随机变量的概率,N表示变量的特性,D表示数据集合,H(D)定义为经验熵,H(Y|X)为条件熵,H(D|N)表示N在D条件下的经验熵。
2) R型聚类是聚类分析的一种,一般对样本指标进行分类 [2] 。在对指标进行聚类时,需计算出各变量间的相关系数,这里给出最长距离法。
记变量
的取值为
,则计算两个变量
与
的相关系数,从而确定其为相似性度量,即
(2)
3. 玻璃文物表面有无风化的量化对比与统计分析
由于题中所给有效数值范围为85%~105%,根据附表单1和单2的数据,通过对各样本成分含量累加进行数据的合理性分析,得到67组有效数据。利用斯皮尔曼相关系数法来研究分类信息之间的相关性,构建统计模型,进而分析研究文物样品表面有无风化化学成分含量的相关统计规律。
3.1. 分类信息的相关性计算
斯皮尔曼相关系数是用来衡量变量间非参数指标之间的相关性,其主要适用于其中一组变量为定序变量的情况 [3] 。
1) 定义变量
分别对四组原始变量进行定量处理,即各组变量间不同指标所占比重按照从小到大的顺序进行赋值(若不同指标所占比重相同,则对其所赋值求取平均),具体赋值情况如下表1所示:
2) 计算差值
结合上表,分别计算纹饰、类型和颜色与表面风化对应差值,即将上表中
与f对应元素差值组成的集合分别记为
,记各集合的第j个元素为
,公式如下:
(3)
注:如果两个元素的数值相同,则将取算术平均值进行差值计算。
3) 计算斯皮尔曼相关系数
利用式(3),分别计算
与f之间的斯皮尔曼系数,分别用R1~R3表示。其中斯皮尔曼相关系数
,当
绝对值越接近于1时,两变量之间相关性越强。
(4)
4) 对斯皮尔曼相关系数进行假设检验
由于原始样本数
,选用适合多样本点数的p值判断法对三组相关系数分别进行检验。首先确定原假设
、备择假设
,其中
。在原假设成立的条件下,进一步构造服从标准正态分布的统计量,即
(5)
5) 模型的求解
将差值集合中的元素
代入式(3),求解出对应的
,即
与f之间的相关系数。最终得出的结果如表2:
将样本数据代入式(4)中的统计量中,得出正态检验值m,利用标准正态分布密度函数求得p值,求得结果如表3:
在置信水平为95%的基础上,进行P值检验,结果得出只有
,通过显著性检验。
6) 结果分析
由于玻璃类型与表面风化的相关系数
,相关系数的检验值
;
,相关系数的检验值
。因此,在显著性检验值为0.05的基础上,表面风化与否与玻璃类型呈显著性关系,与玻璃颜色呈不显著关系。
3.2. 统计规律
为了探究不同玻璃类型表面有无风化化学成分含量的统计规律,对附件表单2样本进行分类,分成高钾类与铅钡类,同时利用决策树模型对原始数据进行分类,将其拆分成风化点数据与未分化点数据。
1) 高钾玻璃
统计得高钾玻璃表面有无风化时其他化学成分占比的最值与平均值,通过对图1表面有无风化的化学成分含量的变化趋势,发现无风化时各个化学成分占比,较风化来说均是高的,并且氧化铝在风化时平均含量值接近2%,在未风化时平均含量值接近11%,较其余成分相比均为最高。
2) 铅钡玻璃
通过对图2的直观分析,发现氧化铝、氧化铜、氧化钠、氧化钙最大值含量在无风化时达到峰值,而氧化锡的最大值则随着风化程度加深的过程中逐渐降低。
3) 针对风化点与未风化点的分类
针对未风化点数据,取70%数据作为训练集,30%作为测试集。由结果所得,未分化的玻璃的分类规律主要受PbO影响,当PbO含量小于等于8.488时,该样本归为高钾玻璃类;当PbO含量大于8.488时,该样本归为铅钡玻璃类。
Figure 1. The content of other chemical components of high potassium glass
图1. 高钾玻璃其他化学成分含量
Figure 2. Other chemical components of lead and barium glass
图2. 铅钡玻璃其他化学成分含量
针对风化点数据,取70%数据作为训练集,30%数据作为测试集。由结果所得,风化的玻璃的分类规律主要受PbO影响,当PbO含量小于等于6.255时,该样本归为高钾玻璃类;当PbO含量大于6.255时,该样本归为铅钡玻璃类。
3.3. 两类玻璃的亚类划分
通过查阅资料可知,样本所含的各化学成分含量可看作分类的重要指标。为了将两类玻璃进行亚类的划分,对不同样本的化学成分进行聚类,通过数学统计模型单独研究每个类别的性质 [4] 。
利用式(4)得两类玻璃各化学成分间的相关系数,以铅钡玻璃为例,计算相关系数,具体见图3。
基于玻璃类型14种化学成分比例的不同,根据其相关性建立R型聚类分析模型来研究各化学成分之间的关系,按最长距离法对玻璃类型进行亚类划分,将相似的化学成分分成一类。
对两个样本间的距离进行计算,把每个化学成分看作一个类,任选一个模式样本作为第一类的聚类中心Z1,选择离Z1距离最远的模式样本作为第二类聚类中心Z2,逐个计算每个模式样本与已知确定所有聚类之间的距离,选出其中的最小值。
Figure 3. Correlation coefficient among various chemical components of high potassium glass
图3. 高钾玻璃各化学成分间的相关系数
在所有最小距离中选出一个最大距离,如果该值与
的比值在一定分数以上,则产生最大距离的那个模式样本为新增的聚类中心,重复以上步骤,直到没有新的聚类中心为止,从而对各类型玻璃进行亚类划分。
1) 高钾玻璃的亚类划分(如图4所示):
第一类包含的化学成分有:氧化钙、氧化铜、氧化锡、二氧化硫
第二类包含的化学成分有:二氧化硅、氧化钠、氧化钾、氧化镁、氧化铝、氧化铅、氧化钡、五氧化二磷、氧化锶
Figure 4. Subclass division of the high-potassium chemical composition
图4. 对高钾化学成分的亚类划分
2) 铅钡玻璃的亚类划分(如图5所示):
第一类包含的化学成分有:二氧化硅、氧化钙、氧化铜、氧化铅、氧化钡、氧化锶、氧化锡
第二类包含的化学成分有:氧化钠、氧化钾、氧化镁、氧化铝、五氧化二磷、氧化硫
Figure 5. Subclass division of the chemical composition of lead and barium
图5. 对铅钡化学成分的亚类划分
3.4. 预测风化前各元素含量
由于高钾玻璃和铅钡玻璃预测风化前的元素含量所用方法等同,因此本文将以铅钡玻璃为例,计算其风化前的各元素含量。
1) 首先,依据玻璃类型以及表面是否风化将原始样本分为四类:铅钡风化类(A)、铅钡未风化类(C)。为保证预测风化前成分值的合理性,利用平均值作为衡量各类别样本的标准,即分别求出上述两类中样本各化学指标的均值,分别记为
(6)
2) 其次,利用移动平均法求预测值 [5] 。设上述四类中第个样本的第个化学指标分别为
。同时,设定A两类中的第i个样本的第j个未风化前的化学指标为
,其中
。由于需要预测风化样本风化前的成分含量,所以只需计算A类样本风化前的成分含量。根据距离相等,有以下公式成立:
(7)
根据上述内容求解出风化前的预测值,计算得铅钡玻璃风化前的部分化学成分含量值如下表4。
Table 4. Prediction of partial chemical content of lead-barium glass before weathering
表4. 铅钡玻璃预测风化前部分化学含量值
4. 结论
古代玻璃制品主要分为高钾玻璃与铅钡玻璃,对于分化前后的玻璃,其所含的化学成分有很大区别。通过计算斯皮尔曼相关系数以及决策树的构建,我们发现无风化时高钾玻璃中各个化学成分含量最高,并且氧化铝、氧化钾是高钾玻璃中的主要化学成分。利用聚类分析法对两大类玻璃进行了亚类划分,此外,通过移动平均法对这两种玻璃制品进行风化前的化学元素含量的预测,这为玻璃的化学成分研究提供了新的方法,加强了玻璃成分分析,为玻璃生产领域注入了新的生机。
基金项目
大创项目编号:X202210165176。