1. 引言
语言多样性与生物多样性在世界范围内呈区域相关性 [1] 。全球现存近7000种语言里,超过4800种位于生物多样性高度丰富的地区 [2] 。近代工业化、城市化、人口迁移和文化冲击等加剧了生物多样性的丧失,同时也引发语言的衰落与消亡 [3] 。语言学家应用生物与环境的相互作用原理,分析生物多样性和语言多样性的关联及形成机制、语言兴亡变化的影响因素,形成新的交叉学科——语言生态学 [4] 。语言生态学中,语言–生物多样性的相关性分析多基于环球或洲际的国家 [5] 、岛屿 [6] 、生物多样性热点地区的语种 [2] 。中国幅员辽阔、地形复杂、气候多样,具备较高的生物多样性。汉语又是世界上使用人口最多的语言各地汉语方言在词汇、语音和语法上的差异也体现了高度的多样性。张等人分析了中国33个省级行政区动植物种类,与数百个汉语方言音类、音值、词汇、语法和句法的表达种类等数据,验证了中国生物多样性与汉语方言多样性的地域相关性 [7] 。
关于语言、生物多样性的相关性分析,目前多数研究停留在语言指标与生物指标一对一式的计算和检验上 [2] [7] 。一方面,两种多样性都是抽象的、综合性的概念,都通过多种包含噪声与误差的外在指标度量和体现 [8] ,也都不等同于任何单一指标本身。另一方面,语言多样性与生物多样性指标层面上的正相关,也有气候、面积等宜居条件、客观因素共同作用的影响,并不完全体现语言与生态的互动机制。本文基于这两方面的考虑,利用结构方程模型 [9] ,以语言多样性、生物多样性及共性影响因素为潜变量,将指标间一对一的相关性计算,升级为多对多的同步建模,得出更细致的关联性刻画。为避免结论矛盾的结构模型,我们参照多种模型选择方法,有助于深化对生物多样性和语言多样性的关系及形成机制的认识,有助于协助和促进生态保护、保护生物多样性和语言多样性。
2. 研究设计
本文利用box-cox变换对不符合正态性要求的变量删除,本章数据来源于《Investigation on the Relationship between Biodiversity and Linguistic Diversity in China and Its Formation Mechanism.》(Zhang, X. Public Health 2022),经数据处理后发现少数民族语言种数和入声的分化区域组合种数不符合正态性要求。因此,用汉语方言片数、汉语方言语音值变化的总种数、203个汉语方言词汇的不同表达方式总数、102个语法词、词法和句法的不同汉语方言表达方式总数、“爸爸”的汉语方言表达方式数、8个亲属称谓重叠式的区域组合种数这6个变量来衡量潜变量汉语言多样性,动物种数、植物种数、生物多样性指数用来衡量潜变量生物多样性,所有的9个变量用来衡量公共因素,即潜变量公因子。
2.1. 模型构建
生物多样性和汉语言多样性有区域相关性,有多种衡量指标,两者之间的关系可能存在植被覆盖率、面积等公因子的影响。基于以上结论,本文提出在去除公因子影响下,生物多样性影响汉语言多样性的假设。通过上述度量指标构建生物多样性、汉语言多样性以及共性因素这三个潜变量,研究在公因子约束下的生物多样性与汉语言多样性的关系,结构方程模型的表达式如下:
  (1)
  (2)
  (3)
其中 
  , 
  , 
  和 
  分别代表汉语言多样性和生物多样性这两个潜变量,结构系数矩阵 
  中的元素表示内生潜变量 
  为外源潜变量 
  的线性函数, 
  是公因子。Y为6 × 1维向量,X为3 × 1维向量,Y和X分别是衡量语言多样性和生物多样性的观察标识, 
  、 
  为系数矩阵, 
  、 
  和 
  是误差因子向量。
2.2. 模型拟合检验
以上模型的拟合检验结果(见表1)表明,卡方/自由度为1.06,符合数值小于3的要求,p值为0.376,大于0.05,表明模型是可被接受的,相异性指标RMSEA等于0.048,小于理想标准0.08,相似性指标CFI和TLI均大于0.9,达到理想数值的要求。这表明模型与数据的拟合效果良好,因此可开展关于生物多样性与汉语言多样性关系之间的深入研究,并得到模型路径的分析结果(见表2)和结构方程模型的路径图如图1所示。

Table 2. Model path analysis results
表2. 模型路径分析结果
表2所示的检验结果表明:在刨除公因子影响后,生物多样性与汉语言多样性的Std (标准化载荷)为−0.155,P值为0.792,统计结果不显著。由此可得,在去除公因子的影响后,生物多样性与汉语言多样性之间无显著相关关系。

Figure 1. Structural equation model path map
图1. 结构方程模型路径图
3. 模型选择
由3个潜变量,9个观测变量构建的母体CFA模型如图2所示。本文分别用Lasso [12] [13] 、MCP [14] 方法和Amos基于指定搜索方法 [15] 寻找最佳模型惩罚生物多样性、汉语言多样和公因子三个因子之间的相关系数 
  、 
  、 
  ,最终确定理想的拟合模型。
3.1. 基于Lasso正则化的模型选择
设定要测试惩罚值的数量为20,每个模型的惩罚数依次增加0.01。使用Lass 估计并按RMSEA和BIC指标排序选出前4名的模型,模型检验的P值均大于0.05,这表明模型在可接受的范围内(见表3,带*的模型为本文选定的模型),三个参数惩罚的轨迹图如图3所示。
由表3可知,在Lasso估计下,模型1~3的公因子与生物多样性的相关性均为正,与汉语言多样性不相关,且生物多样性与汉语言多样性不相关,与提出的假设不一致。模型4表示在公因子与汉语言多样性不相关,与生物多样性相关性为正的情况下,生物多样性与汉语言多样性的相关系数为负,与提出的假设相一致。

Table 3. Fitting information of the model under lasso estimation
表3. Lasso估计下模型的拟合信息

Figure 3. Trajectory of three penalized parameters under Lasso penalty
图3. Lasso惩罚下三个被惩罚参数的轨迹图
3.2. 基于MCP正则化的模型选择
设定要测试惩罚值的数量为20,每个模型的惩罚数依次增加0.01。使用MCP估计并按RMSEA和BIC指标排序选出前4名的模型,模型检验的p值均大于0.05,这表明模型在可接受的范围内(见表4,带*的模型为本文选定的模型),三个参数惩罚的轨迹图如图4所示。
由表4可知,在MCP估计下,模型1-2均表示在公因子与生物多样性的相关性为正,以及与汉语言多样性不相关的情况下,生物多样性与汉语言多样性不相关,这与提出的假设不一致。模型3和4表示,在公因子与汉语言多样性的相关性为0,以及与生物多样性相关性为正的情况下,生物多样性与汉语言多样性的相关性都为负;模型3和4均与提出的假设一致。

Table 4. Fitting information of the model under MCP estimation
表4. MCP估计下模型的拟合信息

Figure 4. Trajectory of three penalized parameters under MCP penalty
图4. MCP惩罚下三个被惩罚参数的轨迹图
3.3. Amos基于指定搜索方法寻找最佳模型
Amos使用验证性的搜索方法寻找最佳模型,主要惩罚生物多样性、汉语言多样性和公因子三个因子之间的关系,计算出模型的拟合信息值,以便选出拟合较好的模型,根据BCC准则只将排名前4的模型显示在表中(见表5,带*的模型为本文选定的模型)。其中BCC0在0~2之间表示没有证据表明该模型不是K-L最优模型;在2~4之间表明该模型不是最优模型的证据不明显;大于4表示有证据表明该模型不是最优模型。BIC0在0~2之间表明该模型不是K-L最优模型的概率很小;在2~6之间表示有证据表明该模型不是最优模型,大于6则表明有很强的证据表明该模型不是最优模型。
由表5可知,在Amos验证性搜索下,模型4的BCC值为2.95,在合理范围内,而BIC值为3.23,超出模型为最优模型界限,BCC值和BIC值均超出了模型拟合良好的范围,模型4不是最优模型。模型1、模型2、模型3的BCC值和BIC都在合理范围内,且P值都大于0.05,表示模型可被接受。
模型1表示在提取公因子的影响后,生物多样性和语言多样性的相关性为0,与提出的假设不一致。模型2、3分别表示,公因子与汉语言多样性相关性分别为0.41和0,与生物多样性相关系数为分别为0和0.47时,生物多样性与汉语言多样性的相关系数都为负,即控制公因子影响后,生物多样性与汉语言多样性的相关性为负,与提出的假设一致。由此可得,Lasso、MCP和Amos选出的模型是一致的,选出的模型均表示在去除公因子影响下,生物多样性影响语言多样性。

Table 5. Models selected under Amos confirmatory search
表5. Amos验证性搜索下选出的模型
4. 中国植被覆盖率等因素与公因子的区域相关关系
为验证公因子与园林草湿地总面积、森林覆盖率和各省总面积等的区域相关系数,本文采用Spearman相关系数对中国30个省份的面积和森林覆盖率等因素与公因子进行区域相关分析,本章使用的数据来源于2021中国统计年鉴 [16] 。计算结果显示:当P值 < 0.05时,公因子与园林草湿地总面积的相关系数 > 0.5,与森林覆盖率和各省总面积的相关系数 < 0.5,公因子与各省人口密度的相关系数为−0.405,与光照时长和各省GDP的P值 > 0.05 (见表6)。

Table 6. Spearman correlation coefficient between common factor scores and total area of garden grass wetlands, forest coverage, and provincial area
表6. 公因子得分与园林草湿地总面积、森林覆盖率和省域面积等的Spearman相关系数
结果表明公因子与植被覆盖率中的园林草湿地覆盖率、森林覆盖率呈显著的区域正相关,与各省总面积也呈显著的区域正相关,且公因子与园林草湿地总面积的相关性大于与森林覆盖率和各省总面积的相关性。公因子与各省人口密度有显著的区域负相关关系,与各省的GDP和光照时长无区域相关关系。由此可得,公因子与植被覆盖率和各省面积有关。
5. 讨论与建议
本文通过结构方程建模和模型选择后,结果均表明在去除公因素的影响,生物多样性与汉语言多样性之间成微弱的负相关关系。园地、林地、草地和湿地为生物和人类提供了良好的栖息地,其覆盖率的高低和各省面积的大小影响着生物的繁衍和语种的传播,这些因素同时影响着生物多样性和汉语言多样性,在去除这些因素的影响后,生物多样性与汉语言多样性为争夺有限的资源而存在着竞争与对抗关系,但这个关系在中国不是主流。
自然资源和环境气候影响着民族和语言的分布,对动植物的生存和繁衍起着重要的作用,是语言多样性与生物多样性同时依赖的生存条件,同时影响着生物和语言多样性。随着科技的进步,人类为了追求更高的经济效益,造成了严重的资源浪费和环境污染,对人类自身和动植物的生存环境造成了毁灭性影响。生态环境的恶化导致的生物多样性锐减,同时又制约着经济的发展和语言多样性。因此,当今社会的发展要顺应自然,在改造自然、利用自然资源带给人们多元化生活的同时,更要注重保护生态环境,节约资源,促进生态的可持续发展。