1. 引言
擦音是声道中两个发音器官彼此靠拢但不会完全闭塞,形成狭窄的通道,气流通过时摩擦发出的辅音。擦音声学特性较为稳定,其音长也较长,频谱特性也比较容易考察到。J. Svantesson [1]是最早使用声学参数分析汉语普通话中的6个擦音声母(包括r声母)。随后,Jongman等人[2]增加了要考察的声学参数的数量,并提出了基于统计分析的“频谱矩”来区分擦音的方法,他们发现有6个参数可以有效区分擦音的发音部位。之后冉启斌[3]借鉴前人的方法,研究了汉语普通话五个擦音的“谱重心”和“分散程度”,并利用这两个声学参数构建了汉语普通话的擦音格局。孙锐欣[4]针对普通话中的6个擦音,在一定频率范围内等间隔地提取了数百个频率点,通过计算后得出只要三个参数信息就可以表明一个擦音绝大多数的信息。李善鹏,顾文涛[5]利用多个统计方法,探究了9个声学参数与普通话6个塞擦音的语音特征如发音部位、送气状态和后接元音等之间的关系。上述研究皆针对汉语普通话擦音的研究,方言擦音的研究依旧较少。
本文借鉴以上研究学者的研究方法,以邯郸邯山方言的5个擦音(f, s, sh, h, x)为研究对象,利用方差分析等统计方法,研究8个声学参数(时长、相对振幅、谱距、后接元音第二共振峰起点频率等)与不同擦音、性别和后接元音之间的对应关系。为邯郸方言语音的研究提供有价值的资料。
2. 实验方法及材料
本实验取邯郸邯山音系中的五个擦音f, x, s, sh, h为研究对象,将五个擦音分别后接高低两种元音,低元音a和高元音i,组成10个音节。当f和h后接i时,不好发音,所以将其变成ei,最终汉语拼音为fei、hei。另外,当x后接a时,由于是齐齿呼,所以在中间加个韵头i变为xia。为了避免声调的影响,每个音节读四个声调。由于个别音节没有所对应的汉字,要求发音人采用拼读法,并提前熟悉读音,以保录音时顺畅发音。
本次实验的8名发音人(4男4女)均为邯郸邯山土著,生活中长期使用邯山方言交流。为提高数据的准确性,我们要求8名发音人每个音节都读3遍,一共5(擦音) * 2(元音) * 4(声调) * 8(发音人) * 3(重复次数) = 960个音节。录制时保证周围环境安静无杂音,确保每个录音清晰干净。
3. 参数定义
3.1. 相对时长
通过Praat的波形图可以看到,摩擦段开始于爆破段冲直条结束的地方,结束于后接元音第一共振峰开始的地方。若没有爆破冲直条,那元音波形前的乱纹段即为摩擦段。由此我们可以分别截取音节中擦音段时长以及整个音节时长,由此计算摩擦段的相对时长,即擦音段与整个音节时长的百分比。
3.2. 相对振幅
摩擦段的均方根振幅值可以同样利用Praat提取出来,再用公式对其归一化,就可得到摩擦段的振幅。随后,在Praat上找出元音振幅最大值所在波形周期及左右相邻周期的振幅平均值,即为元音段振幅。最后摩擦段振幅减去元音段振幅所得的差值,就是我们所要的相对振幅值。
3.3. 频谱能量分布
Praat的语谱图可以看到音段的具体频谱能量分布,它可以帮助我们分析音段的频率成分和特性。因此频谱能量分布是有效地区分擦音的重要参数。而频谱能量分布则主要看谱顶点和谱矩两个数据。其中谱矩之下又包括分散度、谱重心、偏度和峰度四个声学参数。
3.3.1. 谱顶点
摩擦段中点的频谱能量最大的频率即为谱顶点。
3.3.2. 谱矩
我们使用Praat提取摩擦段中间80%的部分,通过公式可以计算出4个表征谱矩的参数。其中谱重心即为均值,表示频谱最强能量汇集的区域;分散度即为标准差,表示频谱能量的分散程度;偏度则可表明频谱能量是高还是低,若偏度为正,表明能量分布在低频,若偏度为负,即表示能量分布在高频;峰度则是表明频谱中间能量的整体趋势走向,如峰度为正,说明能量分布有峰点,即集中区的能量变化较陡,若峰度为负,说明表示集中区的能量变化较为平缓。
3.4. 元音F2起始频率
后接元音的F2起始频率所携带的擦音发音位置的信息可以用于区分不同擦音。
4. 方差结果分析
根据上述利用Praat提取的各个参数的数据,有三个固定因子即不同的擦音、性别、后接元音,因变量为8个声学参数。使用SPSS (26.0版本)做三因素方差分析,统计结果如表1所示。
Table 1. Three-factor multivariate ANOVA analysis results
表1. 三因素多元方差分析结果
参数 |
擦音 |
性别 |
后接元音 |
擦音 × 性别 |
擦音 × 后接元音 |
|
F |
显著性 |
偏Eta平方 |
F |
显著性 |
偏Eta平方 |
F |
显著性 |
偏Eta平方 |
F |
显著性 |
偏Eta平方 |
F |
显著性 |
偏Eta平方 |
相对时长 |
34.050 |
0.000 |
0.131 |
73.454 |
0.000 |
0.075 |
13.341 |
0.000 |
0.015 |
3.623 |
0.006 |
0.016 |
1.134 |
0.339 |
0.005 |
元音F2 起始频率 |
503.095 |
0.000 |
0.690 |
175.319 |
0.000 |
0.162 |
562.362 |
0.000 |
0.384 |
11.912 |
0.000 |
0.050 |
3.189 |
0.013 |
0.014 |
相对振幅 |
153.350 |
0.000 |
0.404 |
25.284 |
0.000 |
0.027 |
81.599 |
0.000 |
0.83 |
12.445 |
0.000 |
0.052 |
7.384 |
0.000 |
0.032 |
谱重心 |
321.293 |
0.000 |
0.587 |
79.505 |
0.000 |
0.081 |
4.625 |
0.032 |
0.005 |
29.105 |
0.000 |
0.114 |
12.640 |
0.000 |
0.053 |
分散度 |
104.096 |
0.000 |
0.315 |
82.163 |
0.000 |
0.083 |
3.826 |
0.051 |
0.004 |
40.222 |
0.000 |
0.151 |
0.4.390 |
0.002 |
0.019 |
偏度 |
91 |
0.000 |
0.289 |
29.311 |
0.000 |
0.031 |
17.480 |
0.000 |
0.019 |
14.887 |
0.000 |
0.062 |
3.081 |
0.016 |
0.013 |
峰度 |
7.001 |
0.000 |
0.030 |
3.934 |
0.048 |
0.004 |
3.281 |
0.070 |
0.004 |
26.255 |
0.000 |
0.404 |
0.672 |
0.612 |
0.003 |
谱顶点 |
4900.001 |
0.000 |
0.956 |
32.169 |
0.000 |
0.034 |
1.461 |
0.227 |
0.002 |
11.995 |
0.000 |
0.050 |
6.476 |
0.000 |
0.028 |
注:F为检验统计值,p为显著水平,偏Eta平方为效应量。
4.1. 相对时长
相对时长的统计均值如表2所示。
不同的擦音具有显著的主效应,s, sh, x比f, h相对时长更长。性别具有显著的主效应。女性所发音节中的擦音相对时长(44.406%)比男性(39.495%)更长。不同后接元音的擦音段相对时长具有显著的主效应,擦音段的相对时长后接i时比后接a时更长。
发音位置和后接元音有显著的交互效应。只有唇齿音f在后接元音i时相对时长变短,其余四个擦音卷舌音sh、硬腭音x、齿腭音s以及软腭音h的时长在后接元音i时更长,s, sh, x效应量更大。
Table 2. The mean of normalized duration
表2. 相对时长的统计均值
性别 |
擦音 |
后接元音 |
a |
i |
女 |
f |
42.19 |
40.84 |
s |
44.40 |
48.72 |
sh |
45.47 |
47.74 |
x |
46.68 |
48.84 |
h |
39.77 |
40.75 |
男 |
f |
35.23 |
34.29 |
s |
38.93 |
44.07 |
sh |
42.59 |
44.93 |
x |
43.08 |
46.41 |
h |
32.65 |
33.69 |
4.2. 相对振幅
相对振幅的统计均值如表3所示。
Table 3. The mean of standardized amplitude
表3. 相对振幅的统计均值
性别 |
擦音 |
后接元音 |
a |
i |
女 |
f |
−18.27 |
−18.51 |
s |
−12.20 |
−5.58 |
sh |
−9.52 |
−4.77 |
x |
−4.35 |
−3.70 |
h |
−20.22 |
−17.53 |
男 |
f |
−20.27 |
−18.76 |
s |
−14.27 |
−5.32 |
sh |
−9.65 |
−4.94 |
x |
−12.38 |
−6.26 |
h |
−20.81 |
−19.38 |
不同擦音的相对振幅存在显著的主效应。卷舌音sh,齿颚音s以及硬腭音x的相对振幅比唇齿音f和软腭音h的相对振幅大。不同性别的相对振幅具有显著主效应。女性的振幅(−10.728 dB)比男性的振幅(−13.215 dB)要高。不同后接元音的相对振幅存在显著的主效应。后接元音a时的相对振幅(−14.205 dB)比后接元音i时的振幅(−9.738 dB)更小。
不同擦音和后接元音之间有显著的交互效应,后接元音i的效应量对于不同擦音的发音位置的效应量更大。擦音的不同发音位置和性别之间也存在显著的交互效应。对于不同擦音之间的相对振幅,男性的效应量比女性的效应量大。不同擦音和后接元音的相对振幅分布如图1所示。
Figure 1. The distribution of standardized amplitude between different fricatives and the following vowels
图1. 不同擦音和后接元音的相对振幅
4.3. 频谱能量分布
频谱能量分布的统计均值如表4所示。
Table 4. The mean of spectral energy distribution
表4. 频谱能量分布的统计均值
位置 |
谱顶点(Hz) |
谱重心(Hz) |
分散度(Hz) |
偏度 |
峰度 |
f |
8470.64 |
6601.65 |
2412.79 |
−0.737 |
0.733 |
s |
8644.90 |
7524.60 |
1789.94 |
−0.763 |
2.13 |
sh |
3617.87 |
4882.82 |
1988.01 |
0.539 |
1.79 |
x |
4910.58 |
6670.67 |
1691.26 |
−0.241 |
0.352 |
h |
1116.61 |
4086.51 |
2458.86 |
0.652 |
0.575 |
4.3.1. 谱顶点
不同擦音的谱顶点存在显著的主效应。齿腭音s、唇齿音f的谱顶点明显比卷舌音sh,软腭音h,硬腭音x的谱顶点高。其中谱顶点最高的是齿腭音s (8644.90 Hz),谱顶点最低的是软腭音h (1116.61 Hz)。不同性别的谱顶点也存在显著差异。女性的谱顶点(5460.946 Hz)要高于男性的谱顶点(5243.310 Hz)。不同后接元音的谱顶点有微弱的主效应。
4.3.2. 谱矩
a) 谱重心
不同擦音的谱重心存在显著差异。齿腭音s的谱重心最高,再是唇齿音f和硬腭音x的谱重心相差甚小,卷舌音sh和软腭音h最小。不同性别的谱重心也存在显著的主效应。女性的谱重心(3600.371 Hz)高于男性(5606.131 Hz)。不同后接元音的谱重心无显著的主效应。
b) 分散度
不同擦音的分散度存在显著的主效应。软腭音h和唇齿音f的分散度高于齿腭音s、卷舌音sh、硬腭音x。不同性别的分散度具有显著差异。女性的分散度 (1910.265 Hz)小于男性的分散度(2226.075 Hz)。不同后接元音的分散度存在显著的主效应。后接元音a时的分散度(2111.638 Hz)大于后接元音i时的分散度(2024.702 Hz)。
不同擦音和后接元音之间存在显著的交互效应。x后接元音a时分散度(1803.417 Hz)比后接元音i时(1579.094 Hz)更大,而其余四个音后接i和a时,分散度没有显著差异。不同发音位置和性别之间有显著的交互效应。发音人为男性时,h, s, x的分散度比发音人为女性时更大,而发音人为女性时,f, sh的分散度比发音人为男性时更大。
不同擦音和后接元音的谱重心分布如图2所示。
Figure 2. The distribution of dispersion between different fricatives and the following vowels
图2. 不同擦音和后接元音的分散度分布
c) 偏度
不同擦音的偏度存在显著的主效应。齿腭音s、硬腭音x、唇齿音f偏度为负值,软腭音h、卷舌音sh为正值。这表明前三个音的能量主要分布在高频区,后两个主要分布在低频区。不同性别的偏度有显著的主效应。女性的偏度(−0.294 Hz)比男性(0.073 Hz)更小。不同后接元音的偏度存在显著差异。后接元音a时的偏度(−0.232 Hz)小于后接元音i时的偏度(0.011 Hz)。
不同擦音和后接元音之间存在显著的交互效应。f, s, x后接a时,偏度比后接i时(1579.094 Hz)更小,h、sh后接a时,比后接i时更大。不同擦音和性别有显著的交互效应。发音人为男性时,f, s, sh, x的偏度变大,而发音人为女性时,h,的偏度变大。不同擦音和后接元音的偏度分布如图3所示。
Figure 3. The distribution of skewness between different fricatives and the following vowels
图3. 不同擦音和后接元音的偏度分布
d) 峰度
不同擦音的峰度存在显著的主效应。卷舌音sh、齿腭音s的峰度大于唇齿音f、软腭音h、硬腭音x。不同性别的峰度存在显著的主效应。女性的峰度(1.251 Hz)高于男性的峰度(0.748 Hz)。
不同擦音和性别之间有显著的交互效应。发音人为女性时,f, s, x, h的峰度变大,而发音人为男性时,sh的峰度变大。不同擦音和性别的峰度分布如图4所示。
Figure 4. The distribution of kurtosis between different fricatives and gender of speaker
图4. 不同擦音和性别的峰度分布
4.4. 元音F2起始频率
后接元音F2起始频率的统计均值如表5所示。
Table 5. The mean of F2 onset frequency
表5. 后接元音F2起始频率的统计均值
性别 |
擦音 |
后接元音 |
a |
i |
女 |
f |
1351.23 |
1923.77 |
s |
1482.42 |
1730.92 |
sh |
1677.79 |
2034.87 |
x |
2168.90 |
2447.12 |
h |
1036.83 |
1386.23 |
男 |
f |
1099.19 |
1478.17 |
s |
1262.21 |
1698.33 |
sh |
1544.37 |
1934.52 |
x |
1824.69 |
2128.71 |
h |
904.42 |
1298.50 |
不同发音位置的F2存在显著的主效应。硬腭音x的F2起始频率最大,软腭音h最小,剩下三个擦音随着发音部位越往后,其元音F2起始频率也越大。不同性别的峰度具有显著的主效应。女性的F2起始频率(1724.008 Hz)高于男性的F2起始频率(1517.310 Hz)。不同后接元音的F2起始频率存在显著的主效应。后接元音a时的F2起始频率(1435.204 Hz)明显比后接元音i的F2起始频率(1806.115 Hz)更低。
不同擦音和性别之间存在显著的交互效应。发音人为女性时五个擦音的元音F2起始频率更大,而发音人为男性时,五个擦音的元音F2起始频率更小。不同擦音和后接元音之间具有显著的交互效应,如图5所示。五个擦音后接i和后接a时的元音F2起始频率之间均具有显著差异。
Figure 5. The distribution of F2 onset frequency between different fricatives and the following vowels
图5. 擦音后接不同元音的F2起始频率
5. 判别分析结果
通过SPSS进行判别分析,最终结果显示,8个声学参数对邯郸邯山方言中的5个擦音的辨别率为92.0%。其中,辨别率最高的是软腭音h,辨别率高达百分之百。辨别率最低的是齿腭音s (81.8%)。其中有17.7%会误判为唇齿音f,0.5%误判为硬腭音x。
8个声学参数对性别的辨别率为66.3%,两者的辨别率近似,对女性的辨别率为66.0%,对男性的为66.7%。
8个声学参数对后接元音a和i的辨别率为67.1%,两者比较下其辨别率相差不多,其中对后接元音a的辨别率为67.7%,对后接元音i的辨别率为66.4%。
6. 总结
本文主要验证了邯郸邯山方言中5个擦音的8个声学参数与性别及后接元音之间的对应关系。根据以上统计结果,我们可以得出以下结论。第一,不同发音位置对8个声学参数均有显著的主效应,且8个声学参数可以完全区分五个不同的擦音。第二,8个声学参数均可区分发音人的性别。第三,除了分散度、峰度和谱顶点,其余5个声学参数均可以区分后接元音i和a。后接元音a时,元音F2起始频率更低,而且摩擦段时长更短、振幅更小,同时偏度更小,谱重心更高。
总的来说,相对时长、后接元音F2的起始频率、相对振幅等8个声学参数均可有效地区分邯郸邯山方言中的5个擦音、发音人的性别,以及两种后接元音。