1. 引言
分类反映了人们的目标与环境中信息的相互作用,人们可以学习一些极其复杂的分类规则,从而进行快速准确的分类,这是一项基础的认知能力(Ashby, Alfonso-Reese, Turken, & Waldron, 1998; Ahn & Medin, 1992; Smith et al., 2012)。语音类别学习作为听觉通道的分类学习,就是将多维度的、具有高度变化性的声音线索解析成离散的语音表征,映射到感知空间(Holt & Lotto, 2010; Chandrasekaran, Koslov, & Maddox, 2014)。语音类别学习是一种特定类型的分类,同时存在于人类与动物身上(Smith, Beran, Crossley, & Boomer, 2010)。母亲通过语音分类,迅速识别婴儿的啼哭声或笑声以给予适当反应。鲸鱼听觉灵敏,通过识别回声类型以寻找食物、联系同伴或逃避敌害。快速准确的分类决定了我们组织感官世界的效率(Chandrasekaran, Yi, & Maddox, 2014),具有特殊的生存意义。相比类别学习其他领域,语音类别学习因其学习过程中所接受的语音信号这一刺激的复杂易变性使得语音学习成为一个“困难”的分类问题,尤其是对于已有丰富的语言经验的成年人(Chandrasekaran, Koslov, & Maddox, 2014)。基于语音特征的模型认为,语音类别学习存在跨语言差异,即对声音信息各维度,如音高、音调所占语音权重的评定存在跨语言差异,不同语言中,对语音信号进行识别与判断时,对语音特征的侧重点不同(Chandrasekaran, Yi, Smayda, & Maddox, 2016)。在学习非母语语音类别时,成年人的挑战很大,婴儿因其注意力和工作记忆网络不成熟,相比成人,较少受过往语言经验影响,往往更易习得语音类别(Chandrasekaran, Yi, & Maddox, 2014)。婴儿对母语和非母语语音类别都极其敏感。6个月的儿童已有对语音刺激进行分类感知的证据(Roark & Holt, 2019),6到12个月之间,随着更多地暴露在母语环境中,这种明敏感性发生了变化,婴儿开始只对母语语音类别差异敏感(Galle & McMurray, 2014),在生命的第一年,母语环境已经开始塑造着我们如何感知语音(Lim & Holt, 2011)。
行为和神经科学领域的研究发现,语音类别学习是基于双加工学习系统(Dual-learning System)的一种类别学习(Chandrasekaran, Koslov, & Maddox, 2014; Chandrasekaran, Yi, & Maddox, 2014; Chandrasekaran, Yi, Smayda, & Maddox, 2016; Maddox & Chandrasekaran, 2014)。双加工学习系统理论早期用于解释视觉领域的类别学习,近来的研究将该理论模型扩展到听觉领域中的类别学习(Chandrasekaran, Yi, & Maddox, 2014; Chandrasekaran, Yi, Smayda, & Maddox, 2016; Roark & Holt, 2018)。这一理论认为语音类别学习是由两个独立但又部分重叠的学习系统来调节的:外显的反应学习系统(reflective learning system)和内隐的反射学习系统(reflexive learning system)。两个系统之间在学习过程中相互竞争:一方面,反应学习系统,也称基于规则的学习系统,需要使用工作记忆和注意功能,用于生成、选择规则,以及在规则之间切换,该系统在处理过程中依赖于有意识的注意,能够依靠言语明确表达,主要涉及背外侧前额叶皮层、前扣带回和前尾状核。另一方面,反射学习系统,也称信息整合的学习系统,是基于任务过程、无意识的、难以用言语表达的,通过将感知与反馈形成的强化行为联系起来进行运作的。在这一过程中,纹状体将抽象的皮质运动反应与感觉关联皮层中的感觉细胞联系起来,因此学习发生在皮质–纹状体突触(Chandrasekaran, Koslov, & Maddox, 2014; Chandrasekaran, Yi, & Maddox, 2014; Chandrasekaran, Yi, Smayda, & Maddox, 2016; Maddox, Chandrasekaran, Smayda, & Yi, 2013)。一些学者将视觉领域与听觉领域的双加工学习系统进行了比较,将存在于视觉通道的双加工学习系统拓展到了听觉通道。实验中,刺激材料为持续时间和频率不同的音调,分为短低频音调、短高频音调、长低频音调、长高频音调四类结构,实验过程中类别结构在两个感觉通道中保持不变。结果发现在视觉和听觉任务中的双加工学习系统表现出相似的学习情况,这表明视觉与听觉两个感觉通道存在类似的双加工机制(Chandrasekaran, Koslov, & Maddox, 2014)。同时,也有研究发现,语音类别学习主要是通过双加工系统中的反射系统优化学习的,针对反射性学习系统的训练会提高学习效果(Chandrasekaran, Yi, & Maddox, 2014)。有关神经影像学的研究也表明,反射学习系统中的皮质纹状体在语音类别学习过程中起着至关重要的作用(Yi, Maddox, Mumford, & Chandrasekaran, 2016)。总的来说,对语音信号进行的识别、判断和归类是一项基础且复杂的过程。
2. 语音类别学习研究的分类
2.1. 语调类别
对语音类别学习的研究中,对语调类别学习的研究是受到广泛重视的研究领域之一,而普通话是语调语言中极具代表性的一种类别(Maddox, Chandrasekaran, Smayda, & Yi, 2013; Yi, Maddox, Mumford, & Chandrasekaran, 2016)。普通话是使用最广泛的声调语言,对于以英语为母语的个体而言,学习普通话声调分类极其困难。这是由于以普通话为母语的人更强调语调方向而非语音高低程度,而英语语言中对语调的方向强调较少。普通话发音包含了四种语言音调,阴平、阳平、上声与去声,其特点是在发声过程中基本频率(Fundamental frequency, F0)的变化规律不同,音调1具有平坦的基本频率,音调2具有上升的基本频率,音调3具有下降上升的基本频率,音调4具有下降的基本频率模式。音调不同,表达的含义也不同,例如“/ma/”,升调的意思是“妈妈”,而降调的意思是“责骂”(Chandrasekaran, Yi, Smayda, & Maddox, 2016)。此外,普通话包括两种与声调相关的基本音高目标:声音高度(低和高)和声音方向(上升和下降)。根据音高目标,可将四种音调大致分为两组,一组为音调1 (具有高音目标)、音调2 (具有由低到高的升调目标)和音调4 (有一个从高到低的降调目标),皆具有高音点;另一组音调3的目标音调较低,缺乏高音点。普通话语调感知的主要线索来源于基本频率轮廓的形状和高度,次要线索是基本频率的强度和持续时间。儿童语调习得过程漫长,F0轮廓的复杂性影响着儿童语调的准确性,例如音调3对儿童来说发音更困难(Puisan & Winifred, 2017)。而对成人来说,对音调类别之间的感知差别受已有语言经验的影响。目前研究中,由于对个体过去的语言体验经历难以控制和操纵,因此,跨语言的类别学习可以作为揭示语音学习机制的有效工具,这也是西方学者热衷于选择普通话语调作为实验材料的原因所在。
2.2. 音节类别
对音节类别的研究,是受到研究者广泛关注的另一个研究领域。在语音感知过程中,由于对语音的感知与识别过程通常不止是包含用清晰的声音线索来区分声音信号,语音感知背景还包括混杂的声音信号,所以听者如何将语音信号分割成不同的有特定含义的语音信息单位,包括单词、音节。研究表明,听者会使用多种不同类型的线索来完成这一过程,包括利用语音细节、策略、切分线索(如时间、语法和语义)等(Baese-Berk, Dilley, Henry, Vinke, & Banzina, 2019)。语音感知研究领域的大部分研究一直专注于在某项特定语言中的变化最小的语音单位,以此来考察从声学语音信号映射到音素、音节等的变化过程,如 /r/ 和 /l/在rake和lake中(Holt & Lotto, 2010)。相同的信号可以被分类为不同的语音类别,这取决于它们所出现的背景中其他信号的特征。在大部分研究中,音节的相似性常用于研究音节类别(Clarke-Davidson, Luce, & Sawusch, 2008)。例如,音节/s/和/∫/的声学特性因说话者而异,而且在不同的说话者之间,音节/s/和/∫/之间噪声的平均频率有很大的重叠。研究发现发音者的语速会影响听话者如何感知和切分词汇信息,即无论单词多少,语速都会影响对音节数目的感知(Baese-Berk, Dilley, Henry, Vinke, & Banzina, 2019)。流畅的语言需要快速发音,但舌头在发音时会受到语境的影响,语境中舌头所处的先前的发音位置和未来将要发音的位置会影响当下的发音声学效果,这种与上下文相关的发音被称为协同发音。例如,在英语语境中对于da和ga的分类识别,如果上文中有以/al/结尾的单词(如fall),听众更容易将接下来的尚未确定的音节感知为ga;如果上文中有以/ar/结尾的单词(如far),听众更多的会将接下来的音节感知为da。因此,听者对音节的感知也是受语境中这些声调序列的影响,音节感知带有语境敏感性(Holt & Lotto, 2008)。
3. 语音类别学习的影响因素
3.1. 实验任务特征的影响
3.1.1. 语音材料
第一,母语与非母语语音材料。母语的初始分类方式会影响第二语言的语音类别能力。学习非母语的过程中,由于母语语音类别和第二语言语音类别两者在声学范畴类有许多相似性,会产生母语的语音类别同化作用(Wu, Munro, & Wang, 2014)。除此之外,母语语音学习的经历也会影响到被试对非母语语音类别学习的效果。例如,对母语为英语与母语为日语的被试,在区分/r/与/l/音节的研究中,尽管日语语言者能够提高分类水平,但是需要数十年的时间才能够达到与母语英语语言者相似的水平,并且学习效果也存在个体差异。在对母语为日语与英语被试的这项对照研究中,对所有被试进行了前后测,并对实验组进行了视频训练,训练中视频呈现视觉刺激及指令。前后测分类任务中,受试者需对呈现的音节⁄ra⁄, ⁄la⁄, ⁄da⁄, ⁄ga⁄进行判断,同时实验不会反馈受试者的回答正确与否。研究结果发现,日语语言者对音节/r/与/l/分类的准确性显著低于英语语言者,但两组对于⁄da⁄和⁄ga⁄的判断准确性水平相似,究其原因,在英语与日语两种语言者中,对⁄da⁄和⁄ga⁄的分类是相似的,而/r/与/l/音节不存在这一相似性。这一结果在某种程度上表明,在感知非母语语音时受到母语语音类别的持续影响(Feng, Gan, Wang, Wong, & Chandrasekaran, 2018)。第二,材料的相似性。语音材料的相似性会对被试的语音分类结果产生影响。在一项词汇类别决策任务中,给被试呈现/s/和/∫/两类会引起歧义的材料。在/s/和/∫/两类刺激材料中,20个英文单词中/s/和20个英文单词中的/∫/的发音被模糊的声音代替。词汇决策任务之后,分别给被试进行一个语音分类测试和一个语音辨别测试。在语音分类测试中,受试者对连续呈现的/asi/和/a∫i/进行分类;在语音辨别测试中,受试者对连续呈现的/asi/和/a∫i/进行两种类别的相互配对。研究结果表明,模糊的声音影响了被试的分类反应与能力(Clarke-Davidson, Luce, & Sawusch, 2008),材料的相似性会对被试的语言分类结果有不同影响。
3.1.2. 反馈方式
第一,延时反馈与及时反馈。尽管学习类别的方式多种多样,但大部分对类别研究的焦点都集中于这一程序,即呈现刺激,观察者做出反应,并得到判断是否正确的反馈,反馈会促进类别学习的效率(Janse, 2012)。在语音类别学习实验过程中,被试对语调类别进行分类判断后,是否给予反馈,以及反馈的时间差异对其结果皆有影响。根据双加工系统理论,即时反馈是多巴胺介导的反射学习系统的关键,但不是反应学习系统的关键。因此,即使只延迟一秒钟反馈也会干扰多巴胺介导的反射性学习系统的信号,从而使控制传递到反应学习系统。即及时反馈对反射学习系统有重要影响,但对反应学习系统并非如此。另一方面,延迟反馈对外显的反应学习系统中被试所采取的学习策略没有明显影响,但对于内隐的反射学习系统中被试所采取的策略有影响,被试会选择与及时反馈条件下不同的学习策略,在反射学习系统中,延迟反馈会导致相对于即时反馈情况的反应准确性显著下降(Tremblay, Deschamps, Baroni, & Hasson, 2016)。即延迟反馈会影响反射学习系统但不会影响反应学习系统,这是因为反射学习系统依赖于多巴胺介导的刺激反应这一内隐过程,而延迟反馈会干扰多巴胺的释放,降低刺激反应与奖励之间联系的有效性(Chandrasekaran, Yi, & Maddox, 2014)。第二,简单反馈与复杂反馈。反馈在多种学习形式中有着重要作用(Freedberg, Glass, Filoteo, Hazeltine, & Maddox, 2017),反馈类型是影响语音类别学习的重要因素之一。简单反馈即在参与者对刺激做出判断后,给予正确与否的反馈。复杂反馈在简单反馈的基础上,会告知参与者目标刺激的所属类别。一项反馈类型对语音类别学习效果的研究发现,相比复杂反馈,简单反馈会提升语音类别学习水平,因为复杂反馈不仅提供了关于的结果的正确性信息,同时也提供了正确类别的从属背景信息,因此对这一判断结果的解释阻止了从反应系统转移到反射系统的加工(Freedberg, Glass, Filoteo, Hazeltine, & Maddox, 2017)。
3.2. 实验群体特征的影响
3.2.1. 婴幼儿
语音线索分配。数十年来,婴儿辨别语音的能力是语言习得中的一个重要研究领域(Galle & McMurray, 2014)。在早期研究中,研究者发现,年幼的婴儿不仅能区分母语语音差异,也能区分非母语语音差异。在出生后第一年,知觉敏感性会发生变化,婴儿对母语中不常使用的语言的敏感性降低,对存在语音差异的语言敏感性增强(Roark & Holt, 2019)。此外,对语音线索分配的学习可能是母语中语音类别之间切换的一种基础机制,它使得婴儿能够在出生后的第一年,也就是词汇习得之前,对语音类别进行重组。有研究者对12个月大的婴儿及其母亲进行研究,受试者同时包含日本母语者与英语母语者。在配对呈现的无意义单词中,母亲元音音节的发音时长、发音音色不同,即输入的语音特征是不同的,不同语言的母亲对向婴儿输入的语音线索重点不同。母语为日语的母亲在对配对的元音进行区分时,着力于发音时长上,对于母语为英语的母亲来说,在区分元音时,着力于区分元音音色,如声音高低、语速上。结果发现输入的语音信息中存在的不同语音分配线索是高度可变的,这会潜在的影响婴儿的语音类别学习过程(Werker et al., 2007)。
社会信息线索。婴儿可在与其抚养者的互动过程中学习语言,因为面对面的互动会提供大量信息。一方面,婴儿不仅接受着语言信息,还接收着与特定声音产生相关的面部表情与肢体动作的视觉输入;另一方面,抚养者还会传递额外的社会信息,去捕捉儿童的注意力以促进对语言的学习(Kuhl, 2007)。抚养者与婴儿的互动过程中母亲的语音回应与模仿行为能促进婴儿对语音类别的学习。Elsabbagh等将类似的推理方法应用于婴儿的言语感知,研究了母亲的语言回应是否会影响婴儿的感知重组,结果表明,母亲对6个月大的婴儿的行为表现出更多的语言回应,婴儿会表现出对非母语语言的敏感性降低,而对同样年龄的婴儿,如果母亲更少表现语言回应,婴儿仍然会表现出对非母语的声音的区分。这表明,语言回应帮助婴儿忽略了不相关的声音线索,使得婴儿专注于母语中重要的声音差异母亲的(Elsabbagh et al., 2013)。模仿行为也能促进婴儿的语言学习。母亲对婴儿的模仿也是一种回应,能及时反映婴儿的行为。当婴儿被模仿时,她/他会得到一个镜像反应。在被模仿过程中,婴儿听觉声音和视觉手势结合,会促进自身发音、视觉和听觉特征之间的联系,有助于建立感觉运动联系和建立多感觉通道语音类别(Altvater-Mackensen & Grossmann, 2015)。
3.2.2. 儿童青少年
个体在儿童至青少年期,语音分类的能力持续发展(Bob, Ani, Hannah, & Michael, 2018),但发展平稳缓慢,没有婴儿期那般发展迅猛。语音类别学习能力的发展贯穿整个儿童时期,大约12岁后,能力才达到类似成人的水平,此后,青少年对语音信号中同一类别的敏感性增加,能更准确的区分属于同一类别的语音信号(Roark & Holt, 2019)。虽然整个儿童时期,语音类别学习这一能力都在不断发展,但对发展过程背后的学习机制仍知之甚少,原因可能是难以对儿童以往的语言经历进行控制和操纵。一些关于第二语言语音类别习得研究的学者提出语音分类的发展有关键期这一假说,即成年人感知和输出外语语音的能力往往不如儿童,而青春期时个体语言学习能力相比儿童期有所减弱,这就阐释了学习者的年龄和成功习得第二语言之间的具体关系(Tuomainen, Stuart, & van der Lely, 2015)。过往研究探讨了第二语言习得的年龄差异,实验中分别对8到10岁的儿童和12到15岁的青少年及成人进行为期10个月的对照研究,考察母语为英语的个体对荷兰语的自然习得,最后对学习者的熟练程度进行测量。在大多数的发音、词法和句法测试中,成人一开始的表现要优于儿童和青少年。然而,在10个月结束时,成人和儿童、青少年之间的差异很小,并且随着时间的推移,儿童和青少年表现出了很大进步。就学习速度而言,成人学习者具有初步优势,但儿童与青少年更有可能达到更高的成就水平,最终超越成年人(Aditi & Sandra, 2017)。
3.2.3. 成年人
外部指示。对成人来说,对非母语语言语音类别的学习是带有挑战性与困难的,但语音训练可以帮助成人更好的学习非母语语言语音类别(Liu & Holt, 2015)。成人对非母语语言语音类别学习的过程主要为注意力的重组,即集中注意力到以前无人关注或无关紧要的维度(Kondaurova & Francis, 2010)。外部指示是否能够帮助成年人学习非母语语言中的语音类别存在争论。有研究表明,在没有向学习者提供明确指示的情况下,被试依然能够对新的听觉维度的语音类别进行学习(Lim & Holt, 2011)。Chandrasekaran等检验了外部声学维度的指示对本土英语语言者学习普通话音调类别的影响,研究结果存在与以往结果不一致的地方。在该研究的每一实验试次中,给参与者呈现四种普通话声调类别(T1、T2、T3、T4)中的一个刺激项,并指示被试将刺激归为四个可能的某一类别中。控制条件下,不给予参与者额外指示,实验条件下,在参与者开始任务前操纵屏幕上的说明,提示他们应注意即将呈现的刺激项上的某些特征,包括注意音调的高低和方向,即注意声音的高低或声音的升降。研究发现,相对于控制条件和对于音调高低的外部指示的语音类别学习结果,通过外部指示将学习者的注意力集中在音调方向上的语音判断训练能够增强对语音类别的学习,因为明确的外部指导使得受试者将注意力以集中在某一维度,这影响了决策过程。音高方向维度是成功进行语音分类的关键和相关,这一维度更少受到说话者的个体差异影响。相反,音调高低更易受到发音个体差异的影响,相比于男性发音者,女性音调往往更高,从而使得刺激项目本身的性质会影响被试的判断与决策,而这种个体差异对音调方向维度的影响较小(Chandrasekaran, Yi, Smayda, & Maddox, 2016)。
原有经验。婴儿的语言感知很快就会适应母语的规律,而有相同语言背景的成人,在学习非母语语言类别过程中表现出困难与个体差异(Chandrasekaran, Yi, & Maddox, 2014)。成人已精通于对母语语音类别的区分,然而对于母语语音分类的专业化会有其附带结果,即成人在感知非母语语音类别时,会受到母语语音类别的强烈而持久的影响。例如,与非日语语言者相比,母语为日语语言者的个体在区分英语⁄r ⁄与⁄l ⁄音节时是更加困难的,因为以往对单一的日语语音类别的学习占据了在学习第二语言时相似的感知空间,这种已有的经验被认为会影响第二语言中的语音分类学习效果(Baese-Berk, Dilley, Henry, Vinke, & Banzina, 2019)。总之,成年人学习第二语言中的主要困难在于学习者倾向于关注与母语相关的声学维度,而较少关注与第二语言相关的声学维度,已有的语言经验增添了成人在已习得的语言模式上再学习新语言中语音类别的难度(Maddox, Chandrasekaran, Smayda, & Yi, 2013)。
3.2.4. 老年人
认知与生理因素。老年人的听觉领域语音类别学习更容易受到生理因素的影响。相比年轻人,老年人更易受语速的影响,他们很难在语速过快时理解他人的讲话内容,难以在对话中轻松的跟上谈话节奏,因为信息流动的速度接近或超过了语言理解所涉及的认知过程所能容纳的最大速度。也就是说,老年人成功的学习语音,更依赖于他们的工作记忆容量,而在青年人身上并未发现这种关系(Ingvalson, Nowicki, Zong, & Wong, 2017)。除此之外,老年人在学习语音类别的能力上存在缺陷,他们不能将语音信号归类到几个语音类别中的一类,而类别学习能力是成功对非母语语音感知所必需的能力。研究发现这是由随着年龄的增长,个体陈述性记忆下降的缘故,老年人学习非母语语音类别与其陈述性记忆能力是相关的(Ingvalson, Nowicki, Zong, & Wong, 2017)。此外,即使是听觉敏锐程度与青年人相当的年长者,在嘈杂的环境中理解语言也有更大的困难。这可能和与年龄相关的认知能力下降有关,老年人注意力资源减少,注意力的集中和保持能力下降,这对语音理解尤其不利(Tremblay, Deschamps, Baroni, & Hasson, 2016)。Tyler等研究了听觉领域语音学习在正常老龄化中的发展过程,结果发现反应学习系统与年龄的变化有重要的关系,年轻人会更多使用反应学习系统,并且与老年人相比,年轻人这一学习系统的加工速度更快,随着年龄增长,老年人的这一学习系统出现衰退。然而,也有研究结果发现,两个年龄群体在反射学习系统上的学习速度或效果上没有显著差异,这可能反映了这两个感觉区域的神经生物学差异。由此可以推测,随着年龄的增长,生理因素对语音类别学习的结果存在影响,但仍需要一步的研究来确定这一差异的原因(Pelzl, Lau, Guo, & DeKeyser, 2019; Davis, Love, & Preston, 2012a; Davis, Love, & Preston, 2012b)。由内侧颞叶(MTL)和前额叶皮层(PFC)组成的回路被认为是形成新的类别表征的神经回路,内侧颞叶被认为是类别表征形成和存储的主要场所,前额叶皮层在指导形成新的类别表征中起主要作用。随着年龄的增长,内侧颞叶和前额叶皮层在正常老化过程中体积都有所下降。因此,依赖于内侧颞叶和前额叶皮层神经回路的类别形成与表征这一认知功能,在正常衰老过程中会受到其负面的影响,导致老年人在学习分类问题时形成新的类别表征的能力改变、衰退甚至消失。
4. 神经机制
语音类别学习所涉及的大脑区域。语言类别学习首先建立在语音感知基础上,而语音感知过程中,需要从连续的语音信号中提取关键的声学特征,而任务特征、说话者特征、声音信号的易变性等都是影响与语音类别相关的神经活动的重要因素(Arsenault & Buchsbaum, 2016)。因此,识别语音类别较困难。同时,因其学习过程中对语音刺激的识别主要依赖于时间编码(Bouton et al., 2018),也就是说,需要对传递的声音刺激进行时间上先后顺序的感知判断,这样所涉及的神经机制就更加复杂。由于语音类别学习任务本身的特殊性与易变性,以往研究对语音类别的神经机制的结果尚未统一,但不可否认的是“听”这一活动能引起大脑颞叶和额叶皮层的活动(Bouton et al., 2018)。先前使用功能性磁共振成像(fMRI)揭示了人类颞上回是学习母语语音类别的神经表征。具体来说,研究普遍认为,对语音类别的连续感知过程是一个包含中央前回和颞上回,缘上回的区域网络(Liebenthal et al., 2010; Myers, Blumstein, Walsh, & Eliassen, 2009)。无论任务特征、说话者易变性和语音信号质量如何,这一广泛分布的神经网络都能进行语音加工。最近一项研究通过对普通话语调进行数百次的分类训练发现,听觉皮质纹状体回路促进了语音类别神经表征的出现,并会调节分类行为,阐明了语音习得的基本神经机制(Feng, Yi, & Chandrasekaran, 2019)。
语音类别加工过程中脑区域的分工。在语音类别任务中,已有研究发现了颞叶和额叶区域的分工。左侧颞上回对语音信号的声学细节与语音类别之间的差异表现出敏感性,并对同一语音类别和类别之间的声学变化会做出反应(Myers, Blumstein, Walsh, & Eliassen, 2009; Myers, 2007)已有研究证实了双侧颞上回的活动有助于语音类别表征,并对参与者是否在同一组刺激下执行语音识别任务很敏感。而不同的任务环境可能会触发不同的认知过程和加工策略,会扭曲特定信息的神经表征。相比之下,额叶区域表现出了一种激活模式,这一区域在识别语音类别的声学细节中发挥着重要作用,而对语音信号优先反应的左侧额下回可能会参与有竞争关系的语音类别任务(Myers, 2007; Binder, Liebenthal, Possing, Medler, & Ward, 2004)以上结果都证实了这一结论,即语音信号的声学-语音细节是在左侧颞上回中处理的,语音分类过程发生在左侧额下回和中央前回(Myers & Swan, 2012)。调类别和音节类别的神经表征存在差异,语调类别信息的神经表征定位于右侧颞上回、左前颞上回和左侧顶下小叶,音节识别的神经表征位于双侧颞上回,这些结果揭示了一个功能特定性的和领域特殊性的大脑网络,而这些大脑网络则是形成语音类别表征的基础。已有对语音类别学习过程的研究关注了语音类别知觉过程中与大脑的反应相关的变化,研究更多的不是将不同物理刺激引起的大脑反应进行比较,而是将进行语音分类时和与未进行语音分类时的大脑反应进行比较(Kronrod, Coppess, & Feldman, 2016)一项利用ERP和EEG设备的研究发现了在对一系列重复的语音刺激做出反应时,语音类别的感知发生在语音刺激有了变化和差异之后,而不是在语音差异不存在或语音差异对比较弱时(Dehaene-Lambertz, 1997)之后的一项fMRI实验中,参与者在进行语音分类任务时,左侧颞叶前区和后区对语音停顿的变化反应更强(Chevillet, Jiang, Rauschecker, & Riesenhuber, 2013),这表明语音类别学习中,不同脑区域存在对声学细节的选择性反应。
5. 未来研究展望
分类可以使得人们对周围的世界进行快速有效的解释,这种简化信息的处理能力,适用于包含语言和非语言在内的各种类型的信息输入。语音类别学习是人类重要的认知能力之一,是当前类别学习的研究前沿。本研究对语音类别学习的分类、影响因素和神经机制进行了初步探讨。语音类别学习领域的研究虽然已取得了长足的进步,但依然存在诸多研究不足,未来研究仍有许多亟待解决的重要问题。
第一,需对语音类别学习的材料进行丰富和标准化。一方面,需对语调类别学习材料进行丰富化。语调存在于多种语言环境中,是语音系统的重要组成部分。在普通话语言环境中,一岁大的婴儿便对不同的语调类别十分敏感。在英语语言环境中,两岁的幼儿在学习语言的过程中,随着词汇量的不断增长,声调在词汇发展中更具组织性,蹒跚学步的孩子不能区分相似的声调,却能成功地区分具有对比性特点的音调(Rushen, Jun, André, & Aijun, 2017; Hay, Estes, Wang, & Saffran, 2015)。回顾已有研究,对于语调类别的研究,更多都是以普通话为研究材料,让被试直接去区分普通话语调,或是观察被试经过训练后学习的效果。但仅以普通话作为研究材料较为单一,未来研究可进一步采用具有声调特点的其他语言作为实验材料,增加研究材料的丰富性。此外,还需对音节类别学习的材料进行标准化。已有研究对于音节类别的定义不够清晰,音节类别材料的使用一致性还较低,不同的研究往往会选用不同的音节,难以做到对材料选择的标准化。例如对母语为日语的对象,由于受母语语音结构的影响,单独的日语语音类别会占据识别英语语音类别时类似的感知空间,所以在感知外语语音时,会受到母语语音类别的持续影响,他们在区分英语⁄r⁄和⁄l⁄、da⁄和⁄ga⁄音节时会有很大困难(Lim & Holt, 2011)。对于音节类别的研究十分广泛,但可以发现,对音节类别学习的研究材料也是多种多样的,实验目的不同其材料内容也不尽相同。那么在未来的研究过程中,是否可以对有同一研究目的,分属同一研究领域的音节类别材料内容再进行深入划分,使得研究材料更加标准化,可重复性更强呢?
第二,可对如何提高语音类别学习效果的方式进行优化。已有研究对影响语音类别学习效果的反馈方式、影响语音学习训练方式中的外部指示进行了探讨。一方面,研究发现了反馈时间、反馈程度会影响被试对语音类别学习的效果。反馈在许多形式的学习中都扮演着重要的角色,因此反馈如何优化学习结果也受到研究者的关注(Liebenthal et al., 2010)。在语音类别学习中,反馈通过减少错误反应从而提高学习效果。通过反馈,学习者会重新将注意力集中在与区分语音类别相关的线索上,或减少对不相关线索的注意(Chandrasekaran, Yi, Smayda, & Maddox, 2016)。近来,研究者扩展了对反馈方式的研究,反馈性质会影响个体基于信息整合类别学习的效果。积极反馈和消极反馈在强度上是相等的强化条件,但对行为的影响却不等同。Freedberg等的研究表明,反馈在任务中起到了关键作用,消极反馈比积极反馈更能促进学习效果,而接受两种反馈的被试与积极反馈、消极反馈组并无明显差异(Freedberg, Glass, Filoteo, Hazeltine, & Maddox, 2017)。这证明了在信息整合类别学习中,消极反馈比积极反馈具有明显的优势。另一方面,在对语音类别学习进行训练的过程中,外部指示的内容会影响个体的学习效果。经过分类训练,被试可以学会在学习声调语言语音类别时,增加对音高方向的注意力(Chandrasekaran, Sampath, & Wong, 2010)。由于外部指示在非母语语音学习中的作用尚不明确,Chandrasekaran等对之前未接触过普通话的成人英语母语者进行了实验,考察声学维度的外部指示对普通话语调分类的影响。外部指示包括对声音高度和声音方向两个维度,这些维度对于辨别语调非常重要。结果发现,指令中,给予被试注意声音高度的提示,他们在任务中的表现明显优于其他组别。这表明将注意力集中在声音高低维度上的指令能够增强语音分类学习,声音高低是成功进行语音分类的一个关键维度(Chandrasekaran, Yi, Smayda, & Maddox, 2016)。目前,对语音类别学习的探究从对其基本机制的探讨延伸到如何优化语音类别学习效果。反馈方式和外部指示都具有可操作、可控制性。因此,可继续加以探究从而实现语音类别学习效果的优化。以往的研究从时间方面探讨了及时、延时反馈的作用,从程度方面探讨了简单、复杂反馈的作用,新近研究则从性质方面探讨了积极、消极反馈的作用。未来研究可进一步研究其他更多的反馈方式,从而更好地指导个体对声调语言的学习。而外部指示作为一种语音分类训练方式,可提升学习语音类别的效率。在目前研究中,外部指示的内容仅考察了对呈现的声音高低及方向维度的偏向性注意,未来研究可以扩展外部指示的内容。此外,除了外部指示,还可探索其他训练语音分类的方式,以帮助人们更好地学习声调语言。
第三,对神经机制的探索有待深入。语音类别学习的研究是基于视觉类别学习领域的研究而拓展出来的(邢强,刘凯,2018),对其理论的解释也是建立在视觉类别学习的理论框架之上而提出的双加工学习理论。当前关于语音类别学习的认知神经机制研究仍然较少,对其神经机制的解释尚未统一。一般认为,反应学习系统,也称之为基于规则的学习系统,通过利用工作记忆和执行注意力,依赖于一个主要涉及背外侧前额叶皮层(DLPFC)、尾状核、前扣带皮层和海马体的执行皮质纹状体回路。这些大脑区域负责生成、选择和维护可用言语表达的规则,是受意识控制的。相反,反射学习系统,也被称为基于过程的学习系统,是不受意识控制的、难以用语言表达,通过把感知与导致即时奖励的行为联接起来运作。在反射性学习系统中,纹状体中的一个中等大小的刺状神经元将运动反应与一组感觉细胞联接起来,学习发生在皮质-纹状体突触内。语音环路中反应学习系统已被广泛研究,然而对反射学习系统作用的研究较少,研究发现最佳的语音类别学习需要切换到反射学习系统,成功的语音分类学习在很大程度上依赖于皮质纹状体学习系统,在整个学习过程中,反射学习系统的使用与更好的分类学习表现相关(Yi, Maddox, Mumford, & Chandrasekaran, 2016)。基于双加工学习系统的语音类别学习过程,涉及的大脑区域经历了不同的发展模式。以纹状体为中介的内隐反射学习系统比外显反应学习系统成熟得早,而尾状核在个体发育的早期年龄阶段,7岁时就已完全成熟,类似成人水平了(Roark & Holt, 2019)。但是,语音类别学习加工过程中,所涉及的相关大脑区域的发展和语音学习行为变化之间存在何种关系(Knowland, Mercure, Karmiloff-Smith, Dick, & Thomas, 2014),大脑区域是如何分工的,以及个体差异所涉及的神经机制差异则需要通过进一步的电生理探索和更敏感的行为方法来探索和解决。以此也可以来阐明双加工学习系统中,反应学习系统和反射学习系统的差异性。同时,研究还可以深入了解视觉线索和语言线索的不同潜在用途,以及它们如何分别或共同对语音类别学习产生影响。
NOTES
*通讯作者。