1. 引言
《以高等教育院校录取为目的的学术英语测评》后简称为《测评》(英文标题:Assessing Academic English for Higher Education Admissions) [1],是一本关于高校录取情境中与学术英语测评相关的理论和实践的综述刊物。该书一共分为六章,开篇和结尾两章分别起到了介绍铺垫和总结展望的作用,其精华内容见于中间四章节。这四个章节分别囊括了英文“听、说、读、写”四项语言技能在理论与实践领域的重要发展,其中“说”和“写”两章更是由单独能力测评延展至综合能力测评,讨论了读–写、听–说以及读–听–说等语言能力的测评理论与实践。该书篇幅较长,英文原著有230余页,但是其主体章节的框架和脉络清晰,比较方便读者阅读和理解:每章节首先会通过多种历史角度和模型理论对某一项语言技能(如听说读写)的能力(construct)定义进行阐释;之后会以目前国际上主流的三种大规模高风险标准化英语语言能力考试为示例,论述在高等教育环境下的学术英语在实践中是如何被测评的;最后,本书编者们在章节结尾还会展望未来,提出一些自己所认为理想中的语言能力测评所应该考虑或包含的模型和因素。
笔者认为,此书比较适合以下两类人群阅读。首先,此书应该会对高等教育环境下英语测评考试的研发者或者相关从业人员大有裨益。无论是对现有的主流高风险英语考试进行修缮升级,还是另起炉灶重新搭建一个学术英语测评产品,这本书都可以成为一个很好的索引。测评研发者可以通过不同章节快速地了解或温习语言测评史中的能力模型,并且参考这些理论模型在已有的实际应用中(例如TOEFL iBT,IELTS和PTE Academic)的利弊分析,最后还可以借鉴书中作者对未来测评理论模型的展望和建议,将书中的理论应用于实操当中。而且,本书大量引用了二语习得和语言测评领域的文献专著,所以每章节结尾的参考书目都可以作为优秀的扩展阅读。此外,从事托福雅思等出国留学语言考试培训的教师们也可以从这本书当中获得看待自己所授科目的全新视角:从专业测评角度了解雅思托福等考试是如何定义某项语言能力的?又是如何对其进行评分的?其评分报告又该如何正确地解读?总而言之,这本书详细地拆解了主流英语语言能力考试中所考察的能力模型,可以帮助语培教师们一针见血地了解某类具体题型所需要的语言知识和技能,从而更加科学有效地帮助考生备考,也可以在一定程度上破除对于所谓“规律总结而来的考试技巧”的迷信。最后,本书还适合作为应用语言学专业本硕学生的专业读物,该书既从文献综述的角度概括了学术英语能力测评的理论发展,也结合了最新的测评实践,不失为英语语言学专业教材之外的有益增补。
2. 定义学术英语能力
纵观《测评全书》,能力(construct)这一词在全书高频出现,它基本贯穿了整本书里主要章节的中心脉络和思考论证。
本书第二章讨论学术阅读能力测评时,作者比较了母语阅读(L1 Reading)和第二语言阅读(L2 Reading)在文本理解层面的异同:虽然在“读者能否熟练运用可用于文本理解的语言资源”层面,后者相较于前者有些局限性,例如解码能力(decoding)、单词识别能力(word recognition)和词汇语法水平等,但是两者的底层认知过程是基本一致的,都包括了“goal setting, inferencing, comprehension monitoring, working memory, speed of processing and motivations for reading”。于是,在确定了两者的相似性之后,作者详细阐述了阅读理解能力定义的5个模型和理论,包括将阅读能力看作“解码”和“语言理解”两部分的The Simple View of Reading模型、将“mental model”和“situation model”相结合的The Construction-Integration模型,以及关注于理解过程和记忆表征关系的The Landscape模型等等。不过,作者也提到了,由于阅读理解过程本身的复杂性,目前没有任何一个模型可以覆盖所有与阅读能力相关的潜在因素,或者可以准确地解释“阅读”这一动作是如何运行的。这也从侧面解释了为何会有以上多种模型理论的存在。
同理,作者在第三章谈论学术听力能力测评时,也从大概三个方面讨论了听力能力的定义。第一个方面便是听力理解的认知过程模型,不同学者对于这一过程有不同解释。Rost [2] 认为,对于二语习得来说,听力理解的认知过程可以分为“解码”、“理解”和“解读”三步骤;而Field的心理语言学模型则认为,该过程需要依次经历“输入解码”、“词汇检索”、“句法分析”、“语义建构”和“语篇建构” [3]。第二方面则是从成分模型的角度分析听力能力的组成部分。作者首先引述了Buck [4] 的模型,将听力能力分解为“语言能力”和“策略能力”两部分:指的是与听力有关的语法、语篇、语用和社会语言学知识;策略能力( strategic competence)则细分为认知和元认知两种。而作者引述的另一个模型,同样认为听力能力是由“语言知识”和“策略能力”两部分组成的。不同的是,后者的语言知识在Buck模型中语言能力的基础上,增加了一项“内容知识”,而且Weir [5] 模型中的策略能力并没有细致区分“元认知”和“认知”两类。与之类似,学术口语和写作能力亦有从成分模型角度对能力测评进行定义,例如本书在第六章节着墨的学术口语能力,借助了Bachman和Palmer [6] 的模型对口语交流能力的结构进行了分解:即“组织知识”(包括语法知识与文本知识)和“语用知识”(包括功能性知识与社会语言学知识);而第五章写作部分,则将常见的能力成分切分为三个层面:一是微观层面的选词、拼写、标点符号或者打字;二是创作层面的计划、起草、校对和修改;三是宏观层面的符合体裁要求、连贯地表达观点以及表达对于某个特定话语群体的归属感。至于听力测评的最后一个方面,则是从教学维度来描述听力能力。严格意义上讲,此部分内容并非狭义的定义,而是讲述如何在二语习得教室环境中改进教学方法,例如Flowerdew和Miller [7] 补充的影响听力认知过程的8大维度,以及Miller [8] 提出的二语习得讲座中的听力理解模型。
自上世纪七八十年代起,学者们就开始试图从不同角度定义学术口语能力,例如上文提到过,Bachman和Palmer [6] 等人就用成分模型理论对口语能力进行了分解。但是,随着时间的推移,人们对口语能力的理解角度逐渐发生了变化。Long和Norris [9] 在2000年就尝试了用“task-based approach”的理论来定义口语能力,其理论认为,口语能力必须通过被试者在具体口语试题当中的表现来观察。以当今视角来看,这样的定义角度虽然方便了测评考试,但是对于口语能力的认知不免有些狭隘。此外,在过去的二十多年里还诞生了三种互动主义理论(Interactionist Approach),这三者之间固然有一些差异,例如交流场景中人们使用的语言资源与语用环境的相互作用程度的不同,以及对于语言能力的解读要在多大程度上受到“语言环境”这一参数的影响,但是它们都认为所谓语言能力并不是一项可以被单独个体所拥有的事物,而是通过互动与他人共同建构的,因此很难对某个个体的语言能力作出可靠且稳定的推断,最多只能在限定的语用环境之外对个体能力进行一定程度的宽泛化。而近几年,Purpura [10] 有倡导使用以意义为导向的途径(meaning-oriented approach)来定义口语能力,该理论关注于交流中不同层次意义的传达,认为交流涉及到整合引导语言、认知和命题资源(例如使用专题知识和内容的能力),并在语境中表达不同程次的意思。
由此可见,《测评》一书所传达的一个重要信息就是,英语的能力(construct)这一概念并没有一个放之四海而皆准的定义。不同的时代,不同的学者,通过不同的切入角度,对于听说读写四项能力都有着较为独特的诠释,作者并没有试图将这些理论进行优劣区分,因为每个理论的诞生都有其独特的意义、功能和时代背景,而作者所做的,是将过去几十年的相关研究进行了提炼总结,从而方便读者以一种高效且全面的方式理解construct这一概念所涉及的潜在内容。
3. 不同语境(Context)下学术英语能力的特征
语言能力的测评的一个重要影响因素就是被测语言所处的语境(context)或语域(domain)。此种思考方式受到了所谓的interactionalist approach影响,顾名思义,该理论认为语言能力并不是由个体在一个给定特征下的能力决定的,而是受语言知识技能和给定语境要求的相互作用影响。既然本书的标题将英语测评限定在了学术体裁和高等教育领域之下,那么作者自然会将语境和语域纳入参考体系之中。作者在本书第三章节“学术听力测评”中就已然提出,想要测评在以英文为媒介的高等教育背景之下的听力理解能力,首先要了解这一环境中的学术需求(academic needs)和体裁要求(genre),这一观念在后续的学术写作和口语测评章节中亦有体现。
虽然早期研究认为学术英语听力的主要需求场景是听懂课程以及参加小组讨论,但是之后的需求分析结合了学术口语的体裁要求,认为听力技能应该扩展至参加全班讨论、提出并听懂问题以及参加小组讨论。在这个框架底下,便可以对上文提到的听力能力模型的组成部分进行更详细的阐释。例如上文的Buck [4] 成分模型中有提到语用和社会学知识:所谓语用知识就是要明白言语行为(speechact)或者功能性知识等,而社会学知识(亦可称为社会语用学知识)则能帮助英语学习者识别和使用合适的语言形式。关于听力模型中的语用知识模块,本书作者还引述了多个其他模型,例如Purpura [11] 模型、Roever [12] 模型、Timpe [13] 模型和Hudson [14] 等人的模型,但内容与Buck [4] 模型大同小异,故在此不再赘述。此外,作者对学术讲座的体裁特征也提出了新的理解:它不再是一个信息的单向传输或者讲师的个人独白,而是学生更加积极主动参与的交互型活动。这个新增的互动性听力技巧维度被不同学者安排了多种术语名称,例如主动型听力、交互型听力和合作型听力等,但是其内涵可以一言以蔽之,就是在听懂输入信息之后,给予言语(verbal)或者非言语的(non-verbal)反馈的能力。最后,为了跟进时代的发展趋势,作者还从ELF (English as a Lingual Franca)的角度分析了听力能力的组成部分。由于英语作为一种世界通用语言被越来越多的人使用,其非母语使用者的数量已远远超过了英文母语者的数量,再加上日前高校人群特征的变化,即来自世界各地的国际化教职人员越来越多,在此背景之下,人们对于不同口音的英文发音特征的接受能力也应该有所提高,能否听懂和接受多样化的口音、发音特征或者用词习惯也应该逐渐成为一个重要的能力评价因素。最后,作者还探讨了“视觉辅助输入”,例如一些图像或者视频,是否应该作为一个变量纳入到听力能力的成分模型当中。
与学术听力测评的需求分析类似,本书的第四章节阐述了高等教育环境中常见的学术写作任务类型和文本特征。例如,Nesi和Gardner [15] 在2012~2013年分析了近3000篇英国本硕生的文章,发现写作任务类型可以分为13大类,最常见的类型是论说文(essay),其余的则有个案研究、评论(critique)、设计说明书(design specification)、文献综述、方法论回顾、叙事回顾和实验报告等。Melzer [16] 也以美国的高校课程为样本进行了类似的研究,结果发现需要简答题是最常见的类型,其次是事件日志(logs of events)和与实验研究相关的报告。总体来说,这些写作体裁的篇幅有长有短;有的是在课上完成的,有的需要课后的时间;有的任务对学生的认知水平有更高的要求(例如分析、总结和评估等),有的则相对简单些(例如检索和组织信息)。此外,从文本特征角度来看,上述体裁的一个明显共通点就是对信息的结构式压缩,尤其是在名词短语中大量地插入从句。
至于学术口语能力,关于其语境和语域分析等研究理论则更加多样化。早在1974年,Hymes [17] 就用SPEAKING模型对口语测评的语用环境设定要素进行了总结,即“Setting, Participants, Ends, Act Sequence, Key, Instrumentalities, Norms and Genre”。在此基础上,韩李德等人 [18] 将语境分成了三大维度:“Field”(与语用场景相关的主题、动作和地点),“Tenor”(语境中的参与者)和“Mode”(语境中的传播渠道和体裁类型等)。Young [19] 则将口语的语境看作包含三个维度的框架,这三个维度分别是“Spatiotemporal”(时间的时间和地点),“Social and Cultural”(参与者的社会文化关系等)以及“Historical”(在一个特定的互动中刚刚说了什么或发生了什么,以及与当前互动有联系的过去的词语、事件和活动)。至于学术口语能力的语域分析,其相关研究主要聚焦于语用的细分领域、交流的目标和交流的方法。其中语用的细分领域主要有三类:“Social Language, School Navigational Language and Curriculum Content Language”,而交流的媒方法则包括“Reciprocal”(例如双人或团体对话)和“Non-reciprocal”(例如独白)。
综上,受互动主义理论思潮的影响,在不同语境和语用领域下,看待学术英语能力的方式可能有所不同,因此,了解学术英语能力的语境因素,可以更有效地结合实际需求来理解英语能力的含义,从而为不同语境下的能力测评设计奠定基础。
4. 不同语境下的测评任务设计
本书另外一个有价值的地方在于,作者不仅探讨了不同理论模型中学术能力的定义,还从方法论角度深入阐述了不同定义理论下的能力应该如何被测评,并且结合当前三个主流的大规模标准化英语能力测试(即TOEFL iBT,IELTS和PTE)进行了举例论证,从而为测评实践的发展改进提供了很好的建议和指南。
Kintsch [20] 和Van den Broek等人 [21] 曾分别用Construction-Integration Model和The Landscape Model来解释阅读能力的组成部分。作者以这两个模型对于学术阅读能力的定义为前提,提出了一个阅读能力测试的设计模型(图1),这一模型基本覆盖了设计阅读理解测试时所需要考虑的所有变量。如图1所示,作者提出的阅读测评体系可以分成3部分,分别是任务(即哪些题型能够最有效且贴切地展现考生能力)、学术阅读的目标(即应该为考生设立什么样的目标来激励他们从文中寻找信息并作答)、文本(即什么样的
Figure 1. The mode of assessing reading ability (p35)
图1. 阅读能力测评模型(p35)
文本才能生成满足上述条件的题型和阅读目标);除此之外,还有一个与上述三部分进行交互,从而决定考试答题正确程度的附加成分——读者的语言和信息加工能力。这一模型理论其实已经被纳入了许多能力测试的规范框架,例如托福网考就会考虑语法和语言的文本特征,并通过语用特征和相应的修辞特征指定适当的阅读文本类型。而对于听力测评的实际应用,作者在第三章详细对比了托福网考、雅思和培生PTE听力部分的特征,包括考试时长、听力文本数量、题目数量、互动性、口音多样性、视觉输入和作答方式等,从而有力地论证了上述三种考试的差异性其实是是学术听力概念化的不同理解的产物。
关于认知学术写作测评,作者提到当下流行的途径之一就是二语习得研究。二语习得角度的研究从词汇多样性、语法准确性及句法复杂性这三个维度来评价被测者的写作文本,从而测量其写作能力。此能力解读框架直到现在仍在托福网考中有所体现,例如Cumming等人 [22] 分析了托福写作三个不同等级的文章后,发现三个等级的主要区别点包括了语法准确度、词汇复杂度、句法复杂度、修辞质量和语用质量等几个维度。
至于设计学术口语测评任务时需要考虑的语境因素,本书作者以托福的应用时间为例,给出了一个包含5个层次的理论模型(图2)。如图2所示,若想设计一个口语测试题目,出题者可以从“目标语用领域、口语体裁、交流目标、交流方式以及环境特征”这5个方面来思考,什么样的题型可以满足测试需求。
Figure 2. The contextual factors of speaking tasks (p162)
图2. 口语试题的语境因素(p162)
此外,作者还从语用领域角度,将托福雅思和培生PTE考试进行了横向对比,较为具体地展示了三种考试在设计理念上的不同。
5. 未来的学术英语能力测评
最后,笔者认为《测评》一书的最大亮点,也是测评行业相关利益者可能会觉得比较有趣的地方,就是其对于各项学术英语能力未来测评模式的展望。
5.1. 阅读测评
首先,对于学术阅读测评,作者呼吁未来的大规模英语能力测试可以将“Reading to Learn”(从阅读中学习)纳入测量体系,例如设置一个题型,要求学生总结一个文本的大纲或者中心思想,亦或者使用新媒体来测评考生的“多文本阅读能力”。
5.2. 听力测评
考虑到目前的主流测试仍然是使用静态图像来作为听力的视觉辅助信息,而现实生活中人们更多的是面对动态影像信息,所以为了增加测试的真实性,作者提议可以考虑在考试中使用视频来作为听力的播放材料;另外,随着ELF理念的逐渐兴起,对各种英语口音的辨识能力也越来越影响人们的对于英语的实际应用,因此未来的听力录音中也应该酌情考虑加入两到三种符合目标语用场景的口音,从而进一步提高测评的真实性;第三点,目前的听力测试大多数是单向的、非合作性的,然而随着互动主义理论的兴起,人们应该意识到学术场景中,学生对于语言的使用也是有交互性的,所以能否研发出一种模拟现实生活中听说场景的题型,成为了一个值得探讨的领域;第四点,现在的听力录音中大多是独白或者双人对话,多人对话的场景较少,所以在未来的听力测评中增加后者的比重,也值得考虑;第五点,未来的听力考试还可以将考生对于情景的理解能力纳入测量体系,即观察考生能否听懂听力文本的引申含义,无论是不依附于上下文的习俗性蕴意,还是与语境相关的言外之意;最后,作者还简单提到了,依靠眼动仪技术,未来的听力测评有机会观察到考生在做题时的信息认知加工过程。
5.3. 写作测评
对于未来在写作测评的研究,作者提出了四点期望。第一点是在写作题型中明确说明写作目标、写作对象和领域,从而引导考生写出合适的体裁和语境,并根据题型的明确要求进行评分;第二点是增加考试中出现的写作任务的数量和类型,从而增加对书面体裁和学术写作背景的覆盖,并进一步增加考试的效度;第三点是在综合写作任务的固有学术性质上进行扩展,引入更多类型的“content-responsible”的任务,例如个人表达、对相关想法和信息的承诺,以及对源文本和背景的明确引用;最后,作者还希望能进一步研究和发展自动评分的实践应用。
5.4. 口语测评
在口语测评方面,作者主要希望未来能够加强对一下两种能力的测量,即语用能力和互动能力,作者甚至详细展示了几类题型来演示如何测评上述两个能力。所谓测量语用能力,就是评判应试者对与功能意图、隐喻、讽刺、语体、形式、礼貌、社会规范、幽默、情感、尊重等相关含义的理解和沟通能力。而互动能力则包括在交流沟通时所使用到的、除基本语言知识和技能(例如,发音、流利程度、词汇、语法)之外的能力(例如:适当的轮流发言、修补、开启和结束话题、对他人的回应以及谈判和共同构建话题)。
6. 结语
总的来说,《测评》一书可以被当作一本不错的测试学知识索引,它尽可能详实地探讨了高等教育环境下学术英语在不同历史时期的能力理论模型,并横向对比了三个主流大规模英语能力考试的测评实践,最后还提出了作者眼中未来测评的发展和研究方向。但是,语言测试学是一个很宏大的学科,作者无法对所有的测试学概念进行全面的解释和扫盲,也就意味着它本身具有一定的阅读门槛,读者在阅读时可能需要有一定的测试学基础,否则难免会遇到一些较为专业的术语或者晦涩的概念,从而影响阅读体验和知识理解。但是,作者对于每个章节中引用的概念和理论制作了详尽的参考书目,并附在了每个章节的结尾,因此,如果读者遇到不懂的概念,或者想深入了解某个理论时,可以通过文献目录找到更加深入和有针对性的理论解释。