1. 引言
2015年8月,高校外语专业教学测试办公室发布了《关于英语专业八级考试(TEM8)题型调整方案》,并宣布从2016年起对专八考试的试卷结构和测试题型做局部调整。试题做出调整后,从16~21年专八考试一共举行了五次(20年由于疫情取消),听力理解题型中的微型讲座(mini-lecture)也一直是广大考生的失分点,然而近五年却没有相关文献针对专八听力测试中的微型讲座(mini-lecture)展开研究,因此本研究从自然语言处理角度出发,使用R软件,对近五年专八听力微型讲座(mini-lecture)自然语言处理分析,涉及方面包括文本特征、词汇特征、文本复杂度等,希望加深广大考生对这一题型的了解程度,提供有针对性的的备考建议,也对高校英语专业听力教学提供有效的听力教学策略。
2. 文献综述
2015年8月,高校外语专业教学测试办公室发布了《关于英语专业八级考试(TEM8)题型调整方案》(下简称“《调整方案》”),并宣布从2016年起对专八考试的试卷结构和测试题型做局部调整。试卷共包含五部分:听力理解、阅读理解、语言知识、翻译和写作。考试时间为155分钟。改革后的听力理解包含两项:微型讲座(mini-lecture)和会话/访谈(conversation or interview)。考试时间为25分钟,考查形式为听录音填空。要求考生边听边记笔记,然后完成填空任务。讲座录音只播放一遍。每道题需填答案的长度不超过三个单词(纪军,2016) [1] 。
近年来有关专八考试的语料库研究较少,回顾近五年的相关研究,韩存新,黄聪颖(2021) [2] 曾对新改革后的专八听力两大题型进行了语料库分析,但内容仅限于从文本话题、词汇难度、听力语速、会话问题方面,且对文本话题,听力语速,会话问题方面自我总结,主观分析为主,缺少量化数据支持。近十年的相关研究中,沈莹等(2015) [3] 曾使用语料库分析软件Range对专八三大题型:听力,翻译,作文进行量化研究,涵盖内容包括听力文本形符,类符数,缩写词,衔接词使用情况等,但由于篇幅有限,没有列出相关的数据表格作为研究支撑。另有陈建生、黄舰影(2015) [4] 着眼于特定语言学术语,对专八写作中模糊限制语展开语料库研究,此研究特别针对专八写作,与听力部分并无直接关系。
知网搜索显示,近五年并没有相关文献针对专八听力测试中的微型讲座(mini-lecture)展开研究,近十年的相关文献中,学者们大多的关注点是应试技巧(罗茜文,2015;刘秋芬、刘芹,2013) [5] [6] 语篇理论在专八听力测试中的微型讲座(mini-lecture)中的应用(陈春华,2015) [7] ,以及不同听力讲座测试比较研究等(徐伟,2014) [8] ,缺少专门针对听力测试中的微型讲座的自然语言处理分析研究。
在此基础上,本研究使用国际通用编程语言,自然语言处理软件-R,针对近五年专八听力测试中的微型讲座(mini-lecture)展开系统全面的自然语言处理分析,内容涉及文本描述性统计,词汇密度,词频,词汇多样性,文本复杂度等。
1) 词汇密度
词汇密度(lexical density,简称LD)由Ure (1971) [9] 首次提出,指的是实词在篇章文本中的比重,而实词主要指名词、动词、形容词及副词。词汇密度是指文本中的实词(lexical words)数占整个文本词数的比率。
2) 词汇多样性
传统的词汇多样性(lexical diversity; lexical variation)测量方法是类符–形符比(type-token ratio,简称TTR)。对传统的类符–形符比的主要批评是TTR受文本长度的影响,即随着文本长度的增加,重复使用的词就会越多,TTR就会减低。使用R软件绘制文本长度对TTR影响的线图。

Figure 1. Fluctuation of TTR with the increase of text length
图1. TTR 随文本长度变化的曲线
图1显示,文本长度与TTR呈现很强的负相关(r = −0.92, p < 0.001)。这意味着,随着文本长度的增加,TTR呈明显的下降趋势,重复使用的形符量(type)随之增加。由此可以得出,TTR对于900词以上的专八听力讲座文本来说不是一个最佳选择。
因此本研究选取衡量词汇多样性的指标是文本词汇多样性测量(measure of textual lexical diversity,简称MTLD),MTLD是文本词汇多样性的一个指标,其数值等于文本中的连续词串维系在某个形符比(即因子大小,factor size,默认值为0.72)的平均长度(McCarthy & Jarvis, 2010) [10] 。MTLD测量设定,在以某个词结束的词串类符–形符比达到0.72或以下时,该词串为一个因子。然后,以下一个词开始重新计算因子,如此计算直至文本结束。MTLD为形符总数与因子总数的比值。在利用数据包koRpus中的函数MTLD( )计算因子数时,部分因子值(即以文本结尾词结束的词串类符–形符比大于因子阈限值)等于1与其类符–形符比离差和1与因子阈限值离差的比率。
在R软件中,函数MTLD( )采用顺向和逆向方法计算MTLD值,最终的MTLD值是两次计算MTLD值的平均数。
下图是利用R命令绘制MTLD随文本长度变化的曲线。
由图2可以得出,文本长度大约在100之后,MTLD值随文本长度的波动性减小。整体上,MTLD值与文本长度没有统计显著性相关关系(r = 0.06 p = 0.619 > 0.05)。由此可见,MTLD可作为衡量专八听力讲座文本词汇多样性的指标。
特别值得一提的是,以往的词汇多样性研究大多聚焦于学生写作(戴彤,2019;肖莉,2018;张茉莉,2018;王艺璇,2017) [11] [12] [13] [14] ,口语(侯呈婧,2021;邓芳、郝美玲,2017) [15] [16] ,词汇习得策略与产出性词汇丰富性相关研究(胡佳琪,2020) [17] ,尚无相关学术研究聚焦于听力文本的词汇多样性研究。

Figure 2. Fluctuation of MTLD with the increase of text length
图2. MTLD 随文本长度变化的曲线
3) 文本复杂度
文本复杂度(text complexity)是一篇文本的难易程度,即文本在语言实现方式上所体现出的复杂度(Mesmer et al. 2012) [18] 它涉及文本的各层面,主要包括词汇、语法和语篇等(彭寒珂,2021) [19] 。美国学者们通过使用测量文本复杂度的工具和系统对文本的可读性进行了估算(Klare, 1974-1975; Koslin et al. 1987) [20] [21] 其中较为常用的是弗莱什(Flesch)易读度公式,该公式考虑的是文本长度、句子数和音节数,计算公式为计算公式为RE = 206.835 − W/St*1.015 − Sy/W*84.6,其中W代表文本包含的词数,St代表文本包含的句子数,Sy代表文本中各个词的音节数(Flesch, 1948) [22] 。
Flesch (1949) [23] 提供了文本阅读难易度值与年级的对应关系,如图3所示。
表中显示,Flesch阅读难易度值越大,文本越容易。

Figure 3. Relationship between the Flesch’s value and grade
图3. Flesch阅读难易度值与年级的对应关系
此外,本研究使用的R软件是一个集统计计算、制图和自然语言处理等为一体的编程语言软件,鉴于目前使用R软件展开文本分析仍处于起步阶段,本研究可以在R软件的推广方面略尽绵薄之力,推进R软件在语料库研究的应用。除此之外,通过对专八听力测试中的微型讲座 (mini-lecture)的系统分析,本研究可以在一定程度上帮助考生把握专八微型讲座部分的文本特征,话题内容,所要求掌握词汇量,难易度等,从而在平时的练习,备考过程更有针对性。另一方面也能检验近五年的专八听力微型讲座试题是否符合《调整方案》要求,从而更进一步地为听力教学提供一些建设性建议,对学生的听力理解能力进行有针对性的训练,以有效提高学生的听力理解水平。
3. 研究问题
本研究的研究问题如下:
1) 近五年的专八听力微型讲座(mini-lecture)文本的文本特征如何?
2) 近五年的专八听力微型讲座(mini-lecture)文本的词汇特征(包括词汇密度、词频、词汇多样性)如何?
3) 近五年的专八听力微型讲座 (mini-lecture) 文本复杂度如何?
4. 研究方法
1) 研究样本
本研究样本为2016~2021年英语专业八级考试(TEM8)听力部分第一大题型:微型讲座(mini-lecture)听力文本,由于2020年英语专业八级考试(TEM8)因疫情取消,所以研究者共收集2016~2021年的听力文本5份,所有听力文本来自某正规教辅,真实可信,在此基础上组成一个微型语料库。
2) 研究步骤
1) 将5份研究文本转成txt格式,方便R软件进行处理。
2) 在R软件中,利用KoRpus数据包对文本进行描述性统计,词汇密度,词频,词汇多样性,文本复杂度计算。
5. 数据分析
5.1. 文本特征
本研究使用描述性统计进行文本特征分析。描述性统计是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。在R软件中利用KoRpus数据包自带函数进行计算,得到以下结果:

Table 1. Descriptive analysis of TEM8 mini-lecturefrom 2016 to 2021
表1. 2016~2021年专八听力微型讲座(mini-lecture)文本描述性统计
研究者首先对表1的描述性统计统计量进行阐释,$all.chars计算所有字符,包括词、标点符号和空格,$lines计算行数,$chars.no.space计算不含空格的字符数。$punct计算标点符号数。$digits计算数字数,$letters.only只计算字母总数(不含数字) $words计算词数,$sentences计算句子数,$avg.sentc.length计算平均句长,$avg.word.length计算平均词长。
综观表1,可以发现从所有字符数($all.chars),不计空格字符数($chars.no.space),字母数($letters.only)来看近五年专八听力测试中微型讲座(mini-lecture)的文本长度总体呈现增长趋势。单词数($words)总体较为稳定,在980~1150词区间有所波动,但是字母总数($letters.only)却整体呈现上升趋势,这说明专八听力微型讲座中单个单词的长度逐年增加,这一点在平均词长($avg.word.length)上也可以看出,一定程度上揭示听力讲座中词汇愈加复杂化的趋势。在文本长度总体呈现增长趋势的情况下,句子数($sentences)却在55~90的区间波动较大,对应的平均句长($avg.word.length)波动也非常明显,文本长度与句子数和平均句长并没有明显的相关关系,例如相较于2016年,2017年文本长度增加,句子数下降,平均句长上升;相较于2017年,2018年的文本长度下降,句子数下降,平均句长上升,标点符号数($punct)和平均句长呈负相关关系。可见近年来专八听力讲座文本的单句长并没有明显规律,处在不断波动状态中。
回顾2015年8月颁布的《调整方案》,该方案对听力理解第一大题型:听力讲座(Section A: mini-lecture)的测试形式描述是:“本部分由一个约900个单词的讲座和一项填空任务组成。要求学生边听边做笔记,然后完成填空任务。本部分共15道填空题。整个听力理解部分测试时长共计25分钟。”再参照上表,在词数($words)这一统计量中,除了2017年的听力文本词数是在987词之外,其他四年的文本总词数都达到了1000词之上,2019年甚至达到了1146词,说明近五年专八听力讲座文本整体的词汇容量还是略高于该方案要求的,也对考生的速听速记能力提出了更高要求,在听力讲座文本播放时长限定的情况下,研究者提出推测,近五年听力讲座播放语速一定程度上呈现上升趋势。
5.2. 词汇特征
5.2.1. 词汇密度与词汇多样性
词汇密度的计算关键在于确定实词。但是英语实词量大,且具有开放性,因而很难列举穷尽。切合实际的做法是列举停用词(stopwords)。停用词指统计分析中被排除在外的词,通常包括冠词、代词、介词和连词。R数据包tm自带包括174个英语常用停用词表词,可以对文本中的非实词进行识别。
为了计算词汇密度,首先研究者使用R软件提取文本中的各个字符(包括词和标点符号)。把大写字母统一改为小写字母再除去标点符号和替换字符。并计算文本总词数。用R软件计算出文本中停用词的数量后,有实际意义词(主要为实词)总数等于文本总词数减去停用词数量。最后,将有实际意义的总词数除以文本总词数得到词汇密度值。
对于词汇多样性的计算,研究者在R软件中使用通用函数是lex.div( ),得到的词汇密度(LD)与文本词汇多样性(MTLD)结果,文本词汇多样性(MTLD)在各文本全文本(开头至结尾)的分布值见下表。

Table 2. LD and MTLD of TEM 8 mini-lecture from 2016 to 2021
表2. 2016~2021年专八听力微型讲座(mini-lecture)文本词汇密度(LD)与文本词汇多样性(MTLD)

Table 3. Distribution of MTLD in full mini-lecture Text of TEM8 from 2016 to 2021
表3. 2016~2021年专八听力微型讲座(mini-lecture)文本词汇多样性(MTLD)全文分布
研究者首先对表2中的部分统计量进行阐释:其中type是词型或类符,指在文本中出现的不相同的词,而token是词符或形符,指在文本中实际出现的词,lemma指词目或词根,包括词的词形变化。这三个统计量皆来自于计算文本词汇多样性(MTLD)过程中R软件工作记录。
综观表2,从2016~2021年听力讲座文本的词汇密度(LD)可以看出,文本中的实词(lexical words)处于主导地位,占比半数以上,词汇密度(LD)稳定在0.56~0.62区间,波动较小,说明近五年听力讲座文本内容较为充实,属于实词(lexical words)的名词、动词、形容词及副词的使用频率较高。
此外,从表中可以看出,词根数(lemma)略低于类符数(type),由于词根(lemma)包括词的词形变化,只有实词(lexical words)涵盖的名词、动词、形容词及副词会有词形变化,词根数(lemma)略低于类符数(type)的原因是有部分停用词(stopwords),包括冠词、代词、介词和连词列入了类符数(type)统计范围,再次佐证了专八听力讲座文本实词使用较多,占比较大的结论。由于冠词、代词、介词和连词数量有限,这一结论启示考生备考专八听力时应适时调整学习策略,扩大实词词汇量。
从上表中的文本词汇多样性(MTLD)统计结果可以看出,2016~2021年专八听力讲座文本词汇多样性在51~105区间波动较大,2016年文本词汇多样性最低,2021年最高。相较于2016年,2017年听力讲座文本词汇密度(LD)上升,文本词汇多样性(MTLD)上升;2018年听力讲座文本词汇密度(LD)下降,文本词汇多样性(MTLD)上升,由此可以得出结论,文本词汇多样性(MTLD)与词汇密度(LD)并没有明显的相关关系。
表3中,1stQu.表示第1个四分位数,3rdQu.表示第3个四分位数,从文本词汇多样性(MTLD)在各文本全文本(开头至结尾)的分布值可以看出,2017年听力讲座文本全文词汇多样性数值分布最为集中,2021年最为分散,同时21年的词汇多样性也是近五年最高的。
5.2.2. 词频
本研究的词频表利用词目(lemma)与停用词表(stopwords)产生。在处理词频时,研究者将2017~2021年的听力讲座文本合成一份文档,目的是找出近五年讲座文本中的高频词,在使用R命令排除停用词以后,生成的词频表,词频条形图,词云图如下(由于词频表较长,下表只显示词频最高的20个词)。

Table 4. Word Frequency of TEM8 mini-lecture from 2016 to 2021 (Top 20)
表4. 2016~2021年专八听力微型讲座(mini-lecture) 文本词频表(前20)

Figure 4. Word Frequency of TEM8 mini-lecture from 2016 to 2021 (Top 20)
图4. 2016~2021年专八听力微型讲座(mini-lecture) 词频条形图(前20)

Figure 5. Word Cloud of TEM8 mini-lecture from 2016 to 2021 (Top 20)
图5. 2016~2021年专八听力微型讲座(mini-lecture)词云图(词频前20)
从表4可以看出,“be”高居首位,究其原因,是因为be动词的用法有多种变化形式,如am,is,are,was,were,being,been等,在各种时态中广泛使用,与“be”一起在词频表排行前五的包括情态动词“can”与“be”一样,“can”高频的原因也是其众多变化形式。同时词频表中排行前五的还有三个词:“argument”、“power”、“language”,三词高频的原因皆与听力文本主题有关。“argument”高频出现于2016年听力讲座文本,16年听力讲座的主题是辩论的三大模型(three-models for arguments),英语辩论是口语课程的重要组成部分,实战辩论的方式具有很强的对抗性,能够激发了英语专业学生的挑战欲望,提升学习动机。通过语言运用、知识归纳整理方面的专业训练,学习者主动探索和自主思考的能力得到提高与锻炼。“power”一词在2019年听力讲座文本中高频出现,19年听力讲座的主题是权力与支配权的肢体表达(nonverbal expressions of power and dominance),非言语信息(nonverbal message)可以补充和代替语言信息,是跨文化交际课程中重要术语,而跨文化交际课程也是英语专业学生的核心课程之一。“language”一词高频出现于2017~2019年听力讲座文本中,19年讲座主题已提及,17年的讲座主题是语言模式(modes of language),18年的主题是语言与人类关系(the relationship between language and humanity),“language”一词三年的高频出现说明目前专八听力讲座主题大多关注还是语言本身,诸此种种启示英语专业学生注重平时的专业课学习,打好专业基础。
其他的高频词大多是与语言学习相关现象的衍生,例如“people”、“think”、“mind”、“feel”等强调人类作为语言使用的主体地位与语言与思维,认知的关系,“speech”和“writing”两词折射了语言学习中口语和写作这两个方面。值得一提的是,“hormone”(激素或荷尔蒙)一词本是生物学上的一个专用名词,在19年文本高频出现,在该文本中演讲者认为“hormone”是人类思想和感觉的生理构成,并进行了相关实验。这部分的文本内容属于科普演讲,涉及到部分百科知识,对英语专业学生提出了“know something about everything”要求。
《调整方案》中听力选材原则的第一条是:“讲座部分的内容与本专业课程内容相关。”测试要求是:“能听懂有关政治、经济、历史、文化、教育、语言、文学、科普方面的演讲及演讲后的问答”,综合上述分析,从近五年的专八听力讲座文本词频可以看出,讲座内容着眼于语言,关注各类语言现象,与学生专业课程联系紧密,一些科普段落会适时地出现一些百科知识,以对学生的知识面进行全方位的考察。
5.2.3. 文本复杂度
研究者通过执行R命令中的函数Flesch( ),得到2016~2021年专八听力讲座的文本复杂度数值(RE),见下表:

Table 5. RE Value of TEM 8 mini-lecture from 2016 to 2021
表5. 2016~2021年专八听力微型讲座(mini-lecture)文本复杂度
表5中的统计量Grade指的是听力讲座文本复杂度对应美国学生的年级水平。从上表中可以看出,近五年听力讲座文本复杂度波动极大,在美国初中,高中,大学学生水平区间中波动剧烈,2019年听力讲座文本复杂度值最低,仅为美国7年级学生水平,2021年最高,达到了13~16年级,即大学生水平,就近五年的专八听力文本来看,暂时没有出现文本复杂度为美国大学研究生水平的文章。
值得一提的是,2019年听力讲座文本词汇密度(LD)与文本复杂度皆为五年中的最低水平,2021年听力讲座文本词汇多样性(MTLD)与文本复杂度皆为五年中最高水平,由此,研究者推测,词汇密度(LD)与文本词汇多样性(MTLD)可在一定程度上影响文本复杂度。
《调整方案》提到,对听力理解(包括听力讲座与访谈两大题型)选材原则第三条是:“听力材料难度为中等偏上”。根据Flesch (1949)提供的文本阅读难易度值与年级的对应关系,文本复杂度数值(RE) 60~70为中等水平,对应美国8~9年级学生水平。由此可以得出,2019年听力讲座难度不符合该调整方案要求,2016年与2018年达到中等水平,2017年和2021年的听力讲座文本难度符合该调整方案要求。
6. 结语与启示
本研究使用R软件,对16~21年专八听力微型讲座(mini-lecture)文本进行描述性统计,词汇密度,词频,词汇多样性,文本复杂度计算,得到以下结论:
1) 文本特征
近五年专八听力测试中微型讲座(mini-lecture)的文本长度总体呈现增长趋势。存在听力讲座中词汇复杂化的趋势。文本的单句长并没有明显规律,处在不断波动状态中。此外近五年专八听力讲座文本整体的词汇容量略高于《调整方案》要求。
2) 词汇特征
近五年专八听力测试中微型讲座(mini-lecture)的词汇密度(LD)稳定在0.56~0.62区间,波动较小,文本内容较为充实,实词(lexical words)使用频率较高。2016~2021年专八听力讲座文本词汇多样性(MTLD)在51~105区间波动较大,2021年最高,2019年最低。五年的听力文本中,“be”、“argument”、“power”、“language”、“can”高居词频表前五,其他的高频词大多是与语言与语言学习相关现象的衍生,例如“people”、“think”、“mind”、“feel”强调人类作为语言使用的主体地位与语言与思维,认知的关系,“speech”和“writing”两词折射了语言学习中口语和写作这两个方面。近五年专八听力测试中微型讲座(mini-lecture)词频表显示,目前专八听力讲座主题大多的关注点还是语言本身各类语言现象,与学生专业课程联系紧密,部分科普段落也不乏对学生百科知识的考察。
3) 文本复杂度
研究者利用弗莱什(Flesch)易读度公式计算得出,近五年听力讲座文本复杂度波动极大,在美国初中,高中,大学学生水平区间中波动剧烈,2021年文本复杂度值最高,2019年最低。由于《调整方案》要求听力文本难度达到中等偏上,可以得出结论,2019年听力讲座难度不符合该方案要求,2016年与2018年达到中等水平,2017年和2021年的听力讲座文本难度符合该方案要求。
基于以上结论,研究者提出三个推测:
1) 近五年听力讲座播放语速一定程度上呈现上升趋势。
2) 词汇密度(LD)与文本词汇多样性(MTLD)可在一定程度上影响文本复杂度。
3) 同样是因疫情延期,由于21年的听力讲座文本词汇多样性(MTLD)与文本复杂度皆为五年中最高水平,2022年专八听力微型讲座(mini-lecture)存在文本词汇多样性(MTLD)上升,文本难度增大的可能。
同时以上结论也可对考生备考,听力教学策略提供一些启示:
1) 考生备考
英语专业学生应注重平时的专业课学习,打好专业基础,对语言学基础术语有基本了解,在做听力题时能够识别这些词汇。同时应扩大听力实词词汇量,提高速听速记能力。平时注重听写文本语词汇习惯的养成,保持听力敏感度。以最佳姿态迎接专八考试。同时做到广泛涉猎各专业知识,包括政治、经济、历史、文化、教育、语言、文学、科普等,扩大知识面,以应对听力讲座文本中相关知识考察。
2) 听力教学策略
a) 注重语音教学
学生只有掌握所学词汇的正确读音,在听到这些词汇时,才能识别出来。可以要求学生经常跟读听力材料中的句子,这样对掌握正确的语音、语调也非常有帮助。
此外,还要要求学生多朗读阅读材料。如果学生能经常用正确的语音、语调朗读阅读课上所学的语篇和其中的生词、短语,并在头脑中形成形象,就必定会对这些读音和词义都非常熟悉,再听到带有这些词语的句子时,就能比较容易地听明白句子的意思了。
b) 将阅读词汇转化成听力词汇
大部分考生的阅读词汇是大于听力词汇的,教师在教学过程中,教师要让学生明白阅读词汇和听力词汇是两个概念,是两种解码过程,要有意识地引导学生认识到听力词汇中语音的重要性,在听的过程中运用语音意识去辨析和识别听力词汇,通过主观性的听力练习扩大听力词汇量,促进阅读词汇向听力词汇转化。
教师可以在听力课上进行一些短文听写、边听边概括语篇提纲等聚焦语篇整体结构的主观练习,促进阅读词汇向听力词汇转化,这样做不仅有利于学生听力水平的提高,也对扩大听力词汇量大有裨益。
c) 编写使用听力词汇表
每次在上听力课前,教师就可以准备好听力词汇表,下发给学生,表中的听力词汇包括生词和不熟悉的词及短语。要求学生在每次听力课前牢固掌握词汇表中词汇的读音及词义,并通过进行词汇听写来督促学生做到这一点。
以上是本研究对考生备考以及听力教学的一些启示。当然,本研究也有明显的局限性,本研究的样本数量偏少,仅聚焦于《调整方案》颁布后的专八听力微型讲座(mini-lecture)文本,受到了现实情况的限制,因此本研究得出的一系列结论也有待验证,未来的研究可以进一步考虑扩大研究范围,增大样本数量。