1. 引言
在外语的学习过程中,词汇习得起着举足轻重的作用。很多研究都表明,学生的词汇量能力与听、说、读、写等其他的语言能力息息相关 [1] 。但是,英语词汇数量多,要掌握每一个单词的难度很大。根据《韦氏第3版新国际英语足本词典》,英语包含了114,000个词族,这一数量还不包含英语中的专有名字 [2] 。普通的受过教育的以英语为母语的成年人词汇量大概在20,000个词族左右 [2] [3] 。但是,对于将英语作为第二语言或者外语的学习者来说,学习20,000个词族是一个非常艰巨的任务。不过,词汇学家发现,尽管英语中有如此多的单词,但是并不是所有的单词具有相同重要的地位,有些单词更加活跃,被使用的频率更高,这一部分词汇在口语和书面交流中占据了更大的篇幅,因此,这一部分单词应该被优先学习。
在我国的英语教学过程中,词汇被广泛地认为是仅次于语法的最重要的教学内容 [4] 。教育部制定的各个阶段的《英语课程标准》都明确地罗列了需要学生掌握的词汇。2018年,教育部发布了《普通高中英语课程标准(2017年版)》(下称“课标(2017年版)”),相比《普通高中英语课程标准(2003年版)》,“课标(2017年版)”在整体框架、课程性质、目标和内容等方面都做了较大的调整,“课标(2017年版)”收录了3000个单词,包含了义务教育阶段、高中必修课程和选择性必修课程应学习和掌握的所有单词,学生在完成选择性必修课程的学分后,方可参加高考,因此,学习和掌握这3000个单词也是学生参加高考的基本要求和前提。相比《普通高中英语课程标准(2003年版)》的词汇要求,学生需学习和掌握八级要求词汇方可参加高考,而八级要求词汇的数量是3300个,“课标(2017年版)”似乎对词汇的数量要求略有降低。但是,对于课标所要求的单词的类型和特点,目前相关的研究还不多。本研究将通过对“课标(2017年版)”的词汇与英语的高频词汇表进行比对,探讨“课标(2017年版)”收录的单词是否属于英语中的出现频率较高、在英语口语和书面交流中较为活跃的高频词汇,以期对教学和教材的编排起到一定的启发。
2. 文献综述
基于英语词汇出现频率差异巨大的发现,词汇研究者制定了一些高频词汇表,如由Michael West的英语通用词表(A General Service List of English Words) [5] ,英语通用词表是从五百万字的语料库中提取的使用频率最高的两千个单词,West制定这一词表的时候充分考虑了多种因素,如单词在语料库中出现的频率、单词本身的难易程度、文体特征等等。尽管有些学者认为英语通用词表制作较早,不能体现新的社会需求 [6] ,而且基准语料库较小 [7] ,但是,英语通用词表罗列的2000个单词占据了英语叙事文本的90% [8] ,非叙事文本的75% [9] 以及75%的学术英语文本篇幅 [10] 。这也就意味着,学习者如果掌握了这2000个词组,就掌握了大部分这些文本中的单词。
随着计算机技术的进步,语言学家开始使用计算机辅助提取英语中的高频词汇,自2000年至今,词汇学家们根据英国国家语料库(British National Corpus),不断充实和完善高频词表,并以每千个单词为单位,根据单词出现的频率高低,以每一千个单词为一个子类,制定高频词表子类,例如,第一个子类里罗列的一千个单词在该语料库中出现频率最高的第一千个单词,第二个子类里罗列的一千个单词是在该语料库中出现频率仅次于第一个子类的单词,依此类推。至2016年,著名的语言学家Nation将BNC高频词表完善到14个子类 [11] ,包含在英语国家语料库中出现频率最高的14,000个单词,这些高频词汇也是广大学者研究较多的词表。不过,英国国家语料库(British National Corpus)包含一亿个单词,其中90%为书面语,只有10%的语料来自口语,正如Nation本人评价的一样,BNC的语料大多书面,英式英语,正式,成人化,反映了以英语为母语的英语使用者的词汇情况。尽管BNC高频词表在很长一段时间都被广泛应用于英语教学和研究中,但是对于讲英语作为第二语言或者外语的学习者来说,高频词表的制定还应该考虑这类学习者在生活和学习中所需要的词汇,如学习者需要在旅行、网络或课本上会经常使用的词汇应出现在高频词表中 [12] 。因此,Nation教授在原有的BNC高频词表的基础上,制定了BNC-COCA高频词表,该词表是根据英国国家语料库(British National Corpus)和美国当代英语语料库(COCA),共计4.5亿词汇的语料库提取而成,是专门为英语作为外语的学习者制定的。其中,BNC/COCA分级词表的第一个子类和第二个子类共2000个词族,也就是出现频率最高的2000个词族,是根据1000万词的语料库提取,主要来自英式英语和美式英语的面对面或电话口语交流,电影和电视中的对白,以及美式英语小说,因而,一些口语中常见的单词,如pardon,hello,bye被收录进了这两个子类。同时,数字1到100,星期和月份的相应英语单词也被收录进前两个子类。BNC/COCA分级词表对于以英语为外语的学习者来说,具有重要的参考意义。
英语词汇出现频率差异巨大的这一发现,对于外语学习者和第二语言学习者来说,意义重大,因为不同于母语学习者,外语学习者(EFL)往往没有很好地语言环境,很难在日常生活中得到足够的语言输入,如果学习者能够把有限的时间和精力,用于集中学习这些英语中的高频词汇,将起到事半功倍的作用。
对于EFL学习者所学习的单词是否是英语中的高频词汇,很多词汇研究者做了大量相关的研究,大部分的这类研究都是使用英语通用词表 [5] 和高频词汇表 [11] 作为参照,分析教材中的词汇是否属于高频词汇范畴。Coxhead,Stevens和Tinkle [13] 对新西兰的9年级至12年级科学教材词汇进行了研究,结果表明,这些教材中包含了大量的低频词汇,根据Nation [11] 的高频词汇表,学生需要掌握第14,000个单词才能基本读懂这些教材。Nordlund [14] 对瑞典10至12岁学生使用的两套英语教材词汇进行了研究,结果表明在这两套教材中,有大量的词汇都不在英语通用词表 [5] 范围内,由此得出结论,这些教材在词汇的编排上不尽合理。
国内的相关研究不太多,Yan和Gao [15] 研究了《新标准大学英语综合教程》中的词汇情况,他们发现这套教材包含了高频词汇表中出现频率最高的两千个单词中的78.1%,教材中的词汇编排也表现了从高频词汇到低频词汇的趋势,因此,教材中词汇难度整体呈现由易到难循序渐进的趋势,因此,这一套教材的词汇收录和编排科学合理。除了使用英语通用词表 [5] 和高频词汇表 [11] 作为参照,一些中国的专家学者还对不同阶段的《英语课程标准》所要求的词汇在教材中的体现进行了研究。赵建国和陈秋竹 [16] (2019)研究了小学课标词汇在译林版牛津小学英语教材中的覆盖和复现情况,他们的研究表明,这套英语教材覆盖了大部分的课标词汇,但是近四分之一的课标词汇在教材中的复现频率不足。总的来说,国内课标词汇研究主要是围绕课标词汇在教材中的覆盖率和复现情况,这也证明课标对英语教材的编写、教学实践的指挥棒作用,但是目前,国内还没有针对课标词汇特点的相关研究,作为国家课程标准是教材编写、教学、评估和考试命题的依据,是国家管理和评价课程的基础,因此,“课标(2017年版)”到底收录的是哪些词汇?这些词汇是否属于英语中的高频词汇?这些问题与我国中小学英语教育能够更加有效、更加有针对性地提高学生的英语词汇能力,从而提高中小学生的整体英语语言运用能力息息相关。
3. 研究方法
本研究的研究对象为2017年版的《普通高中英语课程标准》的词汇表,通过将该词汇表和Nation (2017)提出的BNC/COCA分级词汇表进行比对,从而分析2017年版的《普通高中英语课程标准》的词汇表所收录的单词是否属于高频词汇。
本研究将要使用的研究工具主要有WORDSMITH7.0和lextutor.ca上的familizer和lemmatiser功能。《普通高中英语课程标准》(2017版)的词表包含3043个单词(token),由于英语通用词表和BNC/COCA分级词表的收录标准都是词族(word family),因此,需要对课标词表进行去尾化处理(familizer)之后再进行比对,处理后为2731个词族(word family)。
将BNC/COCA分级词表(Nation, 2017)分别上传至Wordlist,设置为匹配词汇表(matchlist),与“课标(2017年版)”的词汇表进行比对,从而计算出“课标(2017年版)”的词汇表对BNC/COCA分级词表 [12] (Nation, 2017)中的单词的覆盖情况。
4. 结果与讨论
关于“课标(2017年版)”和BNC/COCA分级词表(Nation, 2017)的比对情况,如表1所示,“课标(2017年版)”收录了大多数BNC/COCA分级词表里第一个子类和第二个子类的单词,分别占了这两个子类的98%和80%,但是课标词表对BNC/COCA的第三级词表覆盖率只有52%。总的来说,对于BNC/COCA前三个子类词表中的单词,即在BNC和COCA语料库中出现频率最高的三千个词族,课标词表未收录的共有697个,占23%。这些未被课标收录的BNC\COCA数据库中的高频词汇可以分为以下几类。首先,与西方的宗教信仰、文化相关的单词,在英语国家使用频率较高,但在我国的文化背景下使用频率相对较低,因此,课标未收录这一类词汇,这些单词包括ANGEL,BIBLE,BISHOP,CATHOLIC,HEAVEN,HOLY,GOD,LORD,PRIEST,SAINT,SIN等等。其次,关于西方的计量单位、政治体系的单词,如CONGRESS,ACRE,DUKE,PENNY等等。第三,描述西方人的外表的词汇,如BLONDE。由于不同的政治文化背景,这些单词被英语国家人士大量频繁地使用,但对于中国的EFL学习者来说,在日常的生活、学习中用到这些词汇的机会较少,因此,课标词表未收录这一部分词汇是合情合理的。
但是,除了上述的三类单词,在BNC/COCA语料库中出现频率最高的三千个词族中,还有几百个高频词汇没有被“课标(2017年版)”收录,但是它们能够帮助学习者更加准确地理解英语原文,更加生动、地道地用英语表达自己的观点,这些单词包括TIDE,VIOLENT,LOCATE,ACCELERATE,ACCUMULATE,EXPLICIT,FOOL,HIGHWAY,ISOLATE,ORAL,CEREMONY,EXPLOIT等等,这些单词在BNC/COCA语料库中出现频率高,占据的篇幅大,未将它们列入“课标(2017年版)”将不利于我国中小学生学习和掌握这些单词。

Table 1. Words in the curriculum standards from BNC/COCA word lists
表1. “课标(2017年版)”对BNC/COCA分级词表各子类词汇涵盖情况
这是关于BNC/COCA分级词表前三个子类中包含了的单词,但是没有被“课标(2017年版)”收录的情况,那么“课标(2017年版)”中收录了哪些单词不属于BNC/COCA分级词表前三个子类中的呢?也就是说课标中收录了哪些不算是BNC/COCA中的高频词汇的单词呢?如表2所示,“课标(2017年版)”中要求的词汇有431个词族不属于BNC/COCA分级词表的前三个子类,占课标要求词汇的16%。这431个词族可以分为以下几类。

Table 2. Words in the curriculum standards from the first 3 sublists of BNC/COCA word lists
表2. BNC-COCA分级词表第一至三级对“课标(2017年版)”词表涵盖情况
首先,专有名词。尽管“课标(2017年版)”单独罗列了主要国家名称及相关信息供教学参考,但在词汇表里还是罗列了一些国家和地区名,如AFRICA,TURKEY,ASIA,FRENCH等,这类专有名词一共有24个。BNC/COCA分级词表不收录专有名词,因此,在比对过程中会发现课标涵盖了这一部分不在高频词表里的单词。尽管如此,这类专有名词的收录是很有必要的,如CHINA,CHINESE,这类单词是中国学生经常会遇到和用到的,因此课标适当收录常有专有名词是有必要的。
其次,与中国文化、风俗习惯相关的单词,这些单词在英语国家使用频率较少,不属于英语高频词汇,但是,却是中国人司空见惯、与我们的生活息息相关的单词,如CHOPSTICKS,KILOGRAMME,KILOMETER,LUNAR,DUMPLINGS,CONFUCIANISM,PANDA,CALLIGRAPHY,TEMPLE,TEAPOT,PEAR,PORK,TOFU,COMMUNIST等等。这些单词体现了中国的传统文化,饮食习惯,计量单位等等,尽管在BNC/COCA语料库中并不算高频词汇,但是把它们列在课标所要求的词表中很有必要,因为它们可以帮助学生用英语讲好中国故事,传播中国文化,它们是培养文化的传承者和传播者必不可少的元素。
第三类单词是对一些常用的事物的不同表达所产生的差异,如课标词表收录了SOFA,但是英美国家更加习惯使用COUCH,因而SOFA在BNC/COCA分级词表中更加靠后。类似的情况还有CIGARETTE和TOBACCO,BNC/COCA分级词表中CIGARETTE在第二个子类,而TOBACCO在第四个子类,尽管两个单词是近义词,但是CIGARETTE在BNC/COCA语料库中的使用频率明显高于TOBACCO。MOVIE在BNC/COCA分级词表的第一个子类,CINEMA在第四个子类,尽管它们的意思有差异,但是在表达在与电影相关的语境中,英语国家更习惯使用MOVIE,如“Let’s go for a movie”或者“I’m watching a movie”,而很少使用“Let’s go to the cinema”或者“I’m in the cinema”。
第四类是直觉属于比较常用、重要的单词,但数据库证明使用频率较低的单词,语料库能够为词汇的教学提供有效的依据,直觉可能会误导教学的方向,如ZOO,SHARK在BNC/COCA的第五个子类,CAMEL在第六个子类,KANGAROO在第九个子类,GIRAFFE和DOLPHIN甚至都不在BNC/COCA前十个子类内。这些单词都是“课标(2017年版)”中所要求掌握的单词,但是这些单词的实际使用频率较低,教师和学生花费大量的时间和精力在这些词汇上,可能会因为在实际的学习和生活中再次碰到或使用这些词汇的机率较低,导致容易遗忘,而且,把有限的时间和精力投入到了学习这些低频词汇,势必影响学生学习更多更重要的高频词汇。因此,教师在教学过程中,能够通过英语语料库数据,掌握词汇的特点,拣选在英语中出现频率更高的词汇先教,出现频率相对较低的词汇后教,提高教学效果和效率。
第五类单词是复合词,BNC/COCA分级词表未罗列复合词,而“课标(2017年版)”则罗列了这次单词,如POLICEWOMAN,BIRTHDAY,CLASSMATE,HOMEWORK,HOUSEWORK,HOMETOWN等等,BNC/COCA分级词表在收录过程中,默认学习者在掌握了构成复合词的两个独立的单词之后,就自动地掌握它们所构成的复合词,而“课标(2017年版)”却认为有必要将这一部分单词单独罗列出来。那么事实是否如此?如果学习者掌握了一个单词,就能推断出与其相似的单词的意思?关于这一点,学术界也有不同的意见,因此在词表的制定过程中,不同的学者可能会采取不同的标准。前面已经提到过,BNC/COCA分级词表收录过程中使用了词族word family原则。词族word family是指将一个单词及其所有的屈折变化和派生变化都视为一个单词 [17] [18] ,如OBSERVE这个单词如果出现在以词族word family为标准制定的词汇表中,就说明OBSERVE这一词族既包含了它的屈折变化,如OBSERVING,OBSERVES,OBSERVED,也包含了它的派生变化,如OBSERVER,OBSERVATION,OBSERVANCE等等,这些屈折变化和派生变化都将不会再单独罗列在词表中。而关于课标(2017年版)词汇表,尽管教育部没有明确说明,但是课标的词汇编排主要还是遵循了词目LEMMA原则,词目LEMMA是指将一个单词的词干(headword)和它的屈折变化视为一个单词,而把它的派生变化视为另外一个单词 [2] [19] ,如RUN,RAN,RUNNING,RUNS作为词干“RUN”的不同语法变体,在指定单词表的时候,把它们都归在词干“RUN”里,一同视为一个单词,而RUN的派生变化,如RUNNER则需要被作为另外一个独立的单词,单独被罗列在词表中。如在“课标(2017年版)”中,INTRODUCE,INTRIDUCTION,INVENT,INVENTION,INFLUENCE,INFLUENTIAL,QUALIFY,QUALIFICATION,REACT,REACTION都分别被视为不同的词,被单独罗列在词表中作为中小学英语教学的内容和要求的一部分。而在BNC/COCA中,只罗列了INTRODUCE,INVENT,INFLUENCE,QUALIFY,REACT。尽管大多数的词汇研究都是以词族word family为标准,但是,近年来,词汇学家们逐渐发现了以词族word family为标准一些缺陷,很多专家都提出使用词目LEMMA词表更加可靠 [20] (Gardner & Davies, 2014)。首先,某些基于同一词干的不同派生词的意义产别很大,学生学会了词干并不能意味着他们就能理解其所有的派生词的意义,如REACT和REACTOR [20] [21] 。其次,基于词族word family的统计并不考虑词性,PROCEEDING (动词的现在分词形式) 和PROCEEDINGS (名词)会被视为来自同一词族word family [20] ,但是它们的意义却相差甚远。再次,很多实证研究都表明,单词的派生变化比单词的曲折变化要难得多,尤其是对于在校的中小学生和第二语言或外语学习者而言 [22] [23] 。因此,教学词表的设计和制定应基于词目LEMMA而不是词族word family [24] 。“课标(2017年版)”兼顾了中小学生既是英语的外语学习者,又处于英语学习得起步阶段这样的实际情况,编制词表时,既列出词干,也罗列了学生应掌握的相应的曲折变体,很好地体现了国际上公认的教学词表应使用词目LEMMA原则。同样的,对于一些复合词,学习者有可能掌握了两个单独的单词,但是不一定就能明白两个单词合在一起的意思,因此,将复合词单独罗列在词表中更能体现教学的重点。如WATERMELON,HOMEWORK,HOUSEWORK,OUTGOING,这些复合词,学习者在把两个独立的单词都学会了以后,并不一定就能够理解这两个单词所构成的复合词的意思。
5. 结语
“课标(2017年版)”和BNC/COCA分级词表的比对,表明“课标(2017年版)”所要求中国中小学生所掌握的三千个单词,大部分都是英语中的高频词汇,同时,课标根据中西方文化习俗、饮食习惯、计量单位等的差异,适当地删除了一些英语中的高频词汇,取而代之的是与我国的相应文化习惯相关的词汇,这与我国英语学科素养,和课程目标相呼应,英语学课核心素养之一的文化意识,就是要增强学生的国家认同和家国情怀,使学生具备一定的跨文化沟通和传播中华文化的能力。同时,作为我国中小学英语教育的指挥棒和风向标,“课标(2017年版)”在编排上遵循了科学、务实的原则,根据我国中小学生作为EFL的背景,在词表编排上坚持使用词目LEMMA作为标准,能更好地为教学服务。对于部分课标未包含的BNC/COCA词表中的高频词汇,笔者制定了这类词汇的补充词表,欢迎感兴趣的研究者和教师可以向笔者索要。