1. 引言
在高中英语教学实践活动中,教材是学生获取英语知识、提升语言综合能力的关键[1]。教材词汇的质量直接影响到词汇教学的质量。现有对于教材中词汇的研究多以大学英语教材和初中英语教材为主,对高中英语教材的词汇研究还比较有限,缺乏以语料库为基础的系统的英语教材词汇研究[2] [3]。本研究自建人教版高中英语教材语料库,从标准类符/形符比(STTR)、平均词长/句长、课标词汇的覆盖率、课标词汇的复现率等方面对教材中的词汇特征进行分析[4]。本研究的意义主要体现在:通过对教材词汇进行系统科学的分析,发现潜在的问题,从而对教材的优化编写和教学实际提出改进的建议和帮助。
2. 文献综述
国外学者对于教材词汇的分析主要集中在以下几个方面[5]:在词汇频率与覆盖率研究方面,研究者利用BNC、COCA等大型语料库对教材词汇进行实证分析,评估教材词汇的实用性与教学适配性。Nation (2001, 2006) [6]提出,掌握英语中最常见的2000个词族可覆盖大多数文本内容,强调高频词在教材中的重要性。在教材词汇量和学习者匹配度的考察上,Nordlund (2016) [7]指出,教材词汇应考虑学习者年龄、语言水平及文化背景,避免过多低频词造成学习负担。Coxhead等(2010)研究发现[8],部分教材包含大量低频词,学生需掌握超过14,000个词族才能流畅阅读,远超其词汇能力。
国内英语教材的词汇研究起步较晚,但近年来发展迅速,研究内容日益细化,曹慧芳(2024) [9] [10]对比《普通高中英语课程标准(2017年版)》词汇表和BNC/COCA词表发现,课标词汇基本涵盖了英语高频词汇。有的研究关注课本上的词汇的复现,指出对学生记忆和运用词汇的关键影响因素是词汇的低复现率[11]。如赵建国、陈秋竹(2019)等人[12]在小学英语课本上发现部分课标词汇重现率不够,且复现形式单一,对词汇内化造成了影响。Webb & Macalister (2013) [13] [14]的研究聚焦于词汇复现率对习得效果的影响,他们通过实证研究发现,一个生词需要在不同语境中复现至少7~10次才有可能被学习者真正掌握,这对教材编写中词汇的循环出现设计提出了要求。这些研究从不同学段印证了复现率的重要性。
现有的对于教材中词汇的研究多以大学英语教材和初中英语教材为主,对高中英语教材的词汇研究还比较有限,缺乏以语料库为基础的系统的英语教材词汇研究。尤其缺乏对新版人教版高中英语教材(必修与选择性必修)从词汇基础特征、复现规律到与课标契合度的全面、连贯的考察[15]。
3. 研究计划
3.1. 研究对象
最新版(2019版)人教版高中英语教材共七册,含必修三册(必修1~3)与选择性必修四册(选必4~7)。教材以新课标为依据,设计模块化单元,涵盖人与自我、社会及自然等主题,词汇量约3500词,侧重语境化与复现,为语料库词汇研究提供了丰富的文本素材。
3.2. 具体研究内容
3.2.1. 词汇基础特征分析
(1) 统计教材的形符数(总词汇量)、类符数(不重复词汇量)、类符/形符比(TTR)及标准类符/形符比(STTR)。
(2) 从词汇密度、词汇多样性、词汇复杂度等角度分析教材词汇的复杂性。
3.2.2. 词汇复现与分布规律
(1) 统计高频词(复现 ≥ 5次)和一次词(仅出现1次)的比例,对比英语本族语料库(如BNC)的复现规律。
(2) 分析教材词汇的梯度分布,评估分册间难度递增的合理性。
3.2.3. 课标词汇的覆盖率、课标词汇的复现率
基于《普通高中英语课程标准(2017年版2020年修订)词汇表》,计算教材词汇的分级覆盖率及超纲词比例。
3.3. 研究具体方法与步骤
(1) 寻找并获取新版人教版高中英语教材必修一、必修二、必修三、选择性必修一、选择性必修二、选择性必修三、选择性必修四电子版原册。扫描教材并将其转换为txt本文形式,作为原始语料。
(2) 使用专业的文本编辑器:Notepad++对原始语料进行文本清洗,以符合后续文本分析的规范要求。文本清洗具体操作:使用正则表达式对中文内容,页码,页眉页脚,删习题号,非英文标点符号等内容进行删除,值得注意的是在清洗时有意保留了“-”和“'”此类标点符号以避免对短语、合成词或所有格的误删除,进而避免清洗过度。
(3) 将使用Notepad++软件清洗过后的语料导入TAALES (Tool for the Automatic Analysis of Lexical Sophistication)和TAALED (Tool for the Automatic Analysis of Lexical Diversity)来进行词汇复杂性分析,并导出分析所得数据。分析所得数据主要维度如下:
content_word_ratio (实词比例);function_word_ratio (功能词比例);MTLD (抗文本长度干扰Measure of Textual Lexical Diversity);HD-D (超几何分布Hypergeometric Distribution D);MATTR (Moving-Average Type-Token Ratio);Word Frequency & Range (词频与常见度);Academic Language (学术与专业性);Psycholinguistic Properties (心理语言学难度)。
(4) 采用自然语言处理中的词形还原(lemmatization)方法,首先使用TagAnt对教材及课程标准文本进行词汇规范化处理,继而将处理后的语料导入AntWordProfiler进行词汇分布分析,最终直接获得教材词汇在课程标准中的覆盖率数据。利用分析所得数据进行计算得到复现率(repetition rate),所用计算公式为:复现率(repetition rate) = 大纲词汇的总词数(tokens)/大纲词汇的总词形数(types或head types)。
4. 研究结果与分析
本次研究主要覆盖分析了目标教材语料中的词汇特征,研究内容包括:词汇总量、形符数量、类符数量、平均词长;词汇的复杂性;课标词汇的覆盖率与复现率。
4.1. 教材词汇的形符数、类符数以及类符/形符比、标准类符/形符比
Table 1. Three-line table for type-token data
表1. 类符形符数据三线表
 
  
    教材  | 
    形符数(Tokens)  | 
    类符数(Types)  | 
    类符/形符比(TTR)  | 
    标准类府/形符比(STTR)  | 
  
  
    必修1  | 
    27,496  | 
    2530  | 
    0.0920  | 
    0.7652  | 
  
  
    必修2  | 
    28,021  | 
    2685  | 
    0.0958  | 
    0.7534  | 
  
  
    必修3  | 
    30,940  | 
    2987  | 
    0.0965  | 
    0.7617  | 
  
  
    选择性必修1  | 
    30,778  | 
    3172  | 
    0.1031  | 
    0.7717  | 
  
  
    选择性必修2  | 
    36,730  | 
    3472  | 
    0.0945  | 
    0.7732  | 
  
  
    选择性必修3  | 
    29,831  | 
    3179  | 
    0.1066  | 
    0.7687  | 
  
  
    选择性必修4  | 
    34,147  | 
    3763  | 
    0.1102  | 
    0.7694  | 
  
 由表1数据可得,在形符数量方面,必修1~必修3的形符数量呈现稳定增长趋势,增长率达到12.5%。而在选择性必修教材中,选择性必修1到选择性必修2显著增加,选择性必修3则有所下降,而在选择性必修4中则又有所回升。
类符数变化同样显著,从必修1到必修3的类符数量也呈现稳定增长趋势,增长率达18.1%。在选择性必修教材中,选择性必修1到选择性必修2显著增加,选择性必修3则有所下降,而在选择性必修4中则又有所回升。
类符/形符比(TTR)在一定程度上与词汇的多样性、难度呈正相关。必修教材的TTR相对较低,在0.0920到0.0965之间,说明其编者更加重视核心词汇,有利于学习者巩固学习核心词汇。而选修教材的TTR相对较高,介于0.103~0.110之间,说明编者在这几册书中引入了更多新难词汇,意图拓展学习者的词汇积累。
从必修到选择性必修教材的词汇总量呈现明显的递增趋势,可以看出编写时有意让学生遵循循序渐进的科学学习规律,而类符/形符比(TTR)的变化则能够看出编者想在让学生巩固掌握核心知识的基础上再进一步拓展知识积累。
4.2. 词汇复杂性分析
4.2.1. 词汇密度分析(Lexical Density)
Table 2. Three-line table for lexical density data
表2. 词汇密度数据三线表
 
  
    教材  | 
    类型词汇密度  | 
    实词词汇密度  | 
  
  
    必修1  | 
    0.892  | 
    0.506  | 
  
  
    必修2  | 
    0.899  | 
    0.507  | 
  
  
    必修3  | 
    0.904  | 
    0.495  | 
  
  
    选择性1必修1  | 
    0.908  | 
    0.509  | 
  
  
    选择性必修2  | 
    0.908  | 
    0.497  | 
  
  
    选择性必修3  | 
    0.911  | 
    0.507  | 
  
  
    选择性必修4  | 
    0.919  | 
    0.495  | 
  
 由表2数据可得,类型词汇密度能够有效反映文本的词汇多样性,总频词汇密度则能够有效反映整个文本中的实词密度。通过这两个数据分析结果我们能够得知文本中的词汇丰富程度以及有效信息的分布情况。类型词汇密度方面,所有教材数据在0.89到0.92之间,这说明人教版高中英语教材具有较高的信息密度,适合学习者进行系统性的学习。
具体来看,从必修1到选择性必修4,类型词汇密度稳定上升,从最低的0.892到最高的0.919,这样的上升趋势能够看出教材难度的梯度上升趋势。
总频词汇密度则保持相对稳定,所有教材数据都在0.495到0.509之间,各教材相差不大,说明各册教材在实词占比上保持相近的比例。所有教材的实词占比均接近于50%,说明各册教材编写时注重实际词汇积累与语法学习的平衡。
4.2.2. 词汇多样性分析(Diversity)
Table 3. Three-line table for lexical diversity data
表3. 多样性数据三线表
 
  
    教材  | 
    MATTR  | 
    HD-D  | 
    MTLD  | 
  
  
    必修1  | 
    0.765  | 
    0.863  | 
    63.71  | 
  
  
    必修2  | 
    0.753  | 
    0.853  | 
    57.25  | 
  
  
    必修3  | 
    0.761  | 
    0.856  | 
    60.75  | 
  
  
    选择性必修1  | 
    0.772  | 
    0.868  | 
    68.68  | 
  
  
    选择性必修2  | 
    0.773  | 
    0.869  | 
    68.32  | 
  
  
    选择性必修3  | 
    0.769  | 
    0.863  | 
    67.30  | 
  
  
    选择性必修4  | 
    0.769  | 
    0.863  | 
    65.57  | 
  
 对表3数据进行分析解读如下:
MATTR (移动平均TTR)与传统TTR相比,通过滑动窗口计算平均值,能够减少文本长度对结果的影响。从表3数据可得,选择性必修教材词汇丰富度均高于必修教材,说明其词汇丰富度更高。
HD-D值(超几何分布D)方面,所有教材均高于0.85,从高HD-D值不难看出所有被研究教材在编写时均注重词汇多样性而非固定范围内的知识学习。
MTLD值(测量文本词汇多样性)方面,必修教材与选择性必修教材之间有着明显差异。必修教材的平均值为60.57,选修教材平均值为67.47,提升幅度达11.4%。从这种显著差异中能够得出,编者编写选修教材时,有意注重词汇多样性方面,提高其文本复杂度。
4.3. 词汇复杂度分析(来自TAALES)
4.3.1. 以BNC为参照的词频与分布
由表4数据可得,BNC是英国国家语料库(British National Corpus),常用于英语语言学中对词汇难度与常见度的研究。BNC词频平均值能够反映教材选用词汇的整体频率水平。所有教材的平均值都集中在7.77到8.69之间,属于中等频率范围之内,能够得知教材词汇既没有选择过多的生僻词汇,又注重广泛拓展词汇而非仅仅集中学习高频词汇。BNC分布范围值均高于70,能够得出所研究的教材词汇在BNC语料库中的覆盖范围广泛,而非特定语境或领域的特定用语。这样的编写安排能够为学习者提供更加丰富的词汇量以及更多的接触词汇多样用法的机会,有利于培养语言运用能力。
Table 4. Three-line table for word frequency data
表4. 词频数据三线表
 
  
    教材  | 
    BNC词频平均值  | 
    BNC词频对数  | 
    BNC分布范围  | 
  
  
    必修1  | 
    7.77  | 
    0.463  | 
    70.20  | 
  
  
    必修2  | 
    8.69  | 
    0.495  | 
    71.26  | 
  
  
    必修3  | 
    8.63  | 
    0.500  | 
    70.46  | 
  
  
    选择性必修1  | 
    7.84  | 
    0.478  | 
    71.51  | 
  
  
    选择性必修2  | 
    7.90  | 
    0.487  | 
    70.81  | 
  
  
    选择性必修3  | 
    8.14  | 
    0.480  | 
    70.28  | 
  
  
    选择性必修4  | 
    8.25  | 
    0.501  | 
    71.10  | 
  
 4.3.2. 心理语言学特征
Table 5. Three-line table of psycholinguistic features
表5. 心理语言学特征数据三线表
 
  
    教材  | 
    具体性  | 
    熟悉度  | 
    意象性  | 
    获得年龄  | 
  
  
    必修1  | 
    320.16  | 
    592.61  | 
    345.25  | 
    5.24  | 
  
  
    必修2  | 
    318.48  | 
    592.41  | 
    342.60  | 
    5.37  | 
  
  
    必修3  | 
    318.92  | 
    592.31  | 
    342.84  | 
    5.26  | 
  
  
    选择性必修1  | 
    320.80  | 
    592.03  | 
    344.82  | 
    5.42  | 
  
  
    选择性必修2  | 
    320.86  | 
    592.35  | 
    344.36  | 
    5.30  | 
  
  
    选择性必修3  | 
    319.89  | 
    590.29  | 
    344.29  | 
    5.40  | 
  
  
    选择性必修4  | 
    318.02  | 
    591.62  | 
    342.56  | 
    5.36  | 
  
 由表5数据可得,心理语言学特征能够反映母语者的习得年龄和词汇的认知与学习难度。所有教材的具体性数值都保持在318~321之间;熟悉度维持在590~593的之间;意象性也在342~345之间。三个研究维度都处于高水平区间,说明研究教材选用的词汇容易理解和记忆,符合二语习得的科学认知与学习规律,有利于降低学习者的学习难度与压力。
获得年龄(AoA)值介于5.24到5.42之间,表明这些词汇在英语母语者中都是较早习得的(通常5~6岁),由此可见研究教材词汇的基础性和实用性。值得注意的是,选择性必修教材的AoA值与必修教材相比相对较高,且熟悉度略低,说明选择性必修教材可能引入了一些英语母语者相对较晚习得的词汇,适当增加了学习难度的同时也进一步丰富了学习者的词汇积累,由此可知教材词汇循序渐进的难度梯度,体现了教材学习体系的系统性与科学性。
4.4. 课标词汇的覆盖率与复现率
从图1数据可清晰看出,七本教材的覆盖率整体维持在较高水准,均突破87%,这一数据区间充分体现了教材在知识体系构建上的全面性基础,整体表现稳定,说明这些教材在词汇选择上与课标具有较高的一致性,符合教学大纲的要求。不过,细致对比各教材的覆盖率数值会发现,最高值与最低值之间的差值仅为1.54个百分点,各教材间的覆盖率差值普遍较小,整体呈现出极为稳定的态势。这一显著特征表明,该系列教材在内容覆盖的广度上保持了良好的一致性,能够较为全面地涵盖教学大纲所要求的核心知识点、技能点以及相关拓展内容,为学生构建系统的知识框架提供了坚实的文本基础。
Figure 1. Dual-axis chart: coverage and repetition rate
图1. 词汇覆盖率与复现率双指标折线图与簇状图
复现率的波动更为明显,整体处于11~14次的区间,这一波动范围反映出不同教材在内容重复设计上存在一定的灵活性。其中,选必二复现率最高,平均复现了13.79次,说明其在知识巩固和衔接上可能采用了更多重复强化的方式;选必四则以11.54次的平均复现次数成为复现率最低的教材,暗示其在内容编排上可能更侧重新知识的递进与拓展。复现率的这种差异直观反映出不同教材在内容重复频次上的区别,深入分析来看,这一现象可能与各教材的知识体系搭建逻辑(如螺旋式上升或直线式推进)、重点内容的强化需求(如核心概念需要多次复现加深理解)存在密切关联。
复现率的波动反映出不同教材在词汇重复策略上的差异,可能与教学目标、文本类型和语言难度有关。
5. 讨论与总结
5.1. 研究总结
经过分析可以发现,人教版所编写的7本高中英语教材总共涵盖了164,982个形符,5638个词族。其中课标词汇占2142个词族,这个数量占到了课标总词族的82.09%,由此可以看出教材基本上能够满足课标方面的要求。课标词汇的复现率处于偏低的状态,而BNC词频则属于一般的水平,BNC的分布范围相对较高,具备较强的通用性[16]。从各类词的分布情况来看[17],名词以及动词所占的比例是最高的,主要呈现出的是日常高频词以及功能动词的特点;形容词与副词所占的比例达到了27%,并且大多用于描述抽象的概念,这与高中生逻辑表达能力的培养目标是相契合的。必修教材的形符比较低,而选修教材的形符比要高一些,从这一点便可以看出教材在不同方面的侧重点存在差异。
在相关研究当中,研究者察觉到词汇频率分布呈现出不均衡的特点,有关指标表明课标词汇复现具备“阶段性递进”的特性,就好比必修1~2阶段,其基础词汇平均会复现8~12次,着重于输入型文本方面;而到了选修阶段,复现次数降低至4~6次,不过融入了输出型任务。核心词汇的复现率能够达到92%,而非核心词汇仅仅只有48%,这体现出教材针对词汇优先级所做的划分情况[18]。从MATTR、HD-D以及MTLD这三个关键指标来分析,无论是必修还是选修教材,其对应的数值都处于比较高的水平,也就是说词汇是足够丰富且多变的。课标词汇分布整体符合课标要求但存在复现不均衡状况,具体表现为:其一,覆盖率维持高水准且稳定性强,七本教材的课标词汇覆盖率均突破87%,各册间最高与最低值差值仅1.54个百分点,充分体现教材与课标词汇的高一致性,为学生构建系统知识框架提供基础;其二,复现率波动明显且差异显著,复现率整体处于11~14次区间,选必二复现率最高(平均13.79次),选必四复现率最低(平均11.54次),反映出不同教材因知识体系逻辑(如螺旋式上升/直线式推进)、教学目标差异,在词汇重复强化策略上存在明显区别。就册次间词汇分布动态以及难度演进情况来看,教材词汇负载呈现出非线性增长的特点。类符阶梯波动较为明显,其中必修教材的TTR相对较低,其数值范围在0.092至0.096之间;而选修教材的TTR则比较高,其数值范围为0.103至0.110。STTR在必修阶段是缓慢上升的,然而到了选修阶段,从选修一到选修二,其数值先是骤增而后趋于稳定,这反映出词汇多样性的提升,但也存在复杂度方面的风险[19] [20]。通过类符数可以发现,词汇难度分级与课标匹配的程度存在着很大的差异。类符数从必修开始一直到选修,其数值呈现出越来越高的趋势,比如说选修4的生词种类和必修1相比,多出了将近一半的数量。部分单元的难度出现过大的跃升情况,并且缺乏相应的语境支撑。不过需要指出的是,从心理语言学的专业数值方面来讲,7本教材在具体性、熟悉度以及意象性这几个维度对应的数值都很高,也就是说教材所涉及的词汇都比较具体且形象,这对于学习者来说是比较容易理解和记忆的。在获取年龄这一指标方面,每册教材的得分都在5.24至5.42这个区间范围内,这也证明了教材所涉及的词汇是比较基础的[21]。
本研究建议老师在教授必修教材的时候,着重对核心词汇加以巩固,要强调那些中等频率出现的基础词,借助必修教材里词汇形象且具体的这一特点,以此来激发学习者的学习兴趣;而当教师开展选修教材的讲授工作时,应着重去扩大学生的词汇量,鼓励学生去学习猜测词义以及总结应对复杂文本的相关策略。人教版英语教材的学习者要是能够利用螺旋式的复习方式[22],并且清楚自身所处的水平以及确定好学习目标,进而选择与之对应的教材,那么就能够取得更好的学习成效。
5.2. 本研究对教学实践的具体启示如下
(1) 教师应依据各册教材的词汇特征采取差异化策略。在必修阶段,由于词汇具体性高、复现率相对稳定,教师应聚焦核心词汇的巩固,利用形象化教学手段(如图片、实物)增强记忆;在选修阶段,针对词汇多样性高但复现率波动大的特点,教师需引导学生学习词义猜测策略,并通过项目式学习增加词汇输出机会。
(2) 针对复现率较低的册次(如选必四),教师应设计跨单元词汇循环练习,利用语境复现(如阅读、写作任务)弥补教材不足;而对于复现率较高的册次(如选必二),可侧重于词汇的深度加工和应用训练。
(3) 学生应采用螺旋式复习方法,结合自身水平分册复习,优先掌握高频词族和课标核心词汇,并利用教材心理语言学特征(如高具体性)降低认知负荷,提升学习效率。
本研究建议老师在教授必修教材的时候,着重对核心词汇加以巩固,要强调那些中等频率出现的基础词,借助必修教材里词汇形象且具体的这一特点,以此来激发学习者的学习兴趣;而当教师开展选修教材的讲授工作时,应着重去扩大学生的词汇量,鼓励学生去学习猜测词义以及总结应对复杂文本的相关策略。人教版英语教材的学习者要是能够利用螺旋式的复习方式[22],并且清楚自身所处的水平以及确定好学习目标,进而选择与之对应的教材,那么就能够取得更好的学习成效。