基于语料库的理工科本科生词块使用研究
An Empirical Study on the Use of Lexical Bundles by Undergraduate Students in Science and Engineering Based on Corpora
摘要: 本研究旨在探讨理工科本科生在学术英语写作中词块使用的特征及其与专家学者的差异。通过构建理工科本科生学术英语写作语料库(Chinese Students’s Corpus, CSC)和专家学术论文语料库(English Professionals’ Corpus, EPC),利用Antconc和MAT分词软件提取并分析3~6词长的词块。研究结果显示,三词词块在CSC和EPC中的使用最为频繁,且CSC中的词块总量显著高于EPC。结构上,名词词块在CSC和EPC中均占据主导地位,但CSC中动词词块和其他词块的使用率较EPC低,显示出学生在动词多样性上的不足。功能上,CSC中学生更倾向于使用研究者导向词块,而EPC中研究者导向和文本导向词块的使用相对均衡,反映出学生在构建语篇连贯性方面的不足。此外,研究发现CSC和EPC中存在一定数量的共用词块,但CSC在词块使用的地道性和多样性上仍有待提高。本研究为理工科本科生学术英语词块教学提供了实证依据,并为跨学科领域的学术英语教学提供参考。
Abstract: This study aims to explore the characteristics of lexical bundle usage in academic English writing among undergraduate students in science and engineering, as well as the differences between their usage and that of expert scholars. By constructing a corpus of academic English writing by science and engineering undergraduates (Chinese Students’ Corpus, CSC) and a corpus of expert academic papers (English Professionals’ Corpus, EPC), the study utilized Antconc and MAT to extract and analyze 3~6 words lexical bundles. The results indicate that three-word lexical bundles are the most frequently used in both CSC and EPC, with a significantly higher total number of lexical bundles in CSC compared to EPC. In terms of structure, noun-based lexical bundles dominate both CSC and EPC, but CSC shows lower usage rates of verb-based and other lexical bundles compared to EPC, suggesting a lack of diversity in verb usage among students. Functionally, students in CSC tend to use more researcher-oriented lexical bundles, while EPC displays a relatively balanced usage of researcher-oriented and text-oriented lexical bundles, reflecting students’ insufficiencies in constructing textual coherence. Additionally, while a certain number of shared lexical bundles were identified between CSC and EPC, the idiomaticity and diversity of lexical bundle usage in CSC remain to be improved. This study provides empirical evidence for the teaching of lexical bundles in academic English writing for science and engineering undergraduates and offers insights into interdisciplinary academic English instruction.
文章引用:张琨帆, 杨凤. 基于语料库的理工科本科生词块使用研究[J]. 现代语言学, 2024, 12(9): 519-526. https://doi.org/10.12677/ml.2024.129820

1. 引言

随着全球化的深入发展,科学研究已经超越了国界,成为一项全球性的活动,学术论文作为一个重要媒介对于全球文化交流起着重要的作用。国际上大部分高水平的学术论文、研究报告和学术著作都是用英语撰写的,不同于日常使用的英语,学术英语作为国际学术界通用的语言,使得来自不同国家和地区的学者能够顺畅地进行学术交流与合作,无论是发表论文、参加国际会议还是进行跨国研究合作,掌握学术英语都是必不可少的。

学术英语不仅要求能够读懂英文文献,还要求能够用准确、规范、严谨的英语表达自己的学术观点和研究成果。通过学术英语写作的训练,可以帮助学者直接阅读和理解这些原始资料,及时获取学科前沿的最新动态和研究成果,同时也能够培养严谨的逻辑思维能力和科学的表达能力,这对于科研人员保持学术敏感性和创新性至关重要。

学术英语词块在构建语篇时,包括短语、搭配、习语、句子框架等,不仅有助于提升表达的准确性和流畅性,还能增强学术文本的逻辑性和说服力。通过学术英语词块的使用,学者们可以使用客观且精确的词汇和表达方式来快速地表达复杂的概念和观点,减少语法错误和表达不清的问题,增强语言的正式性和专业性,从而帮助作者提高效率,更好地符合学术写作的规范和要求。

学术英语在高水平人群中使用较多,所以许多词块的研究主体都聚焦于硕士研究生和博士研究生,少有人选取本科生作为研究主体,同时,前人研究多关注为英语专业硕博学生,对其他学科领域的词块研究较为匮乏。因此,基于此背景,本文选取理工科本科学生作为研究主体,对其词块使用情况进行研究,以求为我国学术英语词块的跨学科发展提供更多的实证例证,促进跨学科领域的学术英语教学。

2. 文献综述

前人研究多聚焦于英语专业学生词块的使用情况,对英语专业大学生限时议论文写作中四字词块的使用情况进行研究后,杨丽萍(2010)发现英语专业学生总体上使用词块的频率不高,且大一学生和大四学生在使用词块的频数上存在显著性差异,大四学生使用词块的频率远高于大一学生。这表明英语水平不同,其词块输出率也不同,词块输出率越高,其英语水平也越高[1]。陈星(2023)也发现在英语专业学术写作中,学生词块使用的多样性和写作水平的差异都同写作质量密切相关[2]。以英语专业本硕博三种不同学位层次的人作为研究对象,徐昉(2012)也发现硕士阶段使用高频词块总量最多,博士阶段与国际学者接近,此外,博士阶段词块功能的丰富性提高,体现更多指示、学科专类和立场功能[3]。陈思文(2023)发现中国语言学博士生过度使用某些高频词块,介词词块占比最高,但在本族语博士生语料库,名词词块占比最高。跟本族语博士生相比,中国语言学博士生使用的名词词块和其他词块较为匮乏。从功能层面上看,研究型词块所占比例最高,而在本族语博士生语料库中,文本型词块所占比例最高[4]。卫圆杰(2011)在研究中还选取了高中和非英语专业大学生的语料进行对比,发现中国英语学习者使用的四字词块数量远超英语本族语者,但大部分与作文题目相关,为内容性词块;而英语本族语者使用了更多功能性词块,在使用习惯上体现出差异[5]

除英语学科外,前人对于其他学科领域的词块也有过研究。以理工科学生作为研究对象,冯琨(2013)对理工科研究生口语中词块使用情况进行了研究调查后发现理工科研究生过度使用某些简单词块,其中3字词块的使用频率最高,且随着词块中单词数量的增加,使用频率逐渐降低。学生对复杂词块的掌握不足,表现为使用上的局限性,如重复使用某些常见词块、忽视其他潜在可用的词块等,但随着时间推移,理工科研究生对复杂词块的掌握程度会有所提高[6]。高军(2018)对理工科研究生论文中四词词块的使用情况进行研究分析后发现后发现,理工科研究生论文中四词词块的数量和使用频率显著高于本族语学者,且多用研究型词块,而少用衔接性词块,影响语篇的连贯性,可能是由于理工科研究生在学术英语写作中受到汉语思维和表达的影响,以及学术英语写作经验不足所导致的词块使用的多样性和地道性不足[7]。Cortes (2004)对历史和生物学领域已发表作品与学生作品中的词汇短语使用情况调研后发现,即使学生使用了某些词汇束,其使用方式也与会与专业作者不同,但整体上,这些词汇束在两个学科中都扮演了相似的角色,用于组织文本、表达立场和进行交互[8]

近几年的研究中,任小华(2021)发现中美大学生英语演讲词中词块使用频次上存在显著差异,美国学生更倾向于使用较短的词块,且美国大学生在立场和指称词块的使用上频次高于中国大学生,而在组篇词块的使用上较低。这种差异可能与中美文化背景及教育体系的不同有关[9]。姜蕾(2024)发现不同水平学习者间共用词块的使用特点存在差异,高水平学习者更擅长使用多样化的词块,在立场词块、信息指示词块和语篇组织词块的使用上更为熟练和多样[10]。李燕(2023)通过对比中外学者在英语学术语篇中词块使用的共性与特性后,也揭示了文化差异对学术写作的影响[11]

本研究基于以下结构和功能框架对文本进行分析:

Biber (1999)对于词块结构上的分类较为完整,因此本研究基于词块结构分类框架进行。词块的使用被划分为两大语域:学术散文与对话。在这两个核心语域中,依据其语法结构和使用场景的特性,词块被分别归为14类和12类[12]。基于此结构分类,本文将词块的结构归类为名词词块,介词词块,动词词块和其他词块进行研究。

以下是这两个语域中词汇短语结构分类的概要表格。

Lexical Bundles in Conversation

Lexical Bundles in Academic Prose

1. personal pronoun + verb phrase

1. noun phrase with of phrase fragments

2. pronoun/noun phrase + be+...

2. noun phrase with other post modifier fragment

3. active verb phrase

4. yes-no question fragments

3. prepositional phrase with embedded of-phrase fragment

5. wh-question fragments

6. lexical bundles with wh-clauses

4. other prepositional phase fragment

7. lexical bundles with to-clauses

5. anticipatory it + verb phrase/adjective phrase

8. verb + that-clause fragments

6. passive verb + prepositional phrase fragment

9. adverbial clause fragments

7. copulas be + noun phrase/ adjective phrase

10. noun phrase fragments

8. (verb phrase+) that-clause fragment

11. prepositional phrase fragments

9. (verb/adjective +) to-clause fragment

12. quantifier expressions

10. adverbial clause fragments

13. other expressions

11. pronoun/noun phrase + be (+...)

14. meaningless sound bundles

12. other expressions

在功能层面的分类上,本研究选取Hyland (2008)的功能分类框架进行,分别为研究导向词块,文本导向词块和参与者导向词块[13]。如下所示:

研究导向词块旨在帮助作者组织和结构化他们对现实世界的活动和经验的描述。它们通常用于学术论文、研究报告等需要详细阐述研究过程、地点、方法和结果的文本中,包括:地点、程序/过程、量化、描述和主题。

文本导向词块关注于文本的组织结构和其作为信息或论点传递的意义。它们帮助作者构建连贯、有逻辑的文本,使读者能够清晰地理解作者的意图和论点。这些短语包括:过渡标志、结果标志、架构标志和框架标志。

参与者导向词块以文本的作者或读者为中心,关注于作者如何表达自己的立场和观点,以及如何与读者建立联系和互动,包括立场特征和互动特征。

3. 研究方法

3.1. 语料

本研究中的学生语料均选自北京的一所“211工程”大学中学术英语写作课程的结课论文,共计选取67篇理工科本科生的结课论文作为学生语料。同时,我们通过学生论文主题的分布情况,对学生的题目和关键词进行检索,选取近五年相关的SCI论文30篇作为专家语料,所选的期刊在当年的影响因子排名要保持在一区或者二区,共计97篇文章分别组成学生语料库和专家语料库,分别是Chinese Students’s Corpus (CSC)和English Professionals’ Corpus (EPC)。

3.2. 词块提取

对于词块的提取标准,不同研究根据语料库大小的不同而进行相应的调整,以此来保证数据结果的合理性。前人研究(徐昉2012;卫圆杰2011) [3] [5]多关注四字词块,因为其中包含有三字词块且结构较为完整,但为了更完整地展现不同长度词块的使用情况,本研究中对于词块的长度并未采取前人所用方法,而是将长度设定为3~6词的词块进行提取。同时,鉴于本研究中的语料库规模较小,所以将频率阙值设定为每百万词10次,且同时分布于5个不同的文本。

本研究借助Antconc和MAT分词软件进行辅助,对词块进行提取,并在提取结束后进行人工清除,来确保结果的准确性。

3.3. 研究问题

基于以上内容,本文着力于探究以下三个问题:

1. 中外理工科学术英语论文中学术英语词块的使用种类和分布有何不同?

2. 中外理工科学术英语论文中学术英语词块的结构和功能有何异同?

3. 中外理工科学术英语论文中共同使用频率最高的学术英语词块是哪些?

4. 结果与讨论

4.1. 理工科本科生词块使用整体情况

通过Antconc对两个语料库分别进行检索并经过人工清除后统计得出数据如表1所示。

Table 1. General information of lexical bundles used in CSC and EPC

1. 理工科本科生和专家词块数据统计

CSC

EPC

Tokens

Types

Tokens

Types

3-word LBs

5717

292

2958

150

4-word LBs

670

38

308

18

5-word LBs

118

8

0

0

6-word LBs

20

2

0

0

Total

6525

340

3266

168

三词词块在CSC和EPC中的使用最多,分别达到292和150,占比最高,四字词块的使用占比其次,分别为38和18,五字和六字文本导向词块使用占比较小,在CSC中共出现10个,在EPC中没有出现。对比专家语料中词块的使用总量,学生语料中的词块使用总量明显高于专家,研究结果并没有因为从英语专业学生转换为理工科学生而产生较大的结果差异。

4.2. 理工科本科生词块结构上差异

在学生高频使用的340个词块中,占比情况为:名词词块37.4%,介词词块21.2%,动词词块15.9%,其他词块25.5%,相对应地,在专家语料中的168个词块分别占比分别为38.6%,19.6%,20.9%和20.9%,如表2所示。

根据表中数据直观的展示,在学生语料和专家语料中,基于名词类型的词块最多,且在两个语料库中占比相似,相差1.2%,差距最大的为基于动词类型的词块,相差5%。在学生语料中排名第二使用率的其他词块,比在专家中排名第三的其他词块,高了4.6%。另外,基于介词类型的词块在学生和专家两个语料库中分别占比21.2%和19.6%,相差1.6%。

从结果中初步得出,学生和专家在名词词块的使用率上较为相似,说明学生对于学术英语论文中以名词为主的特征有一定认知,并且在行文中也尽量做到以名词表达为主,在动词和其他词块的使用率上相差都达到4%以上,说明学生在动词词块的使用上只机械性地依赖于某些特定动词词块进行表达,并未能像专家一样选取多种多样的动词表达,来避免过多重复和相同的英语短语或句式,同时过度使用其他词块,对学科词块运用较多。

Table 2. Structural information of lexical bundles used in CSC and EPC

2. 理工科本科生和专家词块结构数据

CSC

EPC

名词词块

127

37.4%

65

38.6%

介词词块

72

21.2%

33

19.6%

动词词块

54

15.9%

35

20.9%

其他词块

87

25.5%

35

20.9%

4.3. 理工科本科生词块功能上差异

在CSC中,研究者导向词块的数量最多,共182个,占比达到了53.6%,明显高于其他两个类别,文本导向词块的占比为35.8%,参与者导向词块的占比最低,为10.6%。在EPC中,研究者导向词块和文本导向词块占比都达到40%以上,分别为47.6%和43.4%,参与者导向词块较少,为9%,如表3所示。

Table 3. Functional information of lexical bundles used in CSC and EPC

3. 理工科本科生和专家词块功能数据

CSC

EPC

研究者导向词块

182

53.6%

80

47.6%

文本导向词块

122

35.8%

73

43.4%

参与者导向词块

36

10.6%

15

9.0%

根据图表所示,理工科本科生高频使用研究导向词块,如“the development of in、the process of、the majority of”等词块来描述实验过程或结果,并对研究主题内容进行限定,表现出理工科学科更注重研究的客观性。这同前人(高军2018)研究呈相同结果。在构建语篇方面,理工科本科生的使用频率略低于专家,为7.6%,主要表现为功能性连接词的使用并不地道或行为逻辑方面的欠缺,且表现出集中使用某些连接词的情况。参与者导向词块的使用频率在CSC和EPC中都占比较低,可能因为此类词块大都带有主观色彩如判断、评价或程度的高低,所以在两个语料库中都采用较少,以提高文章内容的客观性,增加文章说服力。

4.4. 共同使用频率最高的学术英语词块

在对比总结学生和专家的共用词块后,共得出88个共同使用词块,且都以名词词块为主(41.1%),PP和VP占比相同,都为20.4%,其他词块都各占18.1%。如表4所示,在使用频率前10和前20的词块中,分别有5个和13个词块同时被专家和学生所使用,占比率分别达到50%和65%。

但是共用词块在学生语料中仅仅占比25.9%,而在专家所用词块中达到48.3%,这揭示了学生已经意识到学术英语写作中以名词构成为主,但是在选词上同专家还有较大差别,此现象很有可能是受学生本身母语思维和对个别词汇的使用场景不熟悉所导致的,所以学生更倾向于使用他们所熟知的词块,换句话说,学生在文本输出时,并没有投入很多的精力去关注选用不同的词或短语来进行表达,这同前人所做研究结果保持一致(王文宇,文秋芳2002) [14]

Table 4. Common used lexical bundles in CSC and EPC

4. CSC与EPC共用词块

EPC

CSC

Rank

Freq

Range

Lexical bundles

Rank

Freq

Range

Lexical Bundles

1

74

15

based on the

1

95

44

in order to

2

66

16

the number of

2

91

34

based on the

3

64

15

in terms of

3

90

30

the development of

4

63

19

as well as

4

81

38

according to the

5

48

10

the context of

5

66

31

it can be

6

47

12

in order to

6

58

36

due to the

7

46

15

one of the

7

57

27

can be seen

8

44

17

due to the

8

54

22

the impact of

9

43

11

in this study

9

50

27

in terms of

10

39

11

the relationship between

10

46

21

the number of

11

37

17

according to the

11

44

20

the results of

12

37

10

as shown in

12

44

18

the influence of

13

37

9

more likely to

13

43

27

as well as

14

36

17

on the other

14

42

25

the use of

15

34

14

the use of

15

38

13

the relationship between

16

33

12

the development of

16

38

26

the purpose of

17

33

13

the results of

17

36

23

one of the

18

32

15

on the other hand

18

35

21

there is a

19

31

12

it can be

19

35

15

the process of

20

30

14

the fact that

20

33

20

of this study

5. 结论

综上所述,学术英语词块在学术写作和交流中具有不可替代的重要性,对于非英语母语的学者来说,学习学术英语词块是提高学术英语写作能力的有效途径。通过大量阅读和实践,他们可以逐渐掌握这些词块并灵活运用到自己的写作中,从而逐步提高自己的学术英语水平。

同时,学者不仅应该意识到词块的重要性,更应该重视这些词块的理解和运用,模仿和学习专家作者的行文逻辑和选词使用,学校课堂也应起到引导作用,将词块教学融入课堂之内,让作者可以根据不同学科领域,选取特定的学术词块和表达方式来更好地适应不同学科领域的写作要求,展现自己的专业素养和研究能力。

本研究也存在一定的局限性,首先,语料库规模较小,研究结果可能会因为语料库规模大小的变化而导致研究结果的不同;其次,本研究并未对词块研究进行更细化的分类,如对基于功能分类的研究导向词块,文本导向词块和参与者导向词块中的某一种进行更深层次的剖析,未来的研究可以着重研究更细化的分类,以求对词块的研究得到更完整,系统的教学体系。

参考文献

[1] 杨丽萍. 基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D]: [硕士学位论文]. 南昌: 江西师范大学, 2001.
[2] 陈星. 英语专业学术写作中的词块使用实证研究[J]. 英语广场, 2023(13): 120-123.
[3] 徐昉. 中国学习者英语学术词块的使用及发展特征研究[J]. 中国外语: 中英文版, 2012(4): 51-56.
[4] 陈思文. 中外英语语言学博士论文四字词块使用对比研究[D]: [硕士学位论文]. 长春: 吉林大学, 2023.
[5] 卫圆杰. 中国英语学习者作文中四字词使用的语料库分析[D]: [硕士学位论文]. 天津: 天津师范大学, 2011.
[6] 冯琨. 理工科研究生口语中词块使用情况的历时研究[D]: [硕士学位论文]. 太原: 太原理工大学, 2013.
[7] 高军, 杨璐. 理工科研究生学术英语词块使用研究[J]. 外国语文, 2018, 34(6): 77-85.
[8] Cortes, V. (2004) Lexical Bundles in Published and Student Disciplinary Writing: Examples from History and Biology. English for Specific Purposes, 23, 397-423.
https://doi.org/10.1016/j.esp.2003.12.001
[9] 任小华. 中美大学生英语演讲词中词块的使用——基于语料库的研究[J]. 安庆师范大学学报(社会科学版), 2021, 40(6): 56-60.
[10] 姜蕾, 康梦超, 肖瑶. 不同水平英语学习者词块使用的结构与功能特点[J]. 东北大学学报(社会科学版), 2024, 26(3): 127-136.
[11] 李燕, 姜峰. 中外学者英语学术语篇词块使用的共性与特性[J]. 外语教学, 2023, 44(5): 41-46.
[12] Biber, D., Johansson, S., Leech, G., Conrad, S. and Finegan, E. (1999) Longman Grammar of Spoken and Written English. Pearson.
[13] Hyland, K. (2008) As Can Be Seen: Lexical Bundles and Disciplinary Variation. English for Specific Purposes, 27, 4-21.
https://doi.org/10.1016/j.esp.2007.06.001
[14] 王文宇, 文秋芳. 母语思维与二语写作——大学生英语写作过程研究[J]. 解放军外国语学院学报, 2002, 25(4): 64-67, 76.