1. 引言
代词是语言系统中实现指代与衔接的核心成分,其简洁形式在维系语义连贯与信息组织中发挥着重要作用。正因其在语言结构与意义建构中的核心地位,代词的分布与使用特征逐渐成为语言学与语篇研究的重要议题[1] [2]。
回顾前人的研究可以发现,代词在构建作者身份、表达立场以及组织论述结构方面受到了广泛关注。现有文献通常从四个角度分析学术语篇中的代词:一是文化因素,研究显示英语本族语作者在论文中第一人称“I”和“we”的使用频率高于非母语作者,以表达主体性或集体参与感,而非母语或中文作者使用较少以降低可见性或保持客观性[3]-[6];二是学科因素,软科学倾向使用“I”以表达个人观点,硬科学更多使用“we”体现团队合作和研究客观性,学科内部亦存在差异,如应用科学领域使用第一人称频率较低[7]-[9];三是学习者写作特征,低水平学习者倾向使用“we”表现集体性并减少“I”“you”,高水平学习者更善于使用普遍性代词调节作者/读者显现度,同时母语迁移可导致非传统或过度使用现象[10]-[12];四是历时变化,研究显示第一人称代词的使用呈上升趋势,尤其是复数“we”,论文风格呈现更强的主观性与互动性,而非母语作者多将“we”用作立场或介入标记以降低身份显现度[13]-[15]。综上可知,尽管已有研究在第一人称代词使用方面积累了较多成果,但对指示代词、物主代词等其他代词类型的系统性考察仍显不足,且跨学科语篇中代词的整体系统比较研究尚未开展,这在一定程度上限制了我们对代词在不同学科语境下结构、功能与学术身份建构作用的全面理解。
鉴于此,本文基于自建软硬学科英语期刊论文语料库,旨在系统分析不同类型代词在学术语篇中的使用频率和分布特征,比较硬科学与软科学学术期刊论文中不同代词类型的差异,并探讨这些差异与学科写作规范及论述组织方式的关系。这些分析不仅有助于深化对代词功能的跨学科理解,也为揭示学科话语变异的机制与学术表达的共性规律提供了重要参考。
2. 代词的分类
代词在不同语法学著作中的分类大体一致,通常包括人称代词、物主代词、反身代词、指示代词、疑问代词、关系代词和不定代词等,学者多依据语法功能、语篇功能及指代特征进行划分。综合Quirk et al. [16]与Biber et al. [17]的代词分类体系,并结合学术语篇的使用特点,本文将研究范围限定于人称代词、物主代词、反身代词、指示代词、不定代词、相互代词和关系代词。鉴于学术语篇中疑问代词的使用频率极低,其研究价值有限,故未纳入分析。表1展示了本文采用的代词分类体系及各类主要代词类型,该分类兼顾语法与语篇功能,为后续跨学科语篇中代词使用频率与分布特征的系统分析提供了理论支撑。
Table 1. Subcategories of pronouns
表1. 代词的分类
代词类型 |
代词 |
人称代词 |
I, me, we, us, you, he, him, she, her, it, they, them |
物主代词 |
my, mine, our, ours, your, yours, his, her, hers, its, their, theirs |
反身代词 |
myself, yourself, ourselves, yourselves, himself, herself, itself, themselves |
指示代词 |
this, that, these, those |
不定代词 |
everyone, everybody, everything, someone, somebody, something, anyone, anybody, anything, no one, nobody, nothing, every, some, any, each, either, neither, none, one |
相互代词 |
each other, one another |
关系代词 |
wh-pronouns, that |
在综合前人代词分类框架的基础上,本研究对不定代词one的语义与功能进行细分,将其区分为数值型、替代型与类指型三类。其中,数值型one主要承担数量限定功能,与代词体系的核心特征关联较弱;而替代型与类指型one则体现出代词在语篇衔接和泛指表达方面的功能价值。因此,本研究仅将替代型和类指型one纳入分析,以确保研究范围的科学性与严谨性。
3. 语料采集和研究方法
本研究基于自建语料库进行分析。具体而言,分别选取物理学与计算机学科作为硬科学代表,语言学与管理学作为软科学代表。在Science in Elsevier上检索上述四个学科的高影响力期刊论文,限定发表时间为2011~2025年,以确保研究结果的时效性与代表性。最终,共收集物理学期刊论文48篇、计算机学科论文122篇,构建硬科学期刊论文语料总库;收集语言学期刊论文112篇、管理学论文41篇,构建软科学期刊论文语料总库。在语料整理过程中,仅保留论文正文部分,删除题目、摘要、致谢、图表说明及参考文献等非正文内容。为进一步确保语料间的可比性,本文利用Python对两个语料库进行随机抽样,使二者在篇幅与总词量上保持平衡。最终形成两个具有可比性的子语料库:硬科学学术期刊论文库(Hard Discipline of Research Articles,简称HDRA),共计520,238形符;软科学学术期刊论文库(Soft Discipline of Research Articles,简称SDRA),共计526,724形符。总体信息见表2。
Table 2. Description of HDRA and SDRA
表2. HDRA和SDRA的构成
学科 |
子学科 |
形符数 |
总计 |
HDRA |
物理学 |
257748 |
520238 |
计算机 |
262490 |
SDRA |
语言学 |
260169 |
526714 |
管理学 |
266545 |
本研究首先借助AntConc软件的语境共现(Concordance)功能,从HDRA和SDRA中提取各类代词的全部出现实例。随后,研究者对提取结果进行人工核查与筛选,剔除出现在引用内容、例证说明及其他非作者主体论述部分的代词,以确保统计结果能够真实反映作者在学术写作中的代词使用情况。在数据处理阶段,计算各类代词在不同学科语篇中的分布频率与出现频次,并使用SPSS 26.0进行卡方检验(Chi-square test),以检验软硬学科间代词使用差异的显著性。当p < 0.05时,视为两组数据差异具有统计学意义。
4. 研究结果分析
4.1. 代词在学术期刊论文中的总体分布
为考察代词在不同学科范畴中的总体使用特征,本文首先对硬科学学术期刊论文库(HDRA)与软科学学术期刊论文库(SDRA)中所有代词的出现频数进行了统计,结果如表3所示(每万词标准频)。
Table 3. Overall frequencies of pronouns in HDRA and SDRA
表3. 代词在HDRA和SDRA中的总体使用情况
学科 |
R.F. |
S.F. |
HDRA |
19321 |
371.39 |
SDRA |
23578 |
447.64 |
Note:RF = Raw Frequency;SF = Standard Frequency (per 10,000词)。
表3显示,硬科学学术期刊论文库中代词的原始频数为19,321,标准频数为371.39;软科学学术期刊论文库中代词的原始频数为23,578,标准频数为447.64。总体来看,软科学中代词使用频率明显高于硬科学,表明软科学作者在学术写作中更倾向于运用代词以实现语篇衔接与互动。进一步对两类语料的原始频数进行卡方检验,结果显示χ2 = 387.296,p < 0.001,差异达到显著水平。这表明软硬学科在代词使用总体频率上存在显著差异。
4.2. 各类代词在软硬科学中的使用情况
在总体分布特征分析的基础上,本文进一步对硬科学学术期刊论文库(HDRA)与软科学学术期刊论文库(SDRA)中各类代词的使用情况进行了统计与比较。表4呈现了七类代词在两类学科学术语篇中的原始频数、标准频数及其百分比,以展示不同代词类型在软硬科学语篇中的分布特征。
Table 4. Frequencies of Subcategories of pronouns in HDRA and SDRA
表4. 各类代词在HDRA和SDRA中的总体使用情况
代词类型 |
HDRA |
SDRA |
R.F. |
S.F. |
Pct. |
R.F. |
S.F. |
Pct. |
人称代词 |
5589 |
107.43 |
28.93% |
6882 |
130.66 |
29.19% |
物主代词 |
2310 |
44.40 |
11.96% |
4994 |
94.81 |
21.18% |
反身代词 |
84 |
1.61 |
0.43% |
258 |
4.90 |
1.09% |
指示代词 |
5750 |
110.53 |
29.76% |
5520 |
104.80 |
23.41% |
不定代词 |
2271 |
43.65 |
11.75% |
1933 |
36.70 |
8.20% |
相互代词 |
64 |
1.23 |
0.33% |
55 |
1.04 |
0.23% |
关系代词 |
3253 |
62.53 |
16.84% |
3936 |
74.73 |
16.69% |
Note:R.F. = Raw Frequency;S.F. = Standard Frequency (per 10,000词);Pct. =Percentage。
从表4可以看出,在硬科学学术期刊论文库(HDRA)中,指示代词与人称代词的使用频率最高,分别占全部代词的29.76%和28.93%,共同构成主要的代词类别。这表明硬科学作者在学术写作中倾向于通过指示性和有限的自指性表达实现篇章衔接与信息指向,这与李晶洁等[18]的研究结果一致。其次是关系代词(16.84%)和物主代词(11.96%),这两类代词在说明性和限定性从句中起到语法衔接的作用。相比之下,不定代词(11.75%)、反身代词(0.43%)和相互代词(0.33%)使用较少,说明硬科学语篇更注重客观描述与逻辑表达,而较少涉及人际互动与主观指称。
在软科学学术期刊论文库(SDRA)中,人称代词同样占据首位(29.19%),略高于硬科学,反映出软科学作者更频繁地通过自我指称实现立场表达与作者身份建构。这与Hyland [8]基于八个学科的研究发现一致,即软科学领域第一人称代词的使用频率高于硬科学。其次为指示代词(23.41%)、物主代词(21.18%)和关系代词(16.69%),显示软科学语篇在保持篇章连贯的同时,也更注重概念指代与论述逻辑的衔接。相较之下,不定代词(8.20%)、反身代词(1.09%)与相互代词(0.23%)使用比例较低,但仍高于硬科学对应类别,体现出软科学语篇在人际取向和论证灵活性方面的语言特征。
4.3. 各类代词在4门学科中的分布
按照物理学、计算机、语言学和管理学四门学科对七类代词的使用情况进行统计,结果见表5。
Table 5. Frequencies of subcategories of pronouns in four disciplines
表5. 各类代词在4门学科中的分布
代词 类型 |
物理学 |
计算机 |
语言学 |
管理学 |
R.F. |
S.F. |
Pct. |
R.F. |
S.F. |
Pct. |
R.F. |
S.F. |
Pct. |
R.F. |
S.F. |
Pct. |
Per-P |
3101 |
29.62 |
32.32% |
2488 |
23.76 |
25.58% |
3432 |
32.78 |
28.29% |
3450 |
32.95 |
30.14% |
Pos-P |
935 |
8.93 |
9.74% |
1375 |
13.13 |
14.14% |
2587 |
24.71 |
21.33% |
2407 |
22.99 |
21.03% |
Ref-P |
41 |
0.39 |
0.43% |
43 |
0.41 |
0.44% |
133 |
1.27 |
1.10% |
125 |
1.19 |
1.09% |
Dem-P |
2914 |
27.83 |
30.37% |
2836 |
27.09 |
29.16% |
3219 |
30.75 |
26.54% |
2301 |
21.98 |
20.10% |
Inde-P |
1058 |
10.11 |
11.03% |
1213 |
11.59 |
12.47% |
971 |
9.27 |
8.00% |
962 |
9.19 |
8.40% |
Rec-P |
21 |
0.20 |
0.22% |
43 |
0.41 |
0.44% |
31 |
0.30 |
0.26% |
24 |
0.23 |
0.21% |
Rel-P |
1525 |
14.57 |
15.89% |
1728 |
16.51 |
17.77% |
1757 |
16.78 |
14.48% |
2179 |
20.81 |
19.03% |
Total |
9595 |
91.65 |
100.00% |
9726 |
92.90 |
100.00% |
12130 |
115.86 |
100.00% |
11448 |
109.35 |
100.00% |
Note:Per-P = Personal Pronouns;Pos-P = Possessive Pronouns;Ref-P = Reflexive Pronouns;Dem-P = Demonstrative Pronouns;Inde-P = Indefinite Pronouns;Rec-P = Reciprocal Pronouns;Rel-P = Relative Pronouns。
表5显示,不同代词在4门学科中的具体使用情况如下:
1) 从整体来看,四门学科的代词使用频率存在一定差异。总体标准频数最高的是语言学(115.86次/万词),其次为管理学(109.35次/万词),而物理学(91.65次/万词)与计算机学(92.90次/万词)的代词使用频率相对较低。整体趋势显示,软科学(语言学与管理学)明显高于硬科学(物理学与计算机),表明软科学语篇中作者更倾向于通过代词实现论述衔接和作者立场表达。该发现与Hyland [5] [8]关于“软学科中作者可见性较高、第一人称使用更为频繁”的论述相符。
2) 从各类代词的分布情况来看,人称代词和指示代词是学术语篇中最为常见的两类代词。人称代词在语言学中达到28.39% (标准频数33.00),为四个学科中最高,其次为管理学的32.95% (标准频数35.92),而物理学和计算机学的比例则分别为32.32% (标准频数29.62)与25.58% (标准频数23.76)。这一差异表明,软科学语篇更偏向作者介入与主观表达,而硬科学则更注重客观叙述与数据呈现,这与Harwood [9]针对学科间“I”和“we”使用差异的实证分析一致。指示代词在物理学(27.83%,标准频数25.47)与计算机学(29.16%,标准频数27.09)中的使用比例略高于语言学(26.54%,标准频数30.76)和管理学(20.19%,标准频数22.09),体现出硬科学更依赖指示结构来建立篇章连贯与逻辑衔接,这与Biber等[18]对书面学术语篇中连贯机制和指示性表达的分析相符。
此外,物主代词在软科学中分布更为突出,语言学为21.13%(标准频数24.71),管理学为22.99%(标准频数24.97),均高于物理学(9.74%,标准频数8.93)和计算机学(14.14%,标准频数13.15)。关系代词在各学科中也表现出类似趋势:语言学(14.48%,标准频数17.45)和管理学(19.03%,标准频数20.81)显著高于物理学(11.85%,标准频数10.85)与计算机学(12.07%,标准频数11.13),显示软科学语篇在论证逻辑与语篇衔接上具有更高的显性连接需求。反身代词与相互代词的比例在四门学科中均极低(均不足1%),说明这两类代词在学术语篇中功能有限,主要用于局部修辞或方法论说明。不定代词的使用差异则较小,软科学略高于硬科学,反映出学科间在泛指与模糊表达上的轻微差异。
3) 从学科对比角度来看,物理学与计算机学在代词使用结构上较为相似,二者均体现出指示代词占比高、人称代词与物主代词占比低的特征,这与硬科学注重客观呈现与研究过程可验证性的写作特征一致。相较之下,语言学与管理学则在代词使用上更趋活跃,尤其是人称代词和物主代词的频率明显高于硬科学,显示作者在论述中更倾向于凸显自身立场与研究者身份,从而强化论证的互动性与主观性。
5. 结论
本研究基于自建的跨学科语料库,系统分析了英语学术期刊论文中代词的使用频率与分布特征。研究结果显示,代词在硬科学与软科学语篇中的总体分布存在显著差异:软科学文本中代词使用频率更高,尤其在人称代词与物主代词的使用上表现突出;而硬科学文本中代词使用相对克制,更倾向于通过指示代词和关系代词实现篇章衔接与逻辑连贯。这一差异体现了不同学科在语言选择上的系统性偏向,反映出知识表达方式和研究写作传统的差异性。进一步的分析发现,尽管七类代词在四个学科中均有分布,但不同学科间的使用重心存在明显差异。物理学与计算机学科中代词使用相对集中,表现出对客观性与概念精确性的强调;而语言学与管理学学科中代词分布更为多样,表明这些领域的研究者更关注作者立场的呈现与论证的灵活性。由此可见,代词不仅作为语法形式出现,更体现了学科内部的话语规范与交流取向。
总体而言,本研究通过对代词使用的系统比较,不仅揭示了软硬学科在代词使用上的系统性差异,也展示了这些差异如何与不同学科的写作规范、论证结构与身份呈现方式相互作用,从而为代词研究提供了更具整体性的跨学科分析框架,并为深化代词功能研究与学科话语理论之间的关联、以及拓展学术写作研究的分析维度提供了新的可能。
尽管本研究在语料构建和统计方法上力求严谨,但仍存在一定局限。其一,语料库规模有限,且仅涵盖物理学、计算机科学、语言学和管理学四个学科,难以全面反映软硬科学内部的多样性差异。其二,研究主要依赖定量分析,虽辅以少量定性观察,但仍不足以揭示复杂语篇环境下代词使用的深层功能。基于此,未来研究可进一步扩展语料规模并纳入更多学科,以获得更具代表性的比较结果;同时,可采用多层次、多变量的分析方式,将代词使用与语篇结构、修辞功能及作者身份建构等因素结合考察,以实现更系统、细致的解释。