1. 引言
Halliday [1] 指出,衔接是语篇内部结构组成中尤为重要的一个部分,它在话语连贯中的作用至关重要,是一种促进话语连贯性的语法资源。在写作和会话过程中,衔接将文本中的命题进行有机连接性和逻辑性,从而促进读者或听者对文本的理解,增强互动的有效性。关于衔接的已有研究主要基于Halliday和Hasan [2] 的衔接理论展开,对中国英语学习者的阅读、写作材料和教学方式进行分析。在阅读方面,相关研究主要考察衔接与连贯对英语考试和考试成绩的影响,分析文本主要是阅读题型中的“七选五”,大学生四六级、托福雅思阅读材料 [3] [4] 。在写作方面,不少学者分析新高考改革后“读后续写”型作文中的衔接性 [5] 。在教学方面,马国彦 [6] 以高考试卷中的衔接题为语料,从微观层面分析话语之间的衔接是如何实现的,对语篇的结构方式进行了概括。谭琰 [7] 结合高中英语教学实践,探讨衔接与连贯理论在阅读教学中的应用,将重点放在中学生的阅读材料。这些研究着重对中国英语学习者写作中起衔接作用的语言表层特征的考察,而缺乏对中国英语学习者与英语本族语者衔接与连贯特征对比分析研究。对衔接手段使用的分析对于理解和构建地道的口语或是书面语篇都十分有益。因此,本研究借助自然语言处理工具Coh-Metrix 3.0,利用中国学生万篇英语作文语料库(TECCL)和鲁汶英语本族学习者语料库(LOCNESS),揭示中国英语学习者与英语本族语者在大学英语写作中的衔接手段使用情况和差异。本研究试图回答以下问题:在连接词、词汇衔接和情景模型构建三个维度下,中国英语学习者和英语本族语者在写作中的衔接手段使用情况是否存在差异?
2. 衔接和Coh-Metrix
有关衔接研究中的一个重要阐述是衔接与连贯的划分 [8] 。衔接通常指的是文本的语言线索,这些线索可以让读者在文本中的观点之间建立联系。一般来说,这些语言线索本质上是局部的,被称为局部衔接,但也可以基于文本全局的,被称为总体衔接。局部衔接的包括句子之间重叠的词汇、概念,以及显性连接词,如because,therefore和consequently。总体衔接包括文本中段落之间的语义和词汇重叠,一个段落中的单词或想法在随后的段落中重复。此外,衔接可以在文本层面进行测量,即根据新单词的数量(初始的名词指代物)或给定的单词(以代词指代的名词指代物)来衡量整个文本的衔接。总体衔接和文本衔接比局部衔接出现在更深的层面 [9] 。与衔接相反,连贯是指读者从语篇中获得的理解(即读者心目中语篇的连贯性)。这种连贯取决于许多因素,包括衔接和非语言因素,如先验知识和阅读技能。许多研究表明,衔接手段是语篇可理解性的重要指标,语篇衔接能力的提高通常意味着对语篇的更好理解 [10] 。
Coh-Metrix是一个语言语料库分析工具,旨在分析包括教科书、作文、论文在内的各种类型的语料库,通过从文本中提取多个变量,包括各种语言和心理方面的指标,可以用于分析话语或文本的广泛测量。它的目的是使用多层框架,包括表面代码、显性文本库、情境模式(有时称为心理模型)、话语类型和修辞结构,以及语用交际层面,以获得对话语和潜在心理机制的更深层次的理解。由于Coh-Metrix能够利用可读性公式来衡量文本特征及其关系的更深层次,以及词汇多样性、句法复杂性和书面文本难度等表面层面的特征,因此它已被广泛用于分析作文中衔接手段的使用。Coh-Metrix整合了信息检索中的一项新技术,即潜在语义分析法(LSA) [10] 。该方法不依赖语篇的表层特征,而是提取语篇内部语义信息,对语篇各部分之间的语义相关性进行分析,从而有效测量连贯性 [11] 。
3. 研究方法
最新的Coh-Metrix 3.0版分析系统可提供106项语言特征的量化指标。根据本研究的需要,将选取与衔接相关的20项指标,归入连接词、词汇衔接和情景模型构建三个维度的分析框架,探究中国英语学习者与本族语者衔接使用频率及比例、中国英语学习者与本族语者衔接特征分布差异、中国英语学习者与本族语者衔接使用差异的原因。
3.1. 衔接分析工具和指标
连接词体现了语篇内各词项间最为直观的联系,对语义的衔接至关重要。在连接词这一维度,本研究选取了Coh-Metrix 3.0中增补连接词、因果连接词、时间连接词、转折连接词四项指标,涉及了连接词的所有种类。词汇衔接主要通过词汇复现、重现和SLA实现。本研究选取相邻句子间和所有句子间的名词名词、论元、实词和词干重叠指标等词汇重叠体现词汇复现、重现;通过相邻句子间LSA、所有句子间LSA、已知信息与新信息的比值三项指标考察中国英语学习者和英语本族语者使用SLA进行衔接的差异。情景模型维度基于情境模型理论,该理论由逻辑学、语言学和特别是形式语义学发展而来,在对语言使用语用的描述中还加入了可能世界、时间、地点、语用因素、语言使用者状况等信息单元。情景模型维度反映文本的深层语篇衔接,即隐性衔接 [12] 。因果性、目的性和时间性是信息类情景模型构建的关键 [13] 。Coh-Metrix 3.0用因果衔接指标(因果连接词和因果动词的比率)、目的衔接(目的连接词和目的动词的比率)、时间衔接三项指标实现对情境模型建构层面的衔接分析。
3.2. 语料选择
本研究的语料选自中国学生万篇英语作文语料库(TECCL)和鲁汶英语本族学习者语料库(LOCNESS)。TECCL所收作文涵盖大学、中学、小学三个学段,取样分布代表性较好,是反映中国英语学习者英语水平的一面镜子,因此可将其应用于对中国英语学习者语言风格特征实际使用情况的调查 [14] 。LOCNESS题材丰富,体裁多样,在一定程度上反映了以英语为母语的人使用英语的特点。这两个语料库风格相似,涵盖了环境、科技、教育、网络、媒体和校园生活等多个领域。为了保证样本的可比性,所选取的语料都来自两个语料库的本科生文本数据。为保证样本可分析性,考虑到文本长度的因素,最终选取两个语料库中各100篇写作材料用以分析。
4. 结果分析与讨论
本研究利用Coh-Metrix 3.0对TECCL和LOCNESS中选取的200篇语料进行了检索,在得出106项指标的数据后,对所选指标下的数据使用SPSS 17.0进行描述性统计分析和独立样本T检验。
4.1. 描述性分析
在篇数相同的情况下,TECCL和LOCNESS的描述性统计结果如下。

Table 1. Descriptive statistics of the TECCL and LOCNESS
表1. 语料库描述性统计
写作文本长度和平均句子长度可以在一定程度反映内容的详细程度;类符形符与写作者的词汇复杂度和多样性成正比,在一定程度上能够反映语料样本词汇使用的变化情况。比值越大理解和使用词汇所花费的认知心理过程越长,运用这些不同的词汇时写作者需要不断地根据语境进行编码和解码来理解和使用词义,因此语篇的难度相对就越大 [15] 。表1中的数据显示,中国英语学习者英语作文文本更长、使用的句子更长,但中国英语学习者写作的类符形符比低于英语本族语作者,也就是说词汇复杂性和多样性低于美国学生。作为英语学习者,中国学生受有限的词汇知识和语法知识制约,在词汇运用的广度上未及英语本族语者。受词汇选取、表达方式和思维转换的制约,中国英语学习者的写作在总体详细度和复杂性上不及英语本族语语者。
4.2. 连接词使用对比
连接词作为实现语篇句法语义逻辑的重要衔接手段之一,用于标记文本各片段间的逻辑关系,对学生语篇写作意识的形成起着重要作用 [16] 。LOCNESS和TECCL连词频率统计结果见表2。

Table 2. Comparison of the frequency of TECCL and LOCNESS conjunctions
表2. TECCL和LOCNESS连接词使用频率对比
写作过程中的连接词使用对于语义的正确表达具有重要作用,其影响主要表现为标记作用与连接作用。前者更为直接地在写作中突出显示作者的写作方向,后者则用于表明语篇中的各个组成部分之间语义上的联系,使得连接词所影响的句子成分有逻辑地整体储存在读者记忆中,从而加强读者对语篇的理解 [17] 。从表2可以看出,TECCL中连词出现频率(133.54)稍高于LOCNESS (131.26),但两者差异为达到显著水平(P = 0.238 > 0.05)。在连词使用类型上,TECCL和LOCNESS中增补连词出现频率远高于其他类型连接词,但两者并未达到显著差异。已有研究表明,低水平语言使用者更对地使用连接词,这可能是由于连接词处于表层特征且易于学习掌握。尽管汉语常被认为更依靠意合进行语义上的衔接,但在二语学习过程中,中国英语学习者在写作中有意接受英语重视逻辑的特征,利用较为容易掌握的连接词进行衔接以增强逻辑关系 [18] 。
4.3. 词汇衔接对比
词汇衔接理论由Halliday和Hassan [1] 提出,后经Hoey [19] 发展。该理论认为语篇衔接在很大程度上就是词汇衔接,词汇衔接是非叙事文体最主要的衔接手段,也是文本衔接质量的重要标志 [19] [20] 。若词汇衔接缺失和误用,而只靠意合手段构建起来的写作会因为缺乏衔接性而影响表达效果。在Coh-metrix 3.0中,词汇衔接主要由词汇同现、复现和潜在语义分析两类指标呈现。TECCL和LOCNESS词汇同现、复现和潜在语义分析使用情况分别见表3和表4。

Table 3. Comparison of lexical co-occurrence and repetition in LOCNESS and TECCL
表3. LOCNESS和TECCL词汇同现、复现使用情况对比
由表3中的数据可以得出,TECCL和LOCNESS在相邻句子词干重叠、相邻句子实词重叠、所有句子词干重叠、所有句子实词重叠四个指标上达到显著差异水平(P = 0.00, P = 0.02, P = 0.00, P = 0.01)。从相邻句子词干重叠和所有句子词干重叠指标来看,中国英语学习者相对于英语本族语者较少使用词干衔接。词干重叠比例指的是在整个文本中共享一个或多个词干的句子所占的比例,在一定程度上反映了文本深层的连贯性。其中,词干重叠涉及到词干相同但词形不同的单词,例如“compete”和“competence”,而不是单词的简单重复。因此,相较于论元重叠,词干重叠需要更高的语言能力,这反映在写作文本衔接的相关度上更高,对于衔接手段掌握的能力越强。
有研究表明汉语是孤立语,不存在像英语一样的构词手法 [21] ,所以汉语思维多用衔接中词干重叠这样的语义衔接方式,而这种构词方法会影响中国英语学习者在写作时的思维。而英语是屈折语,其词汇的构成方式主要是派生法或词缀法,所以英语本族语者更善于用词干重叠的方式来增强句子的衔接 [22] 。另一方面,作为非本族语使用者,中国作者受有限词汇深度和广度的影响,对词干重叠的掌握不如美国作者。而在相邻句子实词重叠和所有句子实词重叠两项指标上,TECCL的数值大于LOCNESS,这说明中国英语学习者在二与写作过程中会更倾向于使用重复的实词。过多的词汇重复,特别是高频实词重复,表面看起来可以增强连接性,但产出的作文流畅度和地道性会被削弱 [23] 。而英语本族语者因为掌握的词汇广度和深度总体大于中国英语学习者,英语本族语者的作文在遣词方面,可以用替代词、同名异称等方法,避免单调枯燥,以求变换多样 [24] 。

Table 4. Comparison of the usage of LSA in LOCNESS and TECCL
表4. LOCNESS和TECCL潜在语义分析使用情况对比
LSA是一种表示广义知识的数学和统计方法,在Coh-Metrix中是一种语义衔接和连贯的衡量方法 [10] 。Coh-Metrix可以计算整个文本中相邻句子之间、段落中所有可能的句子之间、相邻段落之间以及文本中给定信息与新信息之间的LSA相似性得分,比如love会与relationship、kind、freedom等词有很高的语义重叠。LSA指数越接近1表明当已知信息越多,新信息越少时,语篇的衔接程度越高,反之,当已知信息越少,新信息越多时,衔接程度越低。独立样本t检验结果显示,TECCL和LOCNESS在这两项指标上均存在显著性差异(P = 0.00, P = 0.00)。LOCNESS在相邻句子间LSA、所有句子间LSA和已知信息与新信息的比值三项指标上都高于TECCL,且存在显著差异,说明本族语者作文相对于中国英语学习者英语作文的语篇的局部和整体衔接程度更高。这一结论可以从以下几个方面解释:二语写作者通常不擅长构建清晰可辨、贯穿全文或整个段落的核心词汇链 [25] 。此外,基于词汇衔接的研究显示,由于词汇储备限制和语义提取、加工能力的限制,二语作者在写作产出过程无法像本族语使用者那样熟练的从大脑中的词汇库提取意义相关的词汇 [26] ,从而导致话题偏离,影响写作文本衔接和质量。Watkinson [27] 指出,话题偏离在二语写作文本中更为普遍,可能是因为写作者母语修辞习惯和话题控制能力影响,非流畅转换会增加语篇推理的认知负载,降低文章的衔接 [28] [29] 。
4.4. 情境模型建构对比
情景模型理论是建立在Zwaan和Radvansky [27] 提出的事件检索模型理论基础上的。该理论认为,在理解过程中,人们至少需要构建五个维度:空间、时间、实体、原因和目的。基于这一理论,McNamara等人将情景模型理论纳入到Coh-metrix的开发中,形成了因果衔接、目的衔接和时间衔接三个指标。TECCL和LOCNESS情境模型建构对比情况见表5。

Table 5. Comparison of situational model construction in LOCNESS and TECCL
表5. LOCNESS和TECCL情境模型建构对比
独立样本T检验结果显示,中国英语学习者和英语本族语者的写作在因果衔接、目的衔接和时间衔接方面均不存在显著差异(P = 0.88 > 0.05, P = 1.00 > 0.05, P = 0.15 > 0.05)。情境模型建构基于人们对世界最本质的理解,反映语言使用的认知属性。中国英语学习者和英语本族语者在情境模型建构这一框架下的衔接情况基本相似,这说明人类认知具有一定的共性。无论是二语学习者还是本族语者,在使用语言时天生就有一套语言习得机制,语言和句法都是一个自治的系统 [30] [31] ,学习者在习得语言时,尽管受到知识水平、母语与非母语差别等影响,其认知中蕴涵的共性强调世界语言的差异会受到共同的限制,而差异或个性只是共同限制下的具体落实,在语言使用时还是会遵从相对一致的规律,表达因果关系、目的关系和时间关系。因此,中国英语学习者和英语本族语者在衔接手段的情景建构反面不存在差异,反映了语言使用差异受思维、经验共性的制约。人类对于这些最基础的概念或者关系的表达的链接机制具有一致性,但这种认知共性的深层特征和具体形式在因果、目的和时间以外的维度上的相似性或者差异性还值得探索。
5. 结论
本文使用语篇分析工具Coh-Metrix,借助两个写作文本语料库,从连接词、词汇衔接和情境模型建构三个层面分析中国英语学习者和英语本族语者写作文本衔接手段的使用情况和并且比较其相似性与差异性。研究结果显示,中国英语学习者和英语本族语者在连接词和情境模型建构两个方面不存在显著差异。在词汇衔接层面存在显著差异,指称衔接和潜在语义分析都存在显著差异,中国英语学习者写作文本中词干重叠高于英语本族语者,实词重叠低于本族语者。
这些发现为中国英语学习者的写作提供了几点启示:首先,中国英语学习者在写作中可以使用更加丰富多样的词汇和句型。语言习得是一个建立在语言形式和功能之间联系的过程。这种联系的加强和巩固是通过多次的输入和输出来实现的。因此,在英语写作教学中,应该鼓励学生通过多种途径和方法扩大他们的词汇量,逐渐学会用合适的词汇准确、贴切地表达思想和感情。另外,在句法方面,也应该鼓励学生根据需要尝试复杂的句法结构,逐渐掌握各种句法结构的灵活运用。第二,中国英语学习者在写作中可以适当降低对实词的重复使用,二语学习者应该加强对低频词、抽象词汇、低频多词短语的学习,以增强写作的流畅性和地道性。
尽管Coh-Metrix使用计算机算法分析文本数据,提供了一系列反映英语使用者词汇水平、衔接手段、连贯能力的指标,大大减少了统计分析的人工成本和时间消耗,但在研究写作语篇的衔接时,不能仅仅依赖指标统计结果,还需结合具体语料和写作者的背景信息进行全方位解读。举例来说,目前Coh-Metrix可以从词汇同指、关联词和概念相似度等方面统计文本的衔接特征,但无法从语境、修辞等方面对文本进行测量。本文认为,在写作过程中,中国英语学习者应该关注中英文衔接方式上的差异,逐步减少这些差异,以提升文本的地道性。未来的研究除了统计形式特征外,还应对内容进行深入分析,通过优化算法,并结合语境对话内容的衔接进行研究。