1. 引言
语料库语言学是一种基于传统语言分析的定量研究。搜集大量语言学习者产出的语料,整理成数据集合,即为语料库 [1] 。语料库语言学兴起于20世纪60年代,初期研究重点为学习者的母语变体,二语习得与语料库相结合的研究也在不断发展中。语料库搜集的语料一般分为三类:口语、书面语(又称笔语,相对于口头产生的话语)以及多模态语料(如教学材料、师生互动、生生互动等)。
汉语作为第二语言学者语料库语言学始于20世纪90年代末,广泛使用的汉语作为二语习得的语料库有“全球汉语中介语语料库”“HSK动态作文语料库”“国立台湾大学汉语学习者汉字偏误数据资料库”“华语为第二语口语语料库”“华语学习者语料库”等。Zhang和Tao [2] 将汉语二语习得语料库研究的重点归纳为四点:对学习者语言的描述,第一语言的迁移、习得顺序、学习者的可变性以及不同语言背景的影响,并提出了跨区域研究的可行性。
“了”是使用频率较高的汉语虚词 [3] ,有关“了”的分类有几种不同的意见,二分观以吕叔湘 [4] 为代表,他认为“了1”用在动词后,主要表示动作的完成。“了2”用在句末,主要肯定事态出现了变化或即将出现变化,有成句的作用。金立鑫 [5] 认为应根据“了”的语法意义、时体特征和语气弱化等因素将“了”进行进一步细分。石毓智 [6] ,张黎 [7] 认为只有一种“了”,“了”的具体分类只是同一语法特征在不同句法位置上的语法变体。
本文关于句末“了”的判定依托于汉语二语教学目前常用的二分法,即动词后完成式标记“了1”和表示当前相关状态的“了2” [8] ,例如:
(1) 我吃了一个苹果。(了1:表示动作的完成)
(2) 他去北京旅游了。(了2:表示相关状态)
Chief, L. [9] 基于原型范畴理论提出在汉语二语教学中,句末“了”(即“了2”)应先介绍典形意义,再介绍非典型意义。“了2”由典形到非典型的意义依次为状态的改变、与之前相反的状态、状态的持续以及话题协商。这正是该学者建议的教学顺序。如:
(3) 她喜欢看书了。(状态的改变)
(4) 她现在不喜欢看书了。(与之前相反的状态)
(5) 他在北京住了十年了。(状态的持续)
(6) 您把窗户打开了吗?(话题协商)
本文基于“华语学习者语料库”和“全球汉语中介语语料库”的基础上,对汉语学习者句末“了”的使用情况进行了跨区域的对比分析。文章第二部分阐述了本研究的研究问题,第三部分是研究设计,包括语料来源,研究对象及研究方法,第四部分对研究结果进行了分析和讨论,最后是结语。
2. 研究问题
基于语料库的汉语二语习得研究,目前多关注于汉语学习者的语言描写,如偏误分析 [10] [11] [12] 。汉语二语习得不仅仅发生在中国内地,中国港澳台以及马来西亚、新加坡等华人社区同样存在着汉语二语习得。由于历史、地理等因素的影响,其他地区的汉语二语习得与大陆的汉语二语习得存在不同,如书写汉字繁简不同、教材不同、通用语系统差异等。目前基于语料库的汉语习得相关研究,极少关注汉语习得的跨区域特征。中国台湾地区“国立台湾师范大学汉语学习者汉字偏误数据资料库”“华语为第二口语语料库”“华语学习者语料库”以及内地“全球中介语语料库”“HSK动态作文语料库”等语料库的建立,为跨区域研究提供了可能。
“了”是汉语出现频率较高的虚词之一,同样是汉语二语教学的重难点。Xu等基于广外–兰卡斯特汉语学习者语料库考察了来自不同母语背景的汉语学习者“了”这一语言特征的使用情况 [13] 。张莉萍基于中国台湾地区的语料举例分析了汉语学习者特殊句式的使用情况,并尝试与基于中国大陆的语料库进行了检索结果的对比,开始涉及跨区域研究,其重点关注的是特殊句式 [14] 。由于语料收集和处理的限制,语料库中笔语的语料更丰富,故本文研究仅关注笔语语料中句末“了”在中国大陆和中国台湾地区这两个区域内习得的基本情况,了解这两个区域的汉语学习者在句末“了”的习得上是否有着相同或者不同的特点。
3. 研究设计
Rayson提出的语料库语言学研究分为三种:微观研究型、宏观研究型与数据驱动型 [15] 。本文采用了语料库语言学中常见的微观研究,即研究集中在一个特定的语言特征使用上。语言特征可以是一个词、词组或一个语法结构。本文采用微观研究的范式,对“华语学习者语料库”和“全球汉语中介语语料库”中的语言特征句末“了”进行了跨区域研究。
3.1. 语料来源
本研究使用第一个语料库是“汉语中介语语料库”,又称“全球汉语中介语语料库”。中介语语料库设计总规模5000万字,其中集笔语语料库、口语语料库和多模态语料库于一体。语料库来源主要为学生的考试答卷或平时的作文作业。其中笔语标注语料9493万多字,口语标注语料1955万多字,笔语语料远远多于口语语料数量,且中介语语料库具有实时统计功能,相关数据可以动态更新。
第二个语料库是中国台湾地区“TOCFL学习者语料库”,此语料库所搜集的语料是2006到2012年间,母语为非汉语的外籍人士参加汉语能力测验(TOCFL)所写的作文,共4567篇,约150万字。
3.2. 研究对象
“全球汉语中介语语料库”中的“笔语语料库”和“华语学习者语料库”语料虽都为笔语,但语料源于不同背景的汉语学习者,学习者的国家、年龄、汉语水平等情况存在差异。本文的研究目的是比较中国台湾地区跟大陆地区汉语学习者语法特征句末“了”的习得情况。故在研究过程中,首先需要对句末“了”的语料检索和校对,得到的语料需反映两个区域不同汉语水平句末“了”的习得情况,然后再进行比较分析。
考虑到“华语学习者语料库”语料总量明显少于“全球汉语中介语语料库”,且汉语二语学习者母语背景较为单一,多为韩、英、日,其中母语为韩语的学习者相关语料较为丰富。因此,“全球汉语中介语语料库”同样选取单一母语背景为韩语的汉语学习者语料。研究分为中国台湾地区和中国大陆地区两个依托于不同语料库的对照组,分别为组1和组2。另外纵向分为初级、中级和高级三个等级。其中华语学习者语料库等级分类是根据“华语能力测验”(TOCFL),全球中介语语料库语料等级分类是依据“汉语水平考试”(HSK),虽然语料依据的中文考试不同,但二者都跟欧洲共同语言参考标准有对应关系。华语能力测验(TOCFL)写作考试与欧洲共同语文参考框架如表1所示。

Table 1. Correspondence between the TOCFL writing test and the CEFR
表1. TOCFL写作考试与欧洲共同语言参考标准(CEFR)对应关系
汉语水平考试(HSK)与欧洲共同语言参考标准(CEFR)对应关系如表2所示。

Table 2. Correspondence between the HSK writing test and the CEFR
表2. HSK考试与欧洲共同语言参考标准(CEFR)对应关系
3.3. 研究方法
Rayson [15] 指出语料库语言学相关研究一般分为五个步骤进行:设计研究问题,设计并建立语料库,对语料库进行注释,检索语料库,检索结果分析解释。
现有的“华语学习者语料库”和“全球中介语语料库”已经完成了二、三步,即语料库的设计、建立和注释。本文是在现有语料库的基础上,确定研究问题,即两个区域的汉语学习者,句末“了”的习得情况如何,是否有不同的习得特征。然后分别对两个语料库的检索结果进行整理,最后再对检索结果进行对比分析。
区分动词后表示完成的“了”和句末“了”主要靠“了”所处的位置,处于句末,或者处于句末后加有语气助词的语料即判定为句末“了”。句末“了”使用是否正确的判定方法首先是语料系统的自动标记功能,错误的使用会在“了”后有标记,但系统自动的判定也不完全准确,所以在统计整理时也会有作者本人汉语母语者的人工校对。具体语料的处理会在接下来的分析中进行详细解释。
4. 不同区域句末“了”使用情况结果分析
本研究研究对象限定为母语背景为韩语,研究目的是探究中国台湾地区和中国大陆汉语学习者句末“了”的习得情况。中国台湾地区和中国大陆为两个对照组,语料来源分别为“华人学习者语料库”和“全球中介语语料库”。每个对照组根据与欧洲共同语言参考标准的对应关系分为初级、中级和高级三个级别。
4.1. 初级组
“华语学习者语料库”中相对应欧洲共同语言参考标准仅有四个级别,分别是A2、B1、B2和C1,缺少A1和C2。这里的A2为初级,B1和B2为中级,C1为高级。“全球汉语中介语料库”检索系统可自动选取初级、中级和高级三类。
4.1.1. 组1“华语学习者语料库”句末“了”整理与分析
中国台湾地区“华语学习者语料库”中,母语背景为韩语,初级汉语学习者,也就是对应的A2级别,关键词“了”共搜索出191条语料,已排除“了”的其他多音字,之后的其他统计结果同理。此类语料示例如下。
(7) 昨天我弄丢了一本书。
(8) 我在台湾住了十个月了。
(9) 昨天考试都完了。
(10) *我很冷了。
原语料库语料为繁体字,为保持整篇文章的一致性,“华语学习者语料库”的语料均转写为简体,以下示例相同。这里的“了”不仅包括表示相关状态的句末“了”,也有“了”的其他使用情况,如(7)句。如果语料中其中一句话“了”之外出现了错误,如(9)句里的“完”,此种情况并不影响同一句话中句末“了”的使用正确率。示例(10)属于句末“了”的错误使用。
其中,统计结果显示,191条语料中,句末“了”的语料共筛选出127条,也就是说在中国台湾地区,基于“华语学习者语料库”,母语背景为韩语的初级汉语学习者,在习得“了”这一语法特征时,句末“了”的使用次数共127条,其使用频率达到了使用情况的67%。句末“了”129条语料中,使用正确的有104条,错误的有23条。正确率达到了约82%。
4.1.2. 组2“全球中介语语料库”句末“了”整理与分析
“全球中介语语料库”笔语语料库中,母语背景为韩语,汉语水平等级为初级含有“了”的语料共检索出3421条。“全球中介语语料库”下载上限为500条,超过500条的语料则随机下载500条。所以,检索出来的3421条语料中,自动选取了500条,这500条随机语料在统计学上具有代表性,研究结论适用于全部语料。此类语料示例如下。
(11) 今天我吃了苹果。
(12) 我来北京两个月了。
(13) *已经吐了三次也没有好了。
(14) *但是最近留学生活已经习惯(了)。
500条语料中同样包括除了句末“了”之外“了”的其他用法,如(11)句。其中(12)句为典型的句末“了”的正确使用之一,表示相关的状态,这里指的是某一状态持续了一段时间并将继续持续下去。“我”在北京这个状态已经持续了两个月了,并且我在北京的这个状态仍将继续持续下去。第三个句子(13)是句末“了”错误使用情况之一,即不该用句末“了”的时候用了句末“了”,也可称之为“误加”。第四个句子(14)是句末“了”的另一种错误使用情况,即该用句末“了”的时候没有用,这种情况一般称为“遗漏”。
第二组500条含有“了”的语料中,共筛选出270条句末“了”,占总使用数量的54%。这272条句末“了”的语料中,正确使用的共计211条,使用错误的共计59条。也就是第二组句末“了”的正确率约为78%。
有关句末“了”的使用情况,中国台湾地区(组1)和大陆地区(组2)的使用分布类似,见表3。四类句末“了”的使用频率由高到低分别为状态的改变、状态的持续、与之前相反的状态以及话题协商,最后有些处于句末“了”但不属于前四类的情况归为第五种“其他”。这两个区域的汉语学习者句末“了”表示四种相关状态的使用情况类似。

Table 3. Distribution of usage of “le” at the end of sentences at the elementary level of Chinese
表3. 初级汉语水平句末“了”使用情况分布
4.2. 中级组
中级组在“华语学习者语料库”里对应级别为B1和B2,“全球汉语中介语语料库”中在检索条件中选择中级。
4.2.1. 组1“华语学习者语料库”句末“了”整理与分析
母语背景为韩语的汉语学习者,在“华语学习者语料库”中,B1、B2级语料共检索出624条。所有语料均遵从低于500条的全部收录,超过500条的随机挑选500条原则,从624条语料中随机选取了500条语料。具体语料示例如下。
(15) 我也是休了三个学期去打工了。
(16) 薪水减少且工时增加了。
(17) 你现在的心情好了吗?
(18) 你高兴了吧?
(19) 她心理也已经稳定了吧!
(20) *你不要想太多了啦。
(21) *幸好我没有被炒鱿鱼了。
其中,像是句(15)这类同一条语料中出现“了”的两种用法也很常见。在判断语料句末“了”使用正确与否的时候,只看句末“了”是否使用正确即可。句(15)中动词后“了”表动作“休”完成的使用没有问题,句尾“了”表示相关状态的表述同样正确,所以这句话即第一个“了”使用错误也不影响判断句末“了”的正确率。中国台湾地区语料库中有一了突出现象是句尾的语气词特别丰富,这一点在口语上体现的也特别突出。句(17)是常规的句末“了”后加“吗”表示疑问,在中国大陆地区也比较常见,可以归为句末“了”的疑问句形式,与句(18)类似,只是二者的语气略有不同,第一个表疑问,第二个是在询问的人员中已经有了猜测的答案,给出问句询问对方是否同意自己的猜测。句(18)和句(19)都是句尾处句末“了”加了语气词,但是句(19)语料库系统判定为正确,句(20)“*你不要想太多了啦”读起来似乎很符合中国台湾地区的口语色彩,但是在语义上有没有“了”,语句的意义并不发生改变,如“你不要想太多啦”。
根据统计结果,第三组624条语料随机挑选的500条语料中,句末“了”共出现了278条,占总使用情况的56%。这278条句末“了”的语料中,使用正确的有218条,使用错误的有60条,即正确率约为78%。
4.2.2. 组2“全球汉语中介语语料库”句末“了”整理与分析
在“全球中介语语料库”中,母语背景为韩语,汉语水平为中级,含有“了”的语料共检索出4264条,随机下载其中的500条。具体语料如下所示。
(22) 猴子砍树的故事明确告诉了我们这个道理。
(23) 那个时候,我朋友的钱包被小偷拿走了。
(24) *北京的天气比我想象的好多(了)。
(25) *她经常用我的手机和男朋友联系了。
(26) *那个电影是我在中国第一次看的,很感动了,内容也不错。
(27) 对了!只有一个。
中级组“全球汉语中介语语料库”随机下载的500条语料中,同样含有除句末“了”之外的其他用法,如句(22),是跟在动词后表完成的“了”。句(23)则为句末“了”典型的正确使用情况之一。句末“了”的错误使用在“全球中介语语料库”中一般有两种标记,一种是句(24)该用句末“了”而不用,还有句(25)不该用了的时候多用了句末“了”。句(26)属于在语料库中未被系统自动标记但在人工校对中发现错误,“很感动了”后不用“了”,在整理统计过程中类似的语料均被归为句末“了”使用错误的数据。句(27)中,“对了”“了”在这里更像是固定用法,但在实际语义上仍旧可以表示相关的状态,即提醒某一种新情况,在本研究中,此类依旧归为句末“了”的统计范围。
中级组“全球汉语中介语语料库”中,500条含有“了”的语料里,其中使用句末“了”的有273条,占“了”总使用频率的54%。其中273条出现句末“了”的语料中,使用正确的有229条,错误的有44条,即中级组“全球汉语语料库”句末“了”的使用正确率约为84%。
中级组句末“了”的使用情况跟初级组大体相同,表示状态改变类的句末“了”使用频率在两个地区均最高,话题协商类仍然处于四类句末“了”使用情况的最低频。稍有不同的是中国台湾地区(组1)的表示与先前相反状态的句末“了”使用频率与前面提到的教学建议保持一致,处于第二的位置,状态持续属于第三类。而大陆地区则跟组1的情况相同,即表示状态持续类的句末“了”使用频率高于表示与之前状态相反的句末“了”的使用频率,其他用法除外,详见表4。

Table 4. Distribution of usage of “le” at the end of sentences at the mediate level of Chinese
表4. 中级汉语水平句末“了”使用情况分布
4.3. 高级组
高级组“华语学习者语料库”根据母语背景、汉语水平即C1仅检索出12条语料,两个数据库语料数量悬殊,这会对研究结果产生一定影响。
4.3.1. 组1“华语学习者语料库”句末“了”整理与分析
高级组“华语学习者语料库”母语背景为韩语,汉语水平等级为高级,含有“了”的语料共检索出12条。其中句末“了”的使用有8条,使用正确的有5条,使用错误的3条。具体语料如下所示。
(28) 从1970年至2010年的婴儿个数亦大幅地下滑了。
(29) 最后,宠物死了之后的处理也是成问题的。
(30) *此报道暗示我们的社会即将面临“少子化”问题了。
(31) 这种趋势便导致了经济上或时间上的限制。
(32) *“少子化”便助于消除人口膨胀所引起的问题了。
除了语料数量有限之外,这12条语料每条语料在语料库中虽每条最多只能展示关键字的前后45个字,但是通过观察这12条语料讨论“婴儿”“宠物”“少子化”等主题可以推测这12条语料很有可能是从同一位学习者的某一次考试中关于“少子化”问题的作文中提取的。所以这12条语料不具有广泛的代表性。这里的统计结果只代表个别情况,即在高级组中国台湾区域个别学习者语料显示,句末“了”在所有“了”的使用中占比约87%,其中句末“了”正确率能达到约63%。
4.3.2. 组2“全球汉语中介语语料库”句末“了”整理与分析
高级组“全球汉语中介语语料库”母语背景为汉语,汉语水平为高级,含有“了”的语料共检索出2852条,数量远远大于“华语学习者语料库”。随机生成500条语料,具体示例如下所示。
(33) *小时候因为父母的职业而我常常搬家了,所以也没有比较长时间认识的朋友。
(34) 阳光照在白雪上让我们的眼睛都花了。
(35) *老师们都放弃了我,但是我妈一直为了我祷告了。
(36) *我们今年快毕业(了),所以大家毕业以后不要吃老本。
高级组语料中“了”的情况跟之前相似,不仅有句末“了”,还有动词后表动作完成的“了”,如在句(35)里,前半句“老师都放弃了我”,这里动词后的“了”表示“放弃”这个动作已经被“老师”完成,而后半句句末“了”属于误加。所以这条语料属于句末“了”使用错误的情况。而句(36)则是句末“了”的不足,或者遗漏。
在这500条含有“了”的语料中,其中使用了句末“了”的有262条,占总使用情况的约52%。句末“了”中正确使用的有233条,错误使用的有29条,即高级组“全球汉语中介语语料库”里,母语背景为韩语的汉语学习者,句末“了”使用正确率约为89%。

Table 5. Distribution of usage of “le” at the end of sentences at the advanced level of Chinese
表5. 高级汉语水平句末“了”使用情况分布
高级组句末“了”使用分布有些特殊,中国台湾地区(组1)的语料仅12条,不具代表性,这里仅分析大陆地区(组2)的句末“了”使用情况。组2句末“了”的使用分布与教学推荐顺序保持一致,其他用法除外,详见表5。
4.4. 讨论
中国台湾地区(组2)高级组的数据因为样本过少且有可能来自于同一个人,所以该组数据暂不考虑在内。通过以上分析我们可以得出:不论是中国台湾地区还是中国大陆地区,句末“了”的使用频率在“了”这一语法特征的总体使用情况中占比均位于50%以上;中国大陆地区的句末“了”使用正确率随着汉语水平的提高而增长,但是中国台湾地区句末“了”的正确率在中级组略微下降,有可能是因为初级阶段中国台湾地区的语料不够充足或者中级汉语水平汉语学习者对“了”的使用产生了混淆;句末“了”的使用错误一般为使用过度(误加)、使用不足(遗漏)以及功能混淆;基于原型范畴理论Chief, L. [9] 提出的四类句末“了”的使用情况在这两个语料库的数据中得到了部分验证,即表示状态的改变的句末“了”应该是句末“了”的典型意义,应该最先教给学生。其次状态的持续和与之前相反的状态处于中间,两组数据略微不同,但表示话题协商的使用频率均最低,教学顺序上宜置后。
5. 结语
基于两个不同区域的汉语习得语料库,本研究对母语背景为韩语汉语学习者,对句末“了”这一语言特征的习得情况进行了跨区域的对比分析。研究发现中国台湾地区和中国大陆地区汉语学习者在学习句末“了”时均高频使用表状态改变的句末“了”,低频使用表话题协商的句末“了”,基本符合Chief, L. (2019)在原型理论指导下提出的句末“了”的教学建议。此外,本研究也存在不足之处,一是“华语学习者语料库”高级学习者语料数量不足,二是研究对象母语背景单一。
致谢
本研究感谢“全球汉语中介语语料库”以及国立台湾师范大学TOCFL学习者语料库团队提供的语料和检索系统,以及匿名专家的审稿意见。
参考文献
NOTES
1Test of Chinese as a Foreign Language.