1. 引言
随着语料库语言学的兴起,语料库建设工作越发受到学界重视。话语研究(discourse studies)是语言学的重要分支,它尤其强调语料的真实性。由自然发生的语言事实所累积的语料库,是开展话语研究的必要资源。研制一个立意独特的语料库,是话语研究的原始创新得以实现的有利条件。但言谈话语的听觉表现形式,无法直接作为研究材料使用,必须转录成书面文字,还要对相关语言特征进行标注。此类语料库的建设过程难度较大,耗时、费力。它是一项比较艰巨的任务,非一日之功。因为有难度,所以国内以日常话语为素材的语料库目前还比较少。近年来,笔者主持建设了一个中型日常话语语料库,本文对此专门介绍。希望该项基础性工作,为汉语日常话语研究的原始创新工作添砖加瓦。
2. “日常话语语料库”简介
“日常话语语料库”(英文名称Corpus of Everyday Discourse,缩略为CED)是河北师范大学2016年立项的人文社会科学基金交叉协同科研项目。CED建设历时四年,其中2016年是筹备阶段,2017~2019年是正式实施阶段。这期间,课题组先后举办了数十场专题研讨会和培训工作坊,对语料库建设中的各种问题,进行了深入、细致的研讨。CED以日常汉语交流为研究对象,近70万字。语料库所有语料,均是自然情境中发生的汉语日常话语交流。
2.1. “日常话语”概念及语料库定位
课题组把“日常话语”定义为“那些聚焦大众话题,且一般没有事先计划的、人际间即兴的语言表达”(付晓丽、荣红、董东、宋文辉,2019 [1])。以此概念冠名的语料库,在搜集语料方面,主导思想是强调语料的“自然”“真实”和“不刻意”“无准备”。
优质的语料库,在内容选择上,应具有代表性和平衡性(郑家恒等,2010 [2])。CED语料选择符合“代表性”的要求。鉴于言语是语言表达的基础媒介(Dash & Arulmozi, 2018 [3]),CED以言语语料库(a speech corpus)为首要建设目标,选择非正式的话语交流。因为非正式的言语交流更可靠、更生动,它们在自然性(naturalness)方面,比正式的口语表达(如演讲)更有代表性,更接近自然语言的核心特征。正如著名的“莫拉维克悖论”(Moravec’s paradox)所描绘的:越是无意识的、直觉的技能,越需要更强的算力。就话语表现而言,越是人们无意识、随便说的话,就越值得研究。这些随意的语言交流,具有其他言语变体无可比拟的优势(Dash & Arulmozi, 2018 [3]),能充分揭示人类语言奥秘。在语料库的平衡性上,课题组顶层设计也有兼顾。允许少量的书面交流的话语文本(如微信聊天)被接受入库,以反映新媒体时代人们日常话语交流的状况。
CED重点采集人际互动话语,话题比较广泛,涉及购物、理发等多个生活场景。话语交流类型比较丰富:既有二人对话,也有三人及以上会话;既有公开的话语交流,也有私密的话语交流;既有以任务为导向的(task-oriented)、目标明确的话语,也有目的不明确、显性任务缺席的日常闲谈。
2.2. 研究方法
CED使用民族志研究范式,结合会话分析理论,对语料进行搜集和整理。在私人语料报送过程中,严格遵守科研伦理规范,参考国际学界(如José & Teixeira, 2013 [4]; Keel, 2016 [5]; Tannen, Kendall & Gordon, 2007 [6])的做法,采用正式的书面授权和非正式的口头同意这两种授权方式。CED中涉及私人话语的部分,均经过语料提供者本人同意。操作流程是先用录音、截屏把自然发生的语言使用记录下来,制成word文档,再进行赋码和标注。word语料文档完成后,再经过多遍复查确定无误,最终定稿入库。以下是具体的做法。
2.3. 数据采集
这个环节包括两项任务:1) 采集话语交流信息;2) 记录并报告话语发生的语境情况。
2.3.1. 采集
CED所搜集的语料,主要有公共话语和私人话语这两类。公共话语的语料相对便于搜集和整理。难度较大的是私人话语的搜集工作。CED采集的语言信息包括三大类,一是言语类,即口头表达的音频文件;二是文字类,即书面表达的视觉信息;三是混合模式,既包含语音类,也包含文字类。这三种情况,课题组采取不同的方式来处理。
为CED直接贡献语料的人,被称作语料库文本语料会话人。CED对语料真实性尤其重视,要求贡献者报告现实生活中真实发生的话语,不得转录影视剧节目的话语,也不得编造、虚构话语。音频语料的录音工作在2017~2019年间。私人话语部分,报送语料者都是土生土长的中国人。会话人被要求尽可能地说普通话,如有微量方言土语,也照常收录。需要说明的是,有一些报料人不仅复杂报料,还负责转写。这种情况下,转写者是“内部人”(insiders),对话语发生的语境情况清楚,对当时的谈话内容了解,能高质量地完成转录文本工作。这种做法虽然涉及“观察者悖论”问题,但由于报料人提前经过培训被告知:所采集的语料就是他们的日常话语,他们平时怎么说话,被录音时就还怎么说话,越自然、越随意越好,事实上“观察者悖论”对CED语料采集的真实性没产生什么影响。据多位报料人反映,在录音开始时,他们还有一点紧张,但随着话语交流的展开,他们便忘了自己说话“被录音”这件事,很快进入到自然的话语交谈状态中。
语料库建设涉及诸多细节问题:其一是个人数据隐匿。个人数据是个人数据保护法中的核心概念,其界定的关键是可识别特定自然人的数据,包括直接识别与间接识别(王融,2016 [7])。数据隐私(data privacy)和去识别化(de-identification)都是语料库建设的重要环节。CED把真实的人名及敏感信息(如住址)都进行隐藏处理;其二是数字的转录。尽量使用文字而非数字来表示。比如口头说的“1972”,语料库文档会呈现为“一九七二”,而非数字“1972”;其三是表情符的处理。先把表情符分为两类:一种是意义清楚明确的,另一种是意义模糊的。对意义明确的表情符(如高兴)如实转录,用括号文字加注的方式标注;对意义不清的表情符则忽略不计。
2.3.2. 会话日志记录
私人话语的语料采集完成后,报料人要对所采集的语料进行简要描述,撰写会话日志(conversation log),讲明话语发生的语境情况。实验研究后,课题组发现报告行文有差异。于是课题组提供AB两种方式,供报送者自由选用。
方式A:填充信息,即以填空的形式,报告语境情况。不确定的信息,就不填。例如:
1) 话语发生时间:______
2) 发生地点:______
3) 参与人数:______
4) 参与者人际关系:______
5) 参与者年龄:_______
6) 传播方式:______
7) 言语事件:______
方式B:自由撰写,即以文字形式,对语境情况进行详细说明。例如:
“2018年6月8日,我想买一双鞋,我闺蜜陪我去逛商场。我看中了某品牌的一款样式,想着试一试鞋子。这个录音就是当时我、我闺蜜、售货员这三个人所说的话。”
2.4. 转录及标注
Table 1. CED transcription scheme
表1. CED转写规范
类别 |
符号 |
意义 |
例子 |
语言特征标注(注:凭转写者的直觉来判断) |
, |
表示一个意群的停顿,言说者还未完成完整意义的表述,一般为平调或者轻微的升调 |
甲:今天的主要任务,其实很简单 |
。 |
表示言说者完成一个完整意义的表述,一般为降调 |
甲:今天的主要任务,其实很简单,就是复查语料。 |
? |
表示言说者的疑问,一般为升调 |
甲:你今天有课吗?乙:没课 |
! |
表示言说者的强烈情绪 |
甲:九点了,你还来吗?乙:我不去了甲:你可真行! |
[][22] |
表示两个或两个以上的人同时说话时的重叠[ 表示重叠起点] 表示重叠终点[2 表示同一语轮中的第二次重叠的起点2] 表示同一语轮中的第二次重叠的终点 |
甲:[他们学乙:我跟你讲]他们比咱们[2紧张甲: 是啊2] |
: :: ::: |
表示某个音节的延长,每增加一个冒号,就表示多延长一拍(注:重读音节,要尽可能地按照这种方式去标注。) |
你们谁去:::那个::邮电局不去。 |
- |
表示言说者所做的短暂停顿,多为自我修补 |
中国的儿童是比外-美国的儿童聪明呀 |
^ |
表示打断对方,突然插话 |
甲:我想是乙:^你别你想,你就说,你做了什么?甲:哦,我直接去了她家 |
== |
表示一方刚说完,另一方就紧接着说 |
甲:我就没想=乙:=你没想,你干嘛不想! |
(……) |
表示无法辨识的话语 |
都是母亲在(……) |
续表
|
(文本) |
表示貌似某种话语表达,即听起来像是这样的话 |
那么在美国(的话)那些孩子吧:::是华裔美国华裔美国人 |
〈字〉 |
表示勘误,以防误解 |
她带〈待〉几天 |
(E文本) |
表示各种表情符号 |
收到(E微笑) |
(EP文本) |
表情包 |
收到了,(EP谢谢) |
(短默) |
表示较长时间的沉默 |
甲:你觉得怎么样?乙:(短默)也就那样 |
(长默) |
表示较短时间的沉默 |
甲:你觉得他好吗?乙:(长默)怎么说呢? |
文本〈转 (具体语种)〉 |
表示语码转换为其他语言(注:仅在词语后面标注) |
1) 这款式,你hold 〈转英〉 住吗?2) 饿了,咱们去米西米西 〈转日〉3) 你问moi 〈转法〉 啊? |
〈方省/市〉 文本〈方省/市〉 |
表示普通话里面出现方言(注:允许笼统判断区域) |
我就想知道, 〈方四川〉 吃啥子不得长肥 〈方四川〉 ? |
@@ |
表示笑 |
你来啦@@ |
@文本@ |
表示话中带笑,即笑着说 |
我@一直这个样啊@ |
其他行为/事件标注 〈 〉 |
〈鼓掌〉 |
表示鼓掌 |
现在欢迎王主任讲话〈鼓掌〉 |
〈发网址〉 |
表示会话人发了网址 |
甲:你把网址给我吧。乙:〈发网址〉发过去了。甲:看到了,谢谢。 |
〈发图片〉 |
表示会话人发了图片 |
甲:给你看看我家新开的海棠花。乙:好啊。甲:〈发图片〉乙:好漂亮! |
〈发语音〉 |
表示会话人发了语音 |
甲:给你看看我家新开的海棠花。乙:好啊。甲:〈发语音〉你看看!乙:好漂亮! |
〈其他具体 行为/情况〉 |
表示会话人的其它行为或其它语境线索 |
甲:我给你留个电话号码乙:嗯,好〈甲在纸上写电话号码〉甲:给乙:太谢谢啦 |
甲:就这样吧乙:好的〈大约三分钟后,二人又开始交谈〉甲:唉,我说,你那本书买了吗?乙:哪本书? |
这方面的具体做法是,语料转录人两人一组,交替工作,相互检查。在音频录制完成后,先用科大讯飞软件对音频素材先做简单转录,再经过多遍细听,对文本内容进行修订。完成转录后,再对语料文本进行附加标注。这期间有多轮复查工作。课题组对照学界影响较大的口语语料库(如Santa Barbara Corpus of Spoken American English; English as Lingua Franca of Academic Discourse)的转写规范,并借鉴Atkinson & Heritage (1984 [8])、Jefferson (2004 [9])、刘虹(2004 [10])的标注方法,本着“简洁”“实用”的原则,研发了适合CED语料特点的转写方案。详见表1。
为保证语料库标注质量,采用双重标注的方法。第一重标注由语料转写者及语料文档的复查人完成;第二重标注由课题组经验丰富的教师来确定。CED标注的IAA (inter annotator agreement)指数高于90%,符合相关要求(如Palmer, Gildea & Kingsbury, 2005 [11])。
2.5. 语料库的构成
CED语料库涵盖“公共话语”和“私人话语”两大类话语别。公共话语都是电话形式的交流,包括“情感咨询”和“事务咨询”两个子类别;私人话语包括“学生话语”和“亲子话语”两个子类别。详细情况请见表2:
Table 2. The composition of CED
表2. CED构成
类别 |
篇数 |
字数(千) |
公共话语 |
情感咨询 |
郑州新闻广播:《今夜不寂寞》 |
100 |
258 |
辽宁经济广播:《心有千千结》 |
济南新闻广播:《金山夜话》 |
网络电台:《峰人学院》 |
事务咨询 |
河北交通广播:992大家帮 |
52 |
72 |
私人话语 |
学生话语 |
研究生面对面闲谈 |
115 |
155 |
研究生微信互动 |
84 |
45 |
本科生交流 |
22 |
26 |
亲子话语 |
母亲与孩童交流 |
157 |
135 |
总计 |
|
|
530 |
691 |
需要说明的是,字数总计是保守的数据统计。语料库的实际体量,要大于这个数值。CED语料的选择有独特之处:“情感节目话语”既是日常话语,又是机构话语,篇幅较长,话语结构复杂,叙事视角不断转换,引人入胜;“992话语”是生活中常见的咨询话语,话语参与者多、话轮短、话语重叠度高;亲子话语的主要参与方是年轻母亲与未成年孩童,孩童的年龄从两岁到十一岁不等。
3. 结语
汉语口语研究,宛如一个富矿,吸引着越来越多的国内外学者去挖掘、探索和发现。CED近年被我校师生使用,已产出本科生优秀毕业论文、硕士学位论文及原创研究多项(如杨换丽,2019 [12];谷伟明,2021 [13];张丽媛,2024 [14])。CED内的语料是自然的语言使用,是发生在我们身边的、最真实的汉语日常表达。在这些真实的语言使用中,有话语中断、倾听者反馈、重叠话语、错误开始、自我纠正、停顿、不连贯等,这些看似“坏的语法”(bad grammar)的语言现象,却是口语语法的鲜明特征。通过仔细观察并记录这些非常规信息,研究人员对口语语言使用的洞察力,会得到大幅提升(Norrick, 2000 [15])。CED所承载的是鲜活的语言使用的事实情况,希望它的建成,为蒸蒸日上的汉语话语研究提供新的素材和视角。
基金项目
本文为河北师范大学人文社会科学基金交叉协同科研项目(S2016JC06)的相关成果。