基于DWDS语料库的德语近义词辨析——以benutzen、verwenden和gebrauchen为例
German Near-Synonyms Discrimination Based on DWDS Corpus—Taking “benutzen” “verwenden” and “gebrauchen” for Reference
DOI: 10.12677/ML.2021.94117, PDF, HTML, XML, 下载: 542  浏览: 1,932 
作者: 方路佳:上海理工大学,上海
关键词: DWDS语料库近义词词频语域搭配DWDS Corpus Near-Synonyms Word Frequency Register Collocation
摘要: 近义词辨析是二语习得和教学中的一大难点,而目前针对包括德语在内的小语种近义词的研究尚疏。同时,近年来兴起的语料库为此领域的研究提供了极大助力。故借助权威性较高的德语语料库DWDS,选取具有“使用”意义的一组德语近义动词benutzen、verwenden和gebrauchen,从词频、语域和搭配三方面对其进行辨析研究。并借此对DWDS的重要功能及使用方法进行介绍和展示,以促进该语料库的应用。
Abstract: Near-synonym discrimination is a major challenge in a second language acquisition and teaching, while research on near-synonyms in non-English languages, including German, is still sparse. At the same time, the rise of corpus in recent years has provided a great impetus in this field. So in this paper, the authoritative German corpus DWDS is used to analyze a set of German near-sense verbs “benutzen” “verwenden” and “gebrauchen” with the meaning of “use” in terms of word frequency, register, and collocation. In this way, the important functions and usage of DWDS are introduced and demonstrated, which can contribute to the promotion of its application.
文章引用:方路佳. 基于DWDS语料库的德语近义词辨析——以benutzen、verwenden和gebrauchen为例[J]. 现代语言学, 2021, 9(4): 867-876. https://doi.org/10.12677/ML.2021.94117

1. 引言

近义词是一门语言中词汇的重要组成部分,也是外语教与学的一大难点,对包括德语在内的小语种而言尤甚,因为其受关注度远不及英语。而要充分理解和掌握一组近义词,就必须能够对其各方面的细微差异进行准确辨析。对此,近年来新兴的语料库具有较高的应用价值。因为其包含海量的例句,让研究者得以对近义词在语境中的使用情况进行数据化分析,具有较强的直观性和科学性。DWDS是国内具有较高权威性和使用价值的德语语料库之一,但目前尚未得到德语学习者的广泛关注和深度了解。故本文基于DWDS语料库,选取具有常见含义“使用”的三个德语近义动词benutzen、verwenden和gebrauchen,从词频、语域和搭配等方面对其进行辨析研究,并借此帮助学习者直观地了解DWDS的功能及使用方法。

2. 研究工具及方法

语料库作为二语习得、教学和研究的工具,近几年才逐渐走进人们的视线,很多学者对其特点、历史和价值等的了解均不足。小语种语料库更是刚刚兴起,其功能和优势目前知者尚少。因此本章将对本研究所使用的语料库特别是DWDS语料库这一高效工具进行简要介绍;同时,这一章中也将对此次近义词研究所使用的方法加以说明。

2.1. 语料库

语料库在语言研究领域的应用可追溯至19世纪,与现在不同的是,该时期的主要手段为语料卡片制作以及人工检索,这导致了当时的语料库具有容量有限,建库及检索速度慢等特点。自20世纪90年代起,语料库开始以计算机为平台,借助计算机技术对大量语料进行取样、储存、分类和统计分析,逐渐演变为具备容量庞大、语料可信度强、信息提取快速准确等突出优势的大规模电子文本库 [1]。语料库作为一种先进工具,近年来多为计算机辅助翻译领域的热点 [2]。而它能为研究者与学习者提供一门语言被使用的具体语境及数据统计,因此也被广泛应用于语言研究、教与学以及词典编纂等领域,同时为近义词的辨析提供了新的思路和方法。

2.2. DWDS语料库

DWDS (Das Digitale Wörterbuch der deutschen Sprache德语电子辞典)是目前国内最具权威性、参考价值和使用意义,也是最受人关注的德语学习资源之一,具有词汇量大、涵盖范围广、更新速度快等特点。它是由德国柏林–勃兰登堡科学院提议和创建的德语通用语在线辞典,借助电子平台的优势,DWDS将德语词源学辞典和近义词词典也纳入了其中,并先后收入了16至19世纪、20世纪以及21世纪的各类文本和代表资料,使其功能不再仅局限于词典,而是成为了一个动态语料库 [3]。因此,DWDS实际上具有词典和文献资料查询两大功能,一方面提供德语单词的词义、词源、近义词、词语搭配、词汇例句及词频等在线词典检索功能;同时依托其核心语料库Kernkorpus和其他语料库如元语料库Metakorpora、报刊语料库Zeitungskorpora和特殊语料库Spezialkorpora等,为词汇特别是近义词的学术研究提供海量真实可靠的参考数据。

2.3. 研究方法

本研究采用定量和定性分析相结合的方法,基于DWDS语料库平台,分别以benutzen、verwenden和gebrauchen为关键词进行检索,统计其在不同历史时期和语域中的出现频率及频数,在DWDS Wortprofil版块中分别查询这三者的常见搭配以及它们与各搭配共同出现的情况,并以数据的形式显示出来,从定量到定性的角度对这一组近义词进行深入的比较和辨析。

3. 基于DWDS语料库的近义词辨析研究

正如前文所述,DWDS语料库因其各方面的优势,是德语学习和研究,特别是近义词研究的一大利器。德语近义词benutzen、verwenden和gebrauchen均具有表示“使用”的动词含义 [4],但在实际语境中仍存在许多细微差别,辨析这类异同向来是德语教学中的一个难点 [5]。因此本章将借助DWDS语料库,通过其在词频、语域和搭配三个方面的功能,对这组表示“使用”的常用德语近义动词进行研究分析。

3.1. 词频

单词的使用频率是近义词研究的一个重要方面,DWDS语料库的一个突出功能是它可基于自带的子语料库为用户提供单词的Verlaufskurve (词频历史曲线),即将其在某一时段内的词频变化过程以折线图的形式直观呈现出来,还可将两个或两个以上单词的词频历史曲线在同一张折线图里并列展示;另外,该板块还提供单词在不同时间节点出现的具体频率和频数,借此,研究者能够从多个角度对单词特别是近义词的使用情况进行比较分析。

在使用DWDS-Verlaufskurve功能时,研究者可以自行选择单词词频所属的语料库以及要检索的时间段。根据语料库的不同,可供查询的词频起止时间会有所区别。本研究选择了Metakorpora (元语料库)下的Referenz-und Zeitungskorpora (参考及报刊类语料库),因为该语料库的可查询时段最长(1600~2018年),因此具有较高的参考价值。

出于时效性和操作性等因素,本文选取了1946至2016年为研究时段。在DWDS-Verlaufskurven页面的搜索栏中并列输入benutzen、verwenden、gebrauchen三个单词,对其在这70年间的总体词频变化进行研究,见图1

从数值上看,在1946-2016年这70年里,benutzen、verwenden、gebrauchen被使用频率的高低始终保持着同样的排序,即verwenden的使用频率始终最高,benutzen次之,gebrauchen的词频最低。

从发展趋势上看,benutzen、verwenden、gebrauchen三者的使用频率自1946年起到2016年均呈持续下降的趋势。其中verwenden的下降幅度最大,其在每百万词中出现的频率从1946年的80.38下降到了2016年的45.41,下降幅度约为43.5%;benutzen的每百万词频下降了39.7%;gebrauchen的使用频率虽然最低,但一直保持着稳中下降的趋势,70年里的下降幅度仅为28.8%。

从词频差距上看,这3个近义词在总体上均呈现逐步缩小的趋势。benutzen与verwenden之间的词频差距始终小于benutzen与gebrauchen之间的词频差距,尤其在1996~2005年这个时间段内,benutzen与verwenden的使用率最为接近,差值不足3。

Figure 1. Word frequency curves of “benutzen” “verwenden” and “gebrauchen” in 1946~2016

图1. Benutzen、verwenden、gebrauchen在1946-2016年的词频历史曲线

由此可见,benutzen、verwenden和gebrauchen虽然在语义上相近,但是在实际使用中特别是使用的频率上还是存在着一定差距,从历史的角度看这个差距是逐渐缩小的;同时这组近义词在词频上还有一个共同点,即其总体使用率随着时间的发展均呈现下降趋势。

3.2. 语域

除了进行词频方面的历时性比较之外,近义词辨析的有效手段还包括对其在不同语域中的分布和使用情况进行比较研究。“语域”这一概念最早由Raid在1956年提出,之后Halliday等人对其进行了进一步的完善。语域是指人们在实际的语言活动中出于交际的需要,或因其从事的职业和兴趣相异,亦因其话语发生的场景、说话的对象、地点和话题的不同而产生的一种语言变体,体现为语言中的不同语体风格、用语格调等 [6]。词汇在语域中的分布状态对于语言学研究而言是非常重要的,特别是在近义词方面。因为在不同语域中它们的出现频率并不相同,在同一语域内也有可能出现优先选择上的差异,而这种差异正是对其进行区分的必要条件之一。

DWDS语料库将语域分为文学、学术、实用文本和新闻4个类别。如上文2.2中所述,DWDS依托各个子语料库,为使用者提供了数量庞大的真实案例。其中DWDS-Kernkorpus (核心语料库)中涵盖的语域最全面,因此本研究选取DWDS-Kernkorpus (1900~1999, 2000~2010),将这三个近义词在1900年至2010年中出现的词频按以上4个语域进行列举,如表1所示。

表1可见,verwenden出现的总频数最高,是benutzen的1.5倍,接近gebrauchen总频数的3倍,这表明在实际应用中,verwenden的使用率要高出另外两者,这一点也与3.1中总体历史词频曲线的分析结果相符合。

Table 1. Frequency distribution of “benutzen”“verwenden” and “gebrauchen” in different registers

表1. benutzen、verwenden、gebrauchen在不同语域的词频分布情况

就verwenden而言,这个德语动词在文学语域的使用频率远低于其它3个语域,与之类似的是benutzen,其在文学语域中出现的次数与另3个领域相比也明显偏少,这说明verwenden和benutzen的专业性较强,更适合于非文学类文本。与此相对的是,gebrauchen在总频数远低于前两者的条件下,其在文学领域出现的频数仍高于verwenden和benutzen,这说明在文学文本中,人们选择使用gebrauchen的倾向性较为明显。

除了文学外,verwenden和benutzen在语域分布上还有一个共同点,即它们在新闻语域出现的次数都明显领先于另外3个语域,具体的领先频数从1013到4803不等,这说明它们在新闻领域都具有较强的适用性。不同于这两个词,gebrauchen在这4个语域中出现的频数呈现出较为均衡的状态,最高频数和最低频数的差值仅为664。也就是说,gebrauchen在各类文本中的适用性差异较小。

从上述分析中可以看出,作为近义词,benutzen、verwenden和gebrauchen的实际应用领域仍存在差异。其中verwenden和benutzen的语域分布状态相似性较高,二者都在新闻领域有着比较突出的使用率,而较少出现在文学文本中;gebrauchen则与之相反,其语域分布状态较均衡且是文学语域的优先选择。

3.3. 搭配

一个词的完整意义无法脱离语境而存在,即不可能离开上下文,因此要理解一个单词就必须对它周围经常出现的单词有充分的了解。也就是说,单词的学习与其搭配是密不可分的,语句、语境是积累和记忆单词的基础与最佳途径。同时,研究词的搭配往往比单独研究单词更有意义,也能更加清楚地辨析近义词之间的细微差异,因为近义词尽管概念意义相近或相似,但它们依旧各有自己独特的搭配。因此通过分析近义词的搭配及其具体案例以对其进行比较和辨析也是一种颇为有效的研究方法。

如上文2.3中所述,DWDS语料库提供Wortprofil功能,具体来说是将每个德语单词搭配的词频以列表方式按顺序予以呈现。使用者可在该版块的Lemma一栏中直接输入想要查询的单词,检索其所有搭配,也可以按照搭配的词类及其所需相关搭配的数量来进行搜索。同时,在该页面中,使用者还可以通过点击搭配词汇或词组的方式,直接跳转查看含有该搭配的所有相应例句,例句来自DWDS的各个语料库。

而被检索的单词与某个词或词组之间具体的搭配强度则由logDice值来体现,它是语料库语言学中经常使用的一种简洁明了的统计测量方法,以数值的形式直观地呈现搭配的关联性强弱。logDice值越大表示搭配的强度越高,其最大值为14,数值在10以上时表示该搭配具有显著的搭配强度,数值为0时则表示某种搭配的出现是完全随机的,其词与词之间几乎不存在关联性。除此之外,DWDS Wortprofil还提供该搭配具体出现的频数Freq.(Frequenz)。本文结合logDice值和频数分布来研究benutzen、verwenden和gebrauchen这一组德语近义动词的典型搭配,各选取其中前20个关联强度最高的搭配词,按logDice值从大到小排列,详见3.3.1中的表2~4。

3.3.1. 具体搭配分析

Table 2. Significant collocations of “benutzen” in DWDS

表2. benutzen在DWDS中的显著搭配词一览表

表2可见,benutzen常见搭配词的前20位中,名词共出现17次,占85%,且排行前10的常见搭配均为名词。在所有的名词中,共有5个抽象名词,即Gelegenheit、Begriff、Wort、Vorwand和Zweck。通过检索与每个搭配词相对应的例句,可知在这5个名词里Zweck是较为特殊的一个,因为它在与benutzen进行搭配时总是带有介词für或zu作为介宾短语一起出现,表示“为了某个目的而使用/利用……”,如:

1) Dienstlich erlangte Informationen für andere Zwecke zu benutzen, ist unzulässig. (Die Zeit, 18.12.2013, Nr. 51)

禁止将为官方目的获得的信息用于其他目的。

2) Sie benutzten den ängstlichen und eitlen Monarchen für ihre Zwecke. (Der Tagesspiegel, 18.07.2004)

他们利用胆小虚荣的君主来达到自己的目的。

3) Die linke Spur darf ausschließlich zum Zweck des Überholens benutzt werden. (Berliner Zeitung, 14.12.2002)

左车道只能用于超车。

而其余4个抽象名词与另外12个表示具体物品的名词包括交通工具Verkehrsmittel,日常用品如Handy、Computer,工具如Instrument、Werkzeug、Mittel及其他物品Waffe等,都作为及物动词benutzen的第四格宾语与之搭配。

由此可见,benutzen最常见的搭配是加名词作第四格宾语,名词多为具体事物且范围较广;以及另加介宾短语,即介词für或zu与名词Zweck的组合,表示为了某种目的而使用某物。

除此之外,与上述介宾短语类似,benutzen与介词dazu的搭配表示“为了达到某个具体目的而使用……”,如:

4) Junge, mutige Fachkräfte benutzen sie allein dazu, sich eine Existenz fernab der Heimat zu suchen. (Der Tagesspiegel, 23.09.2004)

富有勇气的年轻专业人员使用它们只是为了找寻家乡之外的生存空间。

benutzen的常见搭配词还包括代词sie,它既可指代人也可指代事物,可做主语也可做宾语,sie的多功能性也导致了它与benutzen搭配出现的频数远远高于其它单词。最后,benutzen也与表示程度的副词gern经常搭配使用。

Table 3. Significant collocations of “verwenden” in DWDS

表3. verwenden在DWDS中的显著搭配词一览表

表3可见,verwenden的前20位常见搭配词中共有18个名词,占90%,其中抽象名词出现14次,表示具体事物的名词出现4次。这些名词大多作verwenden的第四格宾语,且有很多是与政治经济领域相关的词汇,包括Erlös、Einnahme、Finanzierung、Geld和Energie等。

抽象名词中Zweck(e)、Herstellung、Finanzierung、Bau、Schuldentilgung和Tilgung不是作为宾语,而是以介宾短语的形式与verwenden搭配,介词有für和zu,Herstellung还可搭配介词bei。

因此verwenden的常见搭配和benutzen一致,一是与名词组成动宾结构,但其搭配的名词倾向于抽象概念,多政经类词汇;二是另加介宾短语,且短语中的名词和介词种类比benutzen丰富。

另外,verwenden在与介词darauf进行搭配时,表示“将某物耗费在……上”,突出使用过程中“消耗、用掉”的意义,如:

5) Man muß sich doch die Frage stellen, ob es gesund ist, wenn Menschen einen großen Teil ihrer Zeit nur darauf verwenden, andere zu überholen. (Die Welt, 12.02.2005)

而应扪心自问,仅仅为了超越别人而耗费掉大部分自己的时间,这是否健康。

另外,由语料库的例句可知ausschließlich在与verwenden搭配时为小品词,表示“仅仅,只”,如:

6) Und wir verwenden ausschließlich Bioprodukte aus der Region. (Die Zeit, 28.01.2013, Nr. 04)

我们只使用当地的有机产品。

7) Kartoffelfabrikanten werben damit, ausschließlich Produkte aus kontrolliertem Anbau zu verwenden. (Die Zeit, 24.03.2004, Nr. 13)

马铃薯厂主在广告中称,他们只使用在监管下种植的作物。

Table 4. Significant collocations of “gebrauchen” in DWDS

表4. gebrauchen在DWDS中的显著搭配词一览表

表4可知gebrauchen的大部分常见搭配的出现频数比benutzen和verwenden低,这与3.1.1中其历史词频曲线相匹配。其20个最常见搭配词也以名词为主,共17个,占85%。其中属于具体物品的仅一个,即Waffe,其余均表示抽象事物。与上面两个动词类似,这些名词大部分与gebrauchen组成动宾结构,而不同的是其中存在很多语言学术方面的词汇,如Ausdruck、Formulierung、Redensart、Metapher、Bezeichnung和Verstand等。

在介宾短语方面,除了Zweck之外,gebrauchen的常见搭配名词Sinn也总是带着介词in出现,表示“意味着……,在……的意义上”,如:

8) Letzteres Wort wird übrigens häufig im Sinne von Klatschtante gebraucht. (Berliner Zeitung, 16.12.2005)

顺带一提,后一个词常被用于表示流言蜚语。

9) In der deutschen Sprache wird das Wort gern im übertragenen Sinne gebraucht. (Die Zeit, 06.03.2009, Nr. 11)

在德语中,该词常被用于形象化的意义上。

另外,和benutzen类似,副词也是gebrauchen的常见搭配,包括gut和dringend,表示使用的优劣和程度。

3.3.2. 搭配的异同与总结

从上文对benutzen、verwenden和gebrauchen这组德语近义词在搭配上的分析可以总结得出:这三个动词有2种相同的常见搭配形式:与名词组成动宾结构以及搭配介宾短语。

作为及物动词,benutzen、verwenden、gebrauchen这组德语近义词与第四格名词组成动宾结构的搭配最为普遍。其中作为宾语的名词多有重合,如Begriff、Zweck和Wort等,可与这3个动词都进行搭配;但在动宾组合的倾向性上,这3个词依然存在着差异:benutzen的宾语名词范围较广,多为具体事物;而verwenden和gebrauchen的宾语名词都比较倾向于抽象概念,不同的是verwenden多与政经类名词搭配,gebrauchen则偏向于语言学术领域。

这组近义动词在搭配介宾短语时,多是为了表示要实现某个目的,介词为für和zu。verwenden的常见介宾短语组合最丰富,且另有特定介词搭配auf(后接第四格)表示“消耗”。

除了以上两种形式之外,benutzen、verwenden、gebrauchen在搭配方面还有一个相似之处,即是与个别表示程度和范围的副词及小品词的搭配关联强度较为显著。

最后,这3个动词各自的最大logDice与最小logDice差值为1到2不等,表示它们的常见搭配分布都较为平均。且其logDice值均未超过10,说明这组近义词都没有非常突出的特定搭配方式。

4. 结语

本文借助DWDS语料库对德语近义动词benutzen、verwenden、gebrauchen从词频、语域和搭配三个方面进行了辨析研究。从中可知:这组近义词在总体使用频率上存在着逐渐缩小的差距,同时具有均呈下降趋势的共同点,其中verwenden的使用频率始终最高。在语域分布上benutzen和verwenden的状态类似,即各语域分布差异明显且更常见于新闻而非文学领域,相反gebrauchen的语域分布状态较均衡且在文学领域有相对显著的适用性。在搭配上,这三个近义动词的最常见搭配形式一致,即与名词组成动宾结构;benutzen的宾语名词多为具体事物且范围较广,而verwenden和gebrauchen则多以抽象名词为宾语,verwenden常与政经类名词搭配,gebrauchen倾向于语言学术领域;其它常见搭配有表示目的的介宾短语及表示程度或范围的副词、小品词等。

此研究过程建立在DWDS语料库大量语料及其数据相关功能的辅助之上,同时DWDS的重点功能和使用方法也通过本研究得到了一定的展示。以客观性和科学性为显著特征的语料库为近义词的分析和研究提供了便利,应积极提高其在语言学研究特别是近义词辨析方面的应用,为德语教与学提供助力。

参考文献

参考文献

[1] 王永庆. 计算机技术、语料库与语言测试[M]. 北京: 科学出版社, 2014.
[2] 文军, 任艳. 国内计算机辅助翻译研究述评[J]. 外语电化教学, 2011(3): 58-62.
[3] 王兰心, 杨澜, 王美琳, 王香, 齐冬冬. DWDS辅助德语词汇学习探究[J]. 科技资讯, 2020, 18(1): 212-214, 218.
[4] 庄慧丽. 德语同义词[M]. 北京: 外语教学与研究出版社, 2017: 50-54.
[5] 刘丹. 浅谈德语中的完全同义词[J]. 语言广场, 2012(12): 39-41.
[6] 杨惠中. 语料库语言学导论[M]. 上海: 上海外语教育出版社, 2002.