基于TCT语料库的汉语词类原型及隶属度计算研究
Research on Chinese Lexical Prototype and Membership Calculation Based on TCT Corpus
DOI: 10.12677/ml.2025.137732, PDF, HTML, XML,   
作者: 杨 仪:成都文理学院教育学院,四川 成都
关键词: 汉语词类原型隶属度句法计算Chinese Word Classes Prototype Membership Syntactic Structure Calculation
摘要: 汉语词类划分在汉语语法学界和计算语言学界都是一个棘手的话题。本文基于袁毓林“汉语词类是模糊集合”的假设,基于语料库研究方法和特征工程的思想,利用TCT语料库中的句法结构标注,构建词的“句法位置–词频”向量。最后基于簇识别的思想,找出汉语词类的原型词,并通过原型词的“句法位置–词频”向量,计算每个词在该词类标准下的隶属度。该模型在九个词类大类研究中的平均F1值为81.079%,显示出了较好的效果。
Abstract: The division of Chinese word classes is a thorny topic in the field of Chinese grammar and computational linguistics. Based on Yuan Yulin’s assumption that “Chinese word classes are fuzzy sets”, this paper uses syntactic structure annotation in TCT corpus to construct the vector of “syntactic position-word frequency” of words. Finally, based on the idea of cluster recognition, we find out the prototype words of Chinese word class, and calculate the membership degree of each word under the standard of the word class through the vector of “syntactic position-word frequency” of the prototype words. The average F1 value of this model is 81.079% in the nine word classes studies, showing a good effect.
文章引用:杨仪. 基于TCT语料库的汉语词类原型及隶属度计算研究[J]. 现代语言学, 2025, 13(7): 476-483. https://doi.org/10.12677/ml.2025.137732

1. 引言

关于汉语词类问题,汉语学界曾经历过两次大讨论,特别是20世纪50年代汉语词类问题大讨论之后,对学界有普遍影响的是朱德熙先生的汉语词类观[1],朱德熙[2]认为“汉语不像印欧语那样有丰富的形态,因此给汉语的词分类不能根据形态,只能根据词的语法功能,一个词的语法功能指的是这个词在句法结构里所能占据的句法位置”。

袁毓林[3]在朱德熙的基础上又提出了词类范畴的家族相似性,此后基于这一假设继续研究,并且基于词类划分是根据词的语法功能,提出了词类原型的确立标准以及词隶属度的计算方法[3]-[5],同时在构建《北京大学现代汉语实词句法语义功能信息词典》时也根据先前相近的研究,绘制了基于词的句法语义功能查询系统[6]

袁毓林[5]认为汉语词类划分具有模糊性,为此他进行词类划分的做法是将这种“原型”的标准进行公理化,即先对各词类进行分布框架描写并进行形式表示,后根据每个词的典型成员的语法表现来选定一组分布特征,并按照这些不同的分布特征对于相关词类的重要性,给其中的每个特征设定权值,最后形成“汉语词类模糊划分的隶属度度量表”。这种做法的优点在于不讨论“原型”的具体指称(词),而将“原型”设定为一种公理化的表现形式,这就为抽象的词类划分确立了相对具体的可操作性空间。

然而不足之处则在于这套公理化形式是人为设定权值,词类归属的“隶属度”也取决于权值的设定,且验证方式为专家问卷调查法,存在人为干预过多的问题。本文将基于词类范畴具有家族相似性的理论假设,利用语料库技术和特征工程的思想,继续探讨词类划分的隶属度计算方法。

2. 词类划分的理论基础

基于词的组合能力的词类划分标注来自于分布的思想和结构主义的方法。布龙菲尔德[7]指出“一旦我们把音位确定为在意义上作出区别的最小的单位,我们一般就可以根据音位在言语形式的结构模式中所起的作用来确定每一个音位”,将语言单位从音位转移到词上,则“每一个词汇形式都在词汇和语法两个方面同语法形式相联系……词汇形式的功能决定于选择的语法单位,这些语法单位共同组成了语法形式。具有任何共同功能的词汇形式属于同一个形类(form class)”,因而词的句法表示可以理解为“词汇形式的功能”。而布龙菲尔德[8]在之前就对“词汇形式的功能”作了定义,他认为“Such recurrent sames of order are construction;Each of the ordered units in a construction is a position;The positions in which a form occurs are its functions”1

后描写主义的Harris [9]发展了布龙菲尔德的分布思想,他对词分布位置的判断推翻了词的语法范畴对词句法表示的作用,也为汉语的词进行句法描写奠定了理论基础,他认为“The DISTRIBUTION of an element is the total of all environments in which it occurs, i.e. the sum of all the (different) positions (or occurrences) of an element relative to the occurrence of other elements”2,从其描述中可以看出,他认为结构并非必要,一个词的具体表示方式只与其出现的环境有关。

这一观点当然也招致过一些批评,比如郭锐[10]批评“词类是分布类”的观点中提出从总体分布观出发,“语法位置的总数到底有多少,很难有确切的答案”。此外,如果列出几种基本结构类型和句法成分,理论上可以分出上千种词类[11]

由此可见,获取词的句法表示的前提是界定词的句法分布位置,包括确定句法分布位置的数目,以及词进入特定句法分布位置的能力;如果不能明确界定词的句法分布位置,那么就会导致操作的混乱。可以说,一旦抛弃“结构”,或者完全依靠结构中的语法位置来给词划类,总会出现问题。想要获取特定语言中的句法分布位置,首先应当明确句法结构的存在,并且在特定语言中,确定封闭的句法结构的性质和数量;其次,在该语言中每个词能够进入特定句法结构位置的能力是不同的,为了取得每个词的句法分布位置,需要在一定规模的语料库中统计每个词能进入不同结构位置的频次。当上述两步均完成后,词的句法分布位置便可以转换成词的句法表示:理论上可以获取该语料库中每个词能够出现在每种句法结构位置的频次。

3. 语料准备

3.1. 词类归纳

本文使用的语料库为清华大学开发的100万字规模的汉语句法树库TCT [12]。根据黄伯荣、廖旭东[13]的《现代汉语》所列词类大类作为参考,最终确定考察对象为“名词、动词、形容词、副词、数词、量词、介词、连词、助词”共9类。根据词类分布的特点和语料标注的特点,我们先将语料库中出现的所有词类进行预归类(如下表1):

Table 1. Pre-classification of word classes in the TCT corpus

1. TCT语料中词类预归类

词类

考察的同类型词类

n

iN, nP, nO, nR, nS, rN, vN

v

vC, vSB

a

b, rB, z

d

aD, dB, dD, dN, iD, rD, vM

m

q

qC, qN, qT, qV

p

c

l

u

y, k

其他

e, f, g, h, i, iV, o, r, rS, rT, rV, s, t, vB, vJY, x

3.2. “句法位置–词频”向量的构建

这里采用“短语结构”作为词句法位置的标注基础,不将其上升到“句子”层面,因此剔除了TCT语料库中标注的“句子结构”;剔除了对挖掘词的语法功能作用不明显的短语结构,如“联合结构、重叠结构、连谓结构、标号结构”(联合结构和连谓结构中出现的实词删去,虚词单独拿出进行统计);此外增加了“量词结构”,因为语料库中原本的量词短语均被标注为“定中结构”,无法体现出量词以及量词之前的指示代词或者数词的句法结构特点,需要将其修改为“量词结构”。最终选取如下结构标注:

表2是我们保留的TCT语料库的结构类标注:

Table 2. Structural type annotation in the TCT corpus

2. TCT语料中的结构类标注

标记代码

结构标记说明

标记代码

结构标记说明

标记代码

结构标记说明

ZW

主谓结构

ZZ

状中结构

FW

方位结构

PO

述宾结构

LC

量词结构

JB

介宾结构

SB

述补结构

AD

附加结构

KS

框式结构

DZ

定中结构

JY

兼语结构

LH

联合结构

LW

连谓结构

通过这种方法,最终抽取出46,291个词。

最后将每个词的句法位置及其词频统计出来,格式如下例:

其/rB:DZ1,117;ZW1,1;FW1,2

“:”前是词与预标注的词类标记,“:”后是词的句法位置及频次。以“其/rB”为例:该词在“定中结构”中出现在第1个句法位置的频次为117,在“主谓结构”中出现在第1个句法位置的频次为1,在“方位结构”中出现在第1个句法位置的频次为2。

之后统计每个词的句法位置及其词频,将所有出现的句法位置列成“元素特征”向量,一共有31个特征,格式如下:

[AD1*, AD2, DZ1, DZ1*, DZ2, DZ2*, FW1, FW2, JB1, JB2, JY1, JY2, JY3, KS1, KS2, KS3, LC1, LC2, LH1*, LW1*, PO1, PO2, SB1, SB2, ZW1, ZW2, ZW2*, ZZ1, ZZ1*, ZZ2, ZZ2*] (带有*的句法位置是指该位置上原本的词为虚词,需要单独提取出来,形成独立的维度,以便与实词在结构中所处结构位置区分开来)。

接着绘制每个词的“句法位置–词频”向量,在对应的特征下将词频填入,格式如下例:

其/rB:[0, 0, 117, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0]

自此,语料预处理完成,最终得到了包含46291个词及其对应的“句法位置–词频”向量。

4. 词类原型及隶属度的计算方法

4.1. 词类原型的确立

4.1.1. 簇识别和预期效果

簇识别是机器学习中的术语,主要用于聚类中。聚类是将相似的对象归到同一个簇中的方法[14]。我们可以近似理解为,簇就像集合,只是这种集合没有截然区分的边界。由此可以看出,簇识别的方法更加接近于模糊划分的特点,适合进行隶属度的测算。这里我们借鉴聚类的思想,不采用自动聚类算法,而是主动赋予“簇中心”(聚类中心),即主动将某个词类中的n (n ≥ 1)个词当做聚类中心,而非只赋予一个虚的中心点,或仅将某1个词作为聚类中心,因为我们需要保证“簇中心”是该词类中“典型的词”。

我们将分别测算每个词与“簇中心”的距离,比如测算某词与名词“簇中心”的距离,那么距离越近,该词在“名词”范畴中的隶属度就越高;反之距离越远,则该词在“名词”范畴中的隶属度就越低。

4.1.2. 原型词确立的原则

汉语词类与句法成分的关系复杂,有些词类中的词可以出现在不同的句法位置上,因此如上一小节所述,我们需要找到n个词(而非单个词),将其整体作为该词类的“簇中心”,称之为原型词集,原型词集中的每一个词都称之为原型词。

我们建立这样两个假设:一、当一个词在使用中可能占据的句法位置有差别,则其语法功能也有差别;二、当某个已确定词类归属的词在使用中出现的频次越高,则其在该词类中的隶属度就越高。

于是我们在确立原型词集时,需要考虑两个因素:词可能占据的句法位置、词出现的频次。也即我们需要保证进入“簇中心”的原型词同时满足两个条件,一是这批原型词能够囊括该词类大多数词占据的句法位置,二是每一个原型词隶属于该词类的词频需要尽可能地高。我们为研究的九大类词的每一类词都赋予n个“簇中心”,n的数量由数据分析和经验总结共同决定,具体数据操作方式见4.2小节。

4.2. 隶属度计算方法

4.2.1. 余弦相似度计算方法

我们认为在原型词集中,每一个原型词在该词类中都是典型的,因此在计算待测词与该原型词集的相似度时,我们会计算待测词与每个原型词的相似度,最后取最大值,作为待测词与该原型词集的相似度,此时我们称与待测词相似度最大的原型词为“匹配原型词”。

由于我们在构建“句法位置–词频”向量时赋的元素值为词频,词频的变化会导致向量维度、方向的变化,因此具体的相似度计算方法我们使用“余弦相似度”,即求某个对象的“句法位置–词频”向量与原型词的“句法位置–词频”向量的余弦相似度,公式如下:

令待测词为A,待测词的“句法位置–词频”向量为 A ,原型词集为Y (共有n个原型词),原型词为yi (i ∈ N+且0 < in),原型词的“句法位置–词频”向量为 y i

Sim( A )=max( A y i | A || y i | ) (1)

4.2.2. 隶属度的赋值

先前我们为每个待测词确定了其与原型词集的相似度,可以认为这个相似度与待测词之于该词类的隶属度成正相关:相似度越高,待测词之于该词类的隶属度越高;反之则越低。

我们记待测词A对某词类的隶属度为 L( A ) L( A )[ 0,1 ] ,根据经验,我们可以先给隶属度划一个范围标尺:

L( A )=0 ,则待测词A完全不属于该词类;

L( A )( 0,0.5 ) ,则待测词A属于该词类的概率很小;

L( A )=0.5 ,则待测词A属于该词类的概率对半开;

L( A )( 0.5,1 ) ,则待测词A属于该词类的概率很大;

L( A )=1 ,则待测词A完全属于该词类。

可见我们需要找出一个“中间值”,使得该词属于该聚类的概率对半开。由于我们采用余弦相似度的计算,并且所有“句法位置–词频”向量的元素均为自然数,因此待测词与该词类的余弦相似度 Sim( A ) [ 0,1 ] 。因而,当两个向量的夹角为 π/4 时,待测词隶属于该词类的概率对半开,此时 Sim( A )= 2 /2 。因此:

L( A )={ Sim( A ) 2 /2 × 0.5 1 2 /2 +0.5= Sim( A ) 2 +1 2 2 , Sim( A ) 2 /2 Sim( A )× 0.5 2 /2 = 2 2 Sim( A ), Sim( A )< 2 /2 (2)

4.2.3. 模型效度的验证

我们所讨论的汉语词类是属于词类大类,因此在抽取“原型词”时需要从原标注为词类大类的词中进行选取;而在验证模型效度时,我们也不得不考虑小类词及其他词类在隶属度计算中的影响。

先前我们已经对语料库中涉及到的词类进行了初步归类,我们希望在计算某一词类的隶属度时,该词类及考察的同类型的词类中隶属度高于0.5的词应尽可能多,同时其他词类中隶属度高于0.5的词应当尽可能少。因此我们选定评价模型训练水平的常用评价指标为精确率(Precision)、召回率(Recall)、调和平均值F1,计算公式如下所示:

P( C )= correct( c ) correct( all ) (3)

R( C )= correct( c ) num( c ) (4)

F1( C )= 2×P( C )×R( C ) P( C )+R( C ) (5)

其中 correct( c ) 表示在待测词类C (包括各个同类型词类)中隶属度高于0.5的词数; correct( all ) 表示所有词类中隶属度高于0.5的词数; num( c ) 表示待测词类C (包括各个同类型词类)的总词数。

5. 实验结论

5.1. 模型评估

Table 3. Model evaluation results

3. 模型评估结果

词类(C)

原型词

词类C覆盖率

总词数

准确率(P)

召回率(R)

F1值

n

年代,社会主义,车

84.359%

24,495

84.118%

84.719%

84.418%

v

走,说,吃

79.012%

10,735

86.728%

79.255%

82.823%

a

重要,新,发达,有力, 得意,不错,合格,厉害

75.149%

3719

21.325%

75.316%

33.238%

d

97.626%

2122

68%

95.335%

79.38%

m

10

62.245%

1078

96.547%

62.245%

75.691%

q

93.905%

447

100%

93.512%

96.647%

p

94.444%

162

92.727%

94.444%

93.578%

c

和,但是

93.333%

108

100%

89.815%

94.634%

u

75.676%

144

95.276%

84.028%

89.299%

总计

82.747%

84.297%

81.079%

5.2. 实验结果分析

表3实验结果来看,名词、动词、量词、介词、连词和助词的实验效果不错;形容词、副词和数词的实验结果都存在一定的问题,需要单独进行解释。

5.2.1. 形容词结果分析

随着指称作用的逐步减弱,形容词在语料库中的词频相较于名词和动词少了很多,因此一点小的差异便可能造成较大的偏差。

“汉语词类和句法成分的关系是错综复杂的”[2],在进行形容词隶属度的测算时,我们发现形容词能出现的句法结构位置非常丰富,常见的有“定中结构”中定语的位置、“状中结构”中状语和中心语的位置、“主谓结构”中谓语的位置等。

因此如果从名词的角度看形容词,由于名词确实不常见于定语的位置,即使名词的原型词中有“社会主义”这个常作定语的词存在,在名词的标准下,也只有一部分形容词能够进入名词的标准;但是如果从形容词的角度看名词,一些词的特殊功能便被放大了,如“701室”中的“701”虽然是数词,但仍然能够进入定语的位置,与此相同的还有“四川成都”中的“四川”、“组装技术”中的“组装”等。这些词在形容词的标准下也大量被吸收了进来,造成了准确率过低的情况。

同样的结果同时发生在状语和谓语的位置上,比如“朝山里钻去”中的“钻去”、“跨地区作案”中的“作案”、“能做官”中的“做官”等词,虽然原本被标注为动词,却依然进入了形容词的标准。

但是如果再减少形容词原型的数量,则会造成本词类自身的覆盖率偏低,这样召回率就无法得到保证,因此对形容词而言,或许还需要在构建的“句法位置–词频”向量基础上拼接一定的语义信息,才能更好地完成任务。

5.2.2. 副词结果分析

在副词这套标准下,我们只需要“都”这一个词作为原型词,就能覆盖90%以上副词的分布位置。

“都”在语料库的短语结构中出现的位置只有“状中结构”中状语的位置,在这一标准下召回率得到了保证,但是准确率有所下降。一是由于副词及其同类型词的词频较低,其他词类的词如果也能作状语,容易导致结果发生较大偏差;二是“都”在统计中只能作状语,这就使得其容错率降低了,如一些低频形容词(如“果断决策”中的“果断”)、时间词(如“日夜兼程”中的“日夜”)、动词(如“试探地问”中的“试探”)在该语料中常用作状语,这就容易在副词的标准下被吸纳进来,造成准确率降低。

不过好在总体的召回率高,并且常用作状语的其他词类的词比较零散,F1值还是比较可观。

5.2.3. 数词结果分析

在数词这套标准下,呈现的结果与副词截然相反,这是牺牲了召回率而保证了准确率的结果。

为了保证数词这套标准下的准确率高于80%,原本我们保留了“不少、一下、10”三个原型词,但是“不少”常用作“定中结构”中的定语(如“不少人家”),“一下”常用作“状中结构”中的中心语(如“了解一下”),如果将这两个词纳入数词的原型词,那结果就是召回率较高(约为82.004%),但是准确率奇低(约为6.566%),因此不得不将这两个词剔除出原型词的范畴。

为了解决这一问题,单纯引入语义信息似乎不是那么有必要。如果一定有必要进行一些调整,可以将“不少”这种类型的数词归入形容词行列,或者将“不少人家”这种类型的结构归入“数量结构”,就能办到。至于“一下”之类的数词,或许可以对其结构进行进一步细分,将其分为“一”和“下”组合而成的数量结构,这样问题也可以得到解决。

6. 结语

本文利用TCT结构标注语料构建了基于词的句法表示方式,并且在模型中取得了较好的实验效果,该实验也从侧面验证了分布理论在汉语词类划分中取得的良好效果。在以词作为自然语言处理基本单元的假设下,这种基于统计的词的句法表示方式,可以作为词本身语法功能的一种较好的表示方式,为计算机自动处理句法信息提供可行的“句法词向量”表示方式;另外,由于我们统计了每个词在整个语料库中出现的频次,因此每个词的“句法位置–词频”向量实则也可以转换为“句法位置–概率”向量,即每个词出现在某种句法位置上的概率是多少,这对汉语词类的语言学本体研究也有一定的参考价值。

然而这种词的句法表示方式也存在一定的局限性。首先本文在验证词类划分时过分依赖于结构标注,一旦结构标注批量存在的问题(如数量结构在TCT语料中被全然标注为定中结构),会造成结果的严重失实。其次,对于分布特点不明晰的词(如处所词、时间词、叹词、拟声词等)以及结构位置相对不固定的词(如形容词、数词等)而言,该句法表示方式仍然是有遗憾的。最后就是单单从结构位置来判断词类,虽然在词类大类中取得了较好效果,但是在进行更细颗粒度的词类划分时,这种表示方式仍然无法做到很好的效果。

基于本文所构建的“句法位置–概率”向量,现已通过深度学习模式,将该向量映射为稠密的汉语“句法词向量”,并在汉语短语的自动识别下游任务中显示出了良好效果。囿于本文篇幅,将另文详细阐述。

致 谢

本文系“基于语料库的跨学科前沿研究国际会议”会议论文口头报告的修改稿。在此感谢北京航空航天大学外国语学院董敏教授、华中科技大学外国语学院唐旭日教授提出的宝贵意见。

NOTES

1参考译文:这种反复出现的相同顺序的东西就是结构;在每种结构中按顺序排列的单元就是位置;在一个形式中,该形式能够在某种位置上出现,这就是该形式的功能。

2参考译文:一个成分的分布就是它所能出现的全部环境,即一个成分跟其他成分的出现相关的所有(不同的)位置(或出现)的总和。

参考文献

[1] 陆俭明. 关于汉语词类问题的两次大讨论[J]. 语文研究, 2022(4): 1-8.
[2] 朱德熙. 语法讲义[M]. 北京: 商务印书馆, 1982: 37, 52.
[3] 袁毓林. 一个汉语词类的准公理系统[J]. 语言研究, 2000(4): 1-28.
[4] 袁毓林. 现代汉语虚词模糊划分的隶属度量表[J]. 汉语学报, 2005(4): 12-21, 95.
[5] 袁毓林. 汉语词类的认知研究和模糊划分[M]. 上海: 上海教育出版社, 2010: 85-92, 120-121, 202-203.
[6] 袁毓林, 曹宏. 《动词句法语义信息词典》知识体系及其检索界面[J]. 中文信息学报, 2022, 36(8): 29-36, 45.
[7] 布龙菲尔德. 语言论[M]. 袁家骅, 等, 译. 北京: 商务印书馆, 1980: 183.
[8] Bloomfield, L. (1926) A Set of Postulates for the Science of Language. Language, 2, 153-164.
https://doi.org/10.2307/408741
[9] Harris, Z.S. (1963) Structural Linguistics. The University of Chicago Press, 15-16.
[10] 郭锐. 现代汉语词类研究[M]. 北京: 商务印书馆, 2002: 84-87.
[11] 陈小荷. 从自动句法分析角度看汉语词类问题[J]. 语言教学与研究, 1999(3): 63-72.
[12] 周强. 汉语句法树库标注体系[J]. 中文信息学报, 2004(4): 1-8.
[13] 黄伯荣, 廖旭东. 现代汉语(增订六版)下册[M]. 北京: 高等教育出版社, 2017: 7-9.
[14] 哈林顿. 机器学习实战[M]. 李锐, 等, 译. 北京: 人民邮电出版社, 2013: 184-185.