基于TCT语料库的汉语词类原型及隶属度计算研究
Research on Chinese Lexical Prototype and Membership Calculation Based on TCT Corpus
摘要: 汉语词类划分在汉语语法学界和计算语言学界都是一个棘手的话题。本文基于袁毓林“汉语词类是模糊集合”的假设,基于语料库研究方法和特征工程的思想,利用TCT语料库中的句法结构标注,构建词的“句法位置–词频”向量。最后基于簇识别的思想,找出汉语词类的原型词,并通过原型词的“句法位置–词频”向量,计算每个词在该词类标准下的隶属度。该模型在九个词类大类研究中的平均F1值为81.079%,显示出了较好的效果。
Abstract: The division of Chinese word classes is a thorny topic in the field of Chinese grammar and computational linguistics. Based on Yuan Yulin’s assumption that “Chinese word classes are fuzzy sets”, this paper uses syntactic structure annotation in TCT corpus to construct the vector of “syntactic position-word frequency” of words. Finally, based on the idea of cluster recognition, we find out the prototype words of Chinese word class, and calculate the membership degree of each word under the standard of the word class through the vector of “syntactic position-word frequency” of the prototype words. The average F1 value of this model is 81.079% in the nine word classes studies, showing a good effect.
参考文献
|
[1]
|
陆俭明. 关于汉语词类问题的两次大讨论[J]. 语文研究, 2022(4): 1-8.
|
|
[2]
|
朱德熙. 语法讲义[M]. 北京: 商务印书馆, 1982: 37, 52.
|
|
[3]
|
袁毓林. 一个汉语词类的准公理系统[J]. 语言研究, 2000(4): 1-28.
|
|
[4]
|
袁毓林. 现代汉语虚词模糊划分的隶属度量表[J]. 汉语学报, 2005(4): 12-21, 95.
|
|
[5]
|
袁毓林. 汉语词类的认知研究和模糊划分[M]. 上海: 上海教育出版社, 2010: 85-92, 120-121, 202-203.
|
|
[6]
|
袁毓林, 曹宏. 《动词句法语义信息词典》知识体系及其检索界面[J]. 中文信息学报, 2022, 36(8): 29-36, 45.
|
|
[7]
|
布龙菲尔德. 语言论[M]. 袁家骅, 等, 译. 北京: 商务印书馆, 1980: 183.
|
|
[8]
|
Bloomfield, L. (1926) A Set of Postulates for the Science of Language. Language, 2, 153-164. [Google Scholar] [CrossRef]
|
|
[9]
|
Harris, Z.S. (1963) Structural Linguistics. The University of Chicago Press, 15-16.
|
|
[10]
|
郭锐. 现代汉语词类研究[M]. 北京: 商务印书馆, 2002: 84-87.
|
|
[11]
|
陈小荷. 从自动句法分析角度看汉语词类问题[J]. 语言教学与研究, 1999(3): 63-72.
|
|
[12]
|
周强. 汉语句法树库标注体系[J]. 中文信息学报, 2004(4): 1-8.
|
|
[13]
|
黄伯荣, 廖旭东. 现代汉语(增订六版)下册[M]. 北京: 高等教育出版社, 2017: 7-9.
|
|
[14]
|
哈林顿. 机器学习实战[M]. 李锐, 等, 译. 北京: 人民邮电出版社, 2013: 184-185.
|