1. 引言
日本作为中国的重要邻国,是“讲述中国故事”的主要受众之一,用日语讲好中国故事是构建中国国际形象的重要环节。在新文科背景下,必须不断地丰富教学资源,在输出日语专业知识的同时,深入挖掘中国元素,增加中国文化比重,突出中国文化特色,反映当代中国的发展面貌[1]。《人民网日文版》作为中国国内主流的日语媒体,在利用新闻话语讲述中国故事、传播中国声音中扮演着关键角色。同时也是国内日语学习者构建中国故事日语文本的重要学习资源。通过收集和分析《人民网日文版》的新闻文本,对于培养日语学习者讲述中国故事的能力具有重要意义。
基于日语语料库研究方法的语料分析,若以词汇为分析单位,通常需要进行文本分词处理。然而运用现有的日语分词系统处理《人民网日文版》日语语料时,本研究发现处理结果中出现了大量单词切割和词性赋码的错误。例如,“粤港澳大湾区”一词被错误识别为“粤港”、“澳”、“大湾”、“区”四个词,并且词性信息赋码也被错误标记为“名词–固有名词–地名”,诸如此类的错误在其他相关的文本分词处理中也大量出现,无法确保后续语料分析的准确性。出现这一情况的原因在于现有的日语自动分词系统1均通过内置日语分词词表来实现日语文本的单词切割、词性赋码处理,然而,该类内置的日语分词词表是基于日本国内的语料资源构建和更新的,因此对国内以中国故事为主题的日语新闻文本的适配性较差。现有的日语分词系统主要有MeCab、Juman和Chasen等,其中MeCab是现代日语分词处理效率最高的[2]。而为了满足不同研究目的的分词需求,MeCab也为使用者提供了修改系统分词词表和添加用户个性化词表的功能[3]。
因此,在收集以中国相关的日语新闻文本并构建语料库过程中,为了提高语料处理和分析的效率和可信度,本研究将以《人民网日文版》为对象,广泛收集语料,从中抽取具有中国特色的日语表达,构建适用于“讲述中国故事”日语文本的专用日语分词词表,并对导入专用分词词表前后的分词系统进行精度评价,以分析专用分词词表的精确度和实用性。
2. 国内外研究现状
在语料库语言学研究中,需要切割语料文本,对词汇的词性、语种等信息赋码。上述处理对于词汇分析、语法研究和词性分布调查是必不可少的环节,在以往的日语语料库研究中,采用人工标记的方式对收集的文本数据进行单词切割和词性赋码,随着文本规模的增加,为处理超过百万词以上的文本数据,利用计算机和自然语言处理技术开发的日语自动分词系统开始普及。但是,现有的日语分词词表对文本环境愈发复杂的语料处理出现难以适配、分词精度下降的情况[4]。现存的主流日语分词词表IPAdic、NAIST Japanese Dictionary等长期未更新词表信息,后期开发的UniDic、NEolodg等词表虽然在固有名词的识别上准确度有所提升,但对于专门用途的语料而言,自动分词后仍需要大量纠错[5]。
在构建特定领域的语料库过程中,使用日语自动分词系统预处理语料时,可以根据自身研究目的构建专门分词词表以提高语料库的准确性和可靠性[6]。在构建专门用途的日语分词词表研究中,基于分词词表的日语自动分词系统单靠内置的系统分词词表无法满足特定领域语料的分词需求,在相关研究中,研究者通过收集近代日语的杂志、新闻等语料形成学习语料库的方式,采用人工纠错,构建适用于近代日语文本的专用日语分词词表,计算词表导入前后的准确率发现,对近代日语文本的分词精度得到了明显的改善,可以提高后续语料分析工作的效率和质量[7]-[9]。
综上所述,本研究以改善以中国故事为主题的日语文本的分词处理效果为目标,采用可操作性高的日语自动分词系统MeCab作为分词工具,收集《人民网日文版》的新闻语料,构建适用于中国故事日语文本量化分析的专用日语分词词表,并评估专用分词词表导入前后的分词精度。同时,通过实例考察专用日语分词词表的实用性。以期通过本研究能够为培养中国日语学生讲述中国故事的能力提供语料支持。
3. 文本挖掘和整理
为提高中国故事日语文本的分词解析精度,本研究将构建专门针对中国故事日语文本的日语分词词表,以扩大分词系统的词表规模。通过文本挖掘方法,从《人民网日文版》中挖掘语言资源。利用现有的分词系统及其内置的分词词表,排除单词切割、词性信息赋码均正确的词项,手动筛选与中国故事日语文本相关的词项。
本研究通过爬虫程序,大规模抓取《人民网日文版》经济、社会、文化和科学四个主要板块中,时间范围为2023年9月15日至10月31日的日语新闻报道(http://j.people.com.cn/,引用日期:2023年11月18日)。采用每个文本独立处理再去除重复词项的方法,并通过正则表达式2清洗文本中包含的中英文、标点和颜文字等无效字符。最终,我们得到了形符数247,818词,类符数13,417词规模的日语语料资源。
本研究采用日语自动分词系统MeCab作为分词解析工具,由于MeCab的单词切分依赖于计算词与词之间的连接值,而连接值是由日语自动分词系统计算每个单词的“左文脈ID (左文脉ID)”,“右文脈ID (右文脉ID)”和“コスト(出现值)”所得到的,并且词项的连接值越小出现概率越高。因此,需对从文本挖掘所获词项进行“左文脉ID”、“右文脉ID”和“出现值”的赋码。
4. 专用分词词表构建与扩充
构建专用的日语分词词表需要收集准确使用该词汇的文本,形成文本数据集,并从实际使用的文本数据集中抽取对应词汇构建词表[10]。基于该方法,本研究抓取《人民网日文版》2023年9月15日至10月31日的新闻文本作为文本数据集,并导入MeCab日语自动分词系统中,每个文本独立地进行分词和赋码处理。观察分词结果发现,出现单词切分错误的词项通常与“讲述中国故事”主题相关,且由于单词切分不准确,导致词性赋码均出现错误,主要集中在名词大类。
分词结果中出现错误的词项是由于在系统分词词表IPAdic中并没有记录相应的词项,使得在单词识别过程中无法准确被标记为一个完整词单位,同时其词性标记结果等信息也未能完整地作为分词结果一同被输出。针对此问题本研究的解决思路是将每个文本独立分词的结果去除单词切分且词性赋码正确的词项,对单词切分和词性赋码错误的词项逐一纠错,整理成专用分词词表。表1即为该处理过程中,MeCab日语自动分词系统中分词词表的添加格式(以“重慶市”为例)。
Table 1. Format of word segmentation dictionary in MeCab
表1. MeCab中分词词表格式
表層形 |
左文脈ID |
右文脈ID |
コスト |
品詞 |
品詞細 分類1 |
品詞細分類2 |
品詞細分類3 |
活用型 |
活用形 |
原形 |
読み |
発音 |
重慶市 |
1293 |
1293 |
0 |
名詞 |
固有名詞 |
地域 |
一般 |
* |
* |
重慶市 |
ジュウケイシ |
ジュウケイシ |
由于中国故事日语文本中出现单词切分、词性赋码的词性均属于名词大类,同时考虑定量分析中常见的词性分布分析的需求,本研究对错误词项的纠正集中在“表層形”,“品詞”,“品詞細分類1”,“品詞細分類2”,“品詞細分類3”,“原形”,“読み”,“発音”,以及用作识别词与词之间界限的“左文脉ID”,“右文脉ID”和“出现值”,其中“左文脉ID”、“右文脉ID”和“出现值”的具体赋值在MeCab系统文件中根据词项的具体词性信息有具体的赋值参考3,以便MeCab能够准确识别新增词汇,从而初步构建成适用于“讲述中国故事”日语文本的专用分词词表,图1为部分分词词表。
Figure 1. The custom word segmentation dictionary (partial presentation)
图1. 专用分词词表(部分呈现)
上述研究过程中初步构建的专用分词词表共443词,通过观察词表中词项可以发现,基于原内置系统分词词表IPAdic致使MeCab未能准确识别的单词可以归类为中国的地名、行政机构、企业、传统文化和特定的科技术语等相关日语表达。为此,现有分词词表的这一特性,进一步引入该类别的其他日语表达,对初步构建的专用分词词表进行词表规模扩充,扩大专用分词词表的覆盖范围,以实现提高中国故事日语文本的单词切分精度和词性赋码准确度的研究目标。经过词表规模扩充后单词数达到969词,后将专用分词词表以MeCab用户词表的形式导入分词系统。后续分词处理前可以同时选择系统分词词表和用户词表的方式解析文本数据,将提高该类文本的分词精度。
5. 词表的实用性考察
构建该专用分词词表的目的在于提高目标文本的分词精度,以提高语料的实用性。因此需要考察专用分词词表的实际使用效果,实用性考察主要分两部分,一是专用分词词表的精度评价,收集并构建与专用分词词表具有同类语言特征的语料形成评价语料库,比较导入专用分词词表前后的分词准确率。二是对实际新闻文本分词处理并分析专用分词词表的实用效果。
本研究专用分词词表精度评价运用评价语料库方法,收集同一新闻媒体《人民网日文版》2023年8月的日语新闻文本作为对照语料,构建语料库规模为25,858词的评价语料库。由于专用分词词表的核心要素集中在单词切分和词性信息赋码,因此,主要将词境界、词性分类、发音形作为精度评价解析维度。使用准确率计算公式(公式如下)计算并比较专用分词词表导入前后的准确率,并观察专用分词词表在导入后的解析精度变化,导入专用分词词表前的准确率计算结果见表2和表3。表2数据显示,每解析10,000词出现单词切分错误数达到359词,词性分类和发音形赋码的错误数分别达到了418词和235词。
Table 2. Parsing accuracy before importing the custom word segmentation dictionary
表2. 专用分词词表导入前的解析准确率
|
词境界 |
词性分类 |
发音形 |
准确率 |
96.41% |
95.82% |
97.65% |
而专用分词词表导入MeCab后,表3数据表明每解析10,000词出现单词切分的错误词数减少至110词,词性分类和发音形赋码的错误词数分别减少至92词和54词。三个维度的准确率分别从96.41%上升至98.90%,95.82%上升至99.08%,97.65%上升至99.46%。分析准确率的数值变化可以发现,专用分词词表导入后,MeCab的解析精度提升效果明显,如表3括号中的数值所示。
Table 3. Parsing accuracy after importing the custom word segmentation dictionary
表3. 专用分词词表导入后的解析准确率
|
词境界 |
词性分类 |
发音形 |
准确率 |
98.90% (+2.49) |
99.08% (+3.26) |
99.46% (+1.81) |
本研究在分析专用分词表使用效果时,采取评测实际新闻文本分词效果的方式,对比得出专用分词词表在导入后有效提升了对“讲述中国故事”日语文本单词切分的准确性。收集《人民网日文版》的日语新闻文本,计算专用分词词表导入前后MeCab的解析数据,并统计在不同语料文本规模情况下专用分词词表导入前后的正确解析词数及其变化。其词数变化如图2所示,随着语料库类符数的增加,专用分词词表导入前后的正确解析词数差距愈发明显。
为分析专用分词表使用效果,本研究还通过例句解析的方式,抽取《人民网日文版》新闻文本例句,对比专用分词词表导入前后的解析情况,解析结果如表4,可以发现专用分词词表导入后单词切分准确度比导入前更高。因此,适用于“讲述中国故事”日语文本的专用分词词表在实际的日语文本定量分析中具有实用性和可靠性。
Figure 2. Changes in the number of correctly parsed words before and after importing the custom word segmentation dictionary with different corpus sizes
图2. 不同语料规模情况下专用分词词表导入前后的正确解析词数变化
Table 4. Comparative analysis of example sentences before and after importing the custom word segmentation dictionary
表4. 专用分词词表导入前后的例句对比分析
|
例句1 |
例句2 |
文本 |
港珠澳大橋は粤港澳大湾区「相互接続」の成果 |
三星堆博物館を見学して古蜀文明に触れ |
专用分词 词表导入前 |
港|珠|澳大|橋|は|粤港|澳|大湾|区|「|相互|接続|」|の|成果 |
三|星|堆|博物館|を|見学|し|て|古|蜀|文明|に|触れ |
专用分词 词表导入后 |
港珠澳大橋|は|粤港澳大湾区|「|相互|接続|」|の|成果 |
三星堆|博物館|を|見学|し|て|古蜀|文明|に|触れ |
日语新闻文本是培养讲述中国故事日语人才的教学资源。通过定量分析词汇、句型和语篇,可以高效提炼出准确的日语表述,构建“讲述中国故事”日语文本的专用分词词表。通过提高日语新闻文本的分词精度,能够确保语料分析的准确性及作为学习资源的可信度。
6. 结语
用日语讲好中国故事是对外传播中国形象的重要环节,也是当前日语教育研究的主要目标之一,量化分析“讲述中国故事”日语文本则是重要的研究手段,中国故事日语文本的量化分析依靠日语自动分词系统完成语料分词和词性赋码工作,为后续的语料分析提供保障。本研究针对目前日语自动分词系统难以适用于该类日语文本的困境,利用文本挖掘方法,以《人民网日文版》为对象,重点抓取其中具有中国故事特点的日语表达,构建适用于“讲述中国故事”日语文本的专用分词词表,以提高自动分词精度。
经数据对比、例句分析等评测发现,本研究构建的专用分词词表有效提升了分词精度,并在语料库规模扩大、确保更高的量化分析精确性方面呈现积极影响。今后本研究将持续收集相关语料,进一步扩展专用分词词表的覆盖范围,以期为培养日语学习者用日语讲述中国故事提供更多具有现实意义的资源支撑。
基金项目
重庆交通大学外国语学院研究生科研创新项目“讲好中国故事”背景下日语学习语料库建构与应用研究资助(编号:WYS23221)。
NOTES
1日语自动分词系统是指可以将日文文本或句子自动切分为词单位并进行词性赋码的软件系统,MeCab、Juman和Chasen等是目前常用的日语自动分词、赋码系统。
2正则表达式是指一种用于字符串操作的逻辑公式,由特定字符和组合构成,用于表达对字符串的过滤逻辑。
3MeCab的系统文件left-id.def,right-id.def有每个单词词性的左文脉ID、右文脉ID的具体赋值参考,出现值统一赋值为0。