1. 引言
在全球化的今天,学习第二语言已成为许多人提升竞争力的重要途径。随着日本与世界其他国家和地区在经济、教育、文化等方面的交流不断加强,日语吸引了越来越多的学习者。根据日本国际交流基金2023年3月31日公布的《2021年度海外日本语教育机构调查报告书》的调查结果显示:世界各国及地区的日语学习者人数达到了3,794,714人[1]。
在日语个性化教学过程中,基于难易度评估的文本分类在教学资源适配方面起到非常重要的作用,也是急需解决的关键技术问题。文本难易度评估的主要任务是通过对给定文本的分析,预测出该文本的难度值或难度级别,以判断该文本符合哪种层级能力水平的读者[2]。目前,先行研究多集中在英文[3]-[5]、中文[6]-[8]等语种的难易度评估上,日文难易度评估相关的研究相对较少[9]。对于日语教育领域中将日语作为第二语言的学习者而言,有效的难易度评估模型能够帮助其适配个性化学习资源,以提高其学习效果。例如,Hasebe与Lee (2015)通过设计日语表记、词汇等语言学特征,提出了日文文本的难易度评估公式[10];Wang与Andersen (2016)以日语语法句型作为模版特征,构建了基于支持向量机的机器学习模型,以预测日文文本的难易度分类[11];王淑一等(2022)从文字、词汇和句法三个维度构建了日语文本特征,借助SVM算法预测国内日语专业本科阶段所用教材的难易度分类[12];中町礼文等(2022)通过构建LightGBM模型以预测日文文本的难易度[13]。从日文文本难易度评估方法来看,上述先行研究主要采用基于公式或传统机器学习的方法。这类方法极大依赖具备日语语言知识的背景的教学或研究人员事先设计用于难易度评估的语言学特征体系。但是,构建的语言学特征体系可能存在完整性、主观性等问题。
当前,人工智能(Artificial Intelligence, AI)技术迅猛发展,为社会经济的发展注入了新的活力。在AI时代背景下,将以大语言模型(Large Language Models, LLMs)为代表的AI技术运用到外语教学研究已成为未来外语教育的发展趋势[14]。“AI + 外语”的深度融合,为新时代外语学科人才培养和学科建设打开了新局面[15] [16]。
基于上述背景分析,本文以日语能力考试的难易度等级为参考,通过收集历年日语能力考试真题以及模拟题中的阅读题型文本,分别采用多种日语预训练语言模型构建日文文本难易度自动分类模型,并对比不同模型的性能差异,最终获得适用于日文文本难易度自动分类的最优模型。
2. 数据收集与预处理
2.1. 数据收集
本文参考日本语能力测试(Japanese Language Proficiency Test, JLPT)划分的难易度等级。JLPT由日本国际交流基金会与日本国际教育支援协会设立,是目前全球规模最大的用于评价母语为非日语的学习者能力的考试。JLPT的难易度等级,分为N1到N5共计五个级别。其中,N1为最高级别难度,N5为最基础难度。
首先,从现有市面上已发行的日语能力考试真题(N1~N3级别) [17]-[19]以及面向JLPT的日语教辅书(N1~N5级别) [20]-[29]收集了阅读题型的文本;其次,采用光学字符识别(Optical Character Recognition, OCR)技术将纸质文本转换为电子化文本;最后,删除掉了以图片、表格等形式出现的阅读题型文本。本文收集的日语文本数量统计说明如表1所示:
Table 1. Data statistics of the Japanese texts
表1. 日语文本数据统计说明
序号 |
难易度 |
文本数量 |
1 |
JLPT-N1 |
335 |
2 |
JLPT-N2 |
320 |
3 |
JLPT-N3 |
190 |
4 |
JLPT-N4 |
145 |
5 |
JLPT-N5 |
90 |
总计 |
|
1080 |
2.2. 数据预处理
本文根据实际教学过程中大学日语专业学习者的学习进阶情况以及日文文本难易度自动分类实验设计需求,进一步对JLPT的难易度进行了四种不同分类,并对对应JPLT不同难度的文本进行了相应标注。具体分类及标注说明如表2所示:
Table 2. Difficulty classification-based data annotation of the Japanese texts
表2. 基于难易度分类的日语文本数据标注
序号 |
分类法 |
标注 |
难易度 |
1 |
二分类 |
0 |
JLPT-N1、N2 |
1 |
JLPT-N3、N4、N5 |
2 |
三分类 |
0 |
JLPT-N1、N2 |
1 |
JLPT-N3、N4 |
2 |
JLPT-N5 |
3 |
四分类 |
0 |
JLPT-N1 |
1 |
JLPT-N2 |
2 |
JLPT-N3 |
3 |
JLPT-N4、N5 |
4 |
五分类 |
0 |
JLPT-N1 |
1 |
JLPT-N2 |
2 |
JLPT-N3 |
3 |
JLPT-N4 |
4 |
JLPT-N5 |
此外,为了有效训练日语文本难易度分类模型,本文将标注后的数据集按照8:2的比例划分为训练集和测试集。
3. 实验设计
3.1. 模型选择
本文分别选取了由日本京都大学、日本情报通信研究机构以及日本东北大学发布的日语预训练语言模型,共计14种。这些模型采用双向Transformer编码器表征(Bidirectional Encoder Representations from Transformers, BERT) [30]算法训练而成。日语预训练语言模型信息如表3所示:
Table 3. Information of the pre-trained language models
表3. 预训练语言模型信息
序号 |
模型名称 |
发布单位 |
1 |
kyoto-L12 |
日本京都大学 |
2 |
kyoto-L24 |
3 |
NICT-32K |
日本情报通信研究机构 |
4 |
NICT-100K |
5 |
tohoku-bert-base-japanese |
日本东北大学 |
6 |
tohoku-bert-base-japanese-v2 |
7 |
tohoku-bert-base-japanese-v3 |
8 |
tohoku-bert-base-japanese-char |
9 |
tohoku-bert-base-japanese-char-v2 |
10 |
tohoku-bert-base-japanese-char-v3 |
11 |
tohoku-bert-large-japanese |
12 |
tohoku-bert-large-japanese-v2 |
13 |
tohoku-bert-large-japanese-char |
14 |
tohoku-bert-large-japanese-char-v2 |
3.2. 评价指标
为了有效评估日语文本难易度分类模型性能,本文采用以下三个指标:
4. 实验结果与分析
4.1. 二分类实验结果
从二分类实验结果(如表4所示)来看,除了模型4 (NICT-100K)之外,其他模型取得的F1值均超过了0.8。其中,模型12 (tohoku-bert-large-japanese-v2)在精确率、召回率以及F1值三项指标上均获得最高值,其分值均为0.926。实验结果表明,该模型在将日文文本分类为高级难度文本(JLPT-N1、N2)和低级难度文本(JLPT-N3、N4、N5)两个级别上表现出了最优的性能。
Table 4. Comparison of experimental results for binary classification
表4. 二分类实验结果对比
序号 |
模型名称 |
精确率 (Precision) |
召回率 (Recall) |
F1值 (F1 Score) |
1 |
kyoto-L12 |
0.860 |
0.857 |
0.858 |
2 |
kyoto-L24 |
0.880 |
0.880 |
0.880 |
3 |
NICT-32K |
0.890 |
0.889 |
0.890 |
4 |
NICT-100K |
0.759 |
0.759 |
0.759 |
5 |
tohoku-bert-base-japanese |
0.896 |
0.894 |
0.895 |
6 |
tohoku-bert-base-japanese-v2 |
0.873 |
0.870 |
0.871 |
7 |
tohoku-bert-base-japanese-v3 |
0.879 |
0.857 |
0.868 |
8 |
tohoku-bert-base-japanese-char |
0.874 |
0.861 |
0.867 |
9 |
tohoku-bert-base-japanese-char-v2 |
0.874 |
0.861 |
0.867 |
10 |
tohoku-bert-base-japanese-char-v3 |
0.861 |
0.833 |
0.847 |
11 |
tohoku-bert-large-japanese |
0.907 |
0.907 |
0.907 |
12 |
tohoku-bert-large-japanese-v2 |
0.926 |
0.926 |
0.926 |
13 |
tohoku-bert-large-japanese-char |
0.891 |
0.889 |
0.890 |
14 |
tohoku-bert-large-japanese-char-v2 |
0.879 |
0.880 |
0.880 |
注:表中分值最大的数字用粗体表示。
4.2. 三分类实验结果
从三分类实验结果(如表5所示)来看,模型12 (tohoku-bert-large-japanese-v2)以及模型14 (tohoku-bert-large-japanese-char-v2)的精确率最高,分值均为0.784;模型7 (tohoku-bert-base-japanese-v3)以及模型14 (tohoku-bert-large-japanese-char-v2)的召回率最高,分值均为0.773;模型14 (tohoku-bert-large-japanese-char-v2)的F1值最高,分值为0.778。综合三分类结果来看,模型14 (tohoku-bert-large-japanese-char-v2)在将日文文本分类为高级难度文本(JLPT-N1、N2)、中级难度文本(JLPT-N3、N4)和低级难度文本(JLPT-N5)三个级别上表现出了最优的性能。
Table 5. Comparison of experimental results for ternary classification
表5. 三分类实验结果对比
序号 |
模型名称 |
精确率 (Precision) |
召回率 (Recall) |
F1值 (F1 Score) |
1 |
kyoto-L12 |
0.710 |
0.708 |
0.709 |
2 |
kyoto-L24 |
0.759 |
0.755 |
0.757 |
3 |
NICT-32K |
0.734 |
0.732 |
0.733 |
4 |
NICT-100K |
0.583 |
0.583 |
0.583 |
5 |
tohoku-bert-base-japanese |
0.771 |
0.764 |
0.767 |
6 |
tohoku-bert-base-japanese-v2 |
0.723 |
0.727 |
0.725 |
7 |
tohoku-bert-base-japanese-v3 |
0.770 |
0.773 |
0.771 |
8 |
tohoku-bert-base-japanese-char |
0.719 |
0.704 |
0.711 |
9 |
tohoku-bert-base-japanese-char-v2 |
0.767 |
0.750 |
0.758 |
10 |
tohoku-bert-base-japanese-char-v3 |
0.751 |
0.755 |
0.753 |
11 |
tohoku-bert-large-japanese |
0.761 |
0.745 |
0.753 |
12 |
tohoku-bert-large-japanese-v2 |
0.784 |
0.750 |
0.767 |
13 |
tohoku-bert-large-japanese-char |
0.762 |
0.759 |
0.760 |
14 |
tohoku-bert-large-japanese-char-v2 |
0.784 |
0.773 |
0.778 |
注:表中分值最大的数字用粗体表示。
4.3. 四分类实验结果
从四分类实验结果(如表6所示)来看,模型14 (tohoku-bert-large-japanese-char-v2)取得了最高的精确率,分值均为0.761;模型12 (tohoku-bert-large-japanese-v2)取得了最高的召回率,分值均为0.722;模型12 (tohoku-bert-large-japanese-v2)的F1值最高,分值为0.735。综合四分类结果来看,模型12 (tohoku-bert-large-japanese-v2)在将日文文本分类为高级上等难度文本(JLPT-N1)、高级下等难度文本(JLPT-N2)、中级难度文本(JLPT-N3、N4)和低级难度文本(JLPT-N5)四个级别上表现出了更好的性能。
Table 6. Comparison of experimental results for four-class classification
表6. 四分类实验结果对比
序号 |
模型名称 |
精确率 (Precision) |
召回率 (Recall) |
F1值 (F1 Score) |
1 |
kyoto-L12 |
0.626 |
0.602 |
0.614 |
2 |
kyoto-L24 |
0.709 |
0.676 |
0.692 |
3 |
NICT-32K |
0.681 |
0.671 |
0.676 |
4 |
NICT-100K |
0.489 |
0.444 |
0.465 |
5 |
tohoku-bert-base-japanese |
0.704 |
0.681 |
0.692 |
6 |
tohoku-bert-base-japanese-v2 |
0.706 |
0.662 |
0.683 |
7 |
tohoku-bert-base-japanese-v3 |
0.646 |
0.648 |
0.647 |
8 |
tohoku-bert-base-japanese-char |
0.630 |
0.630 |
0.630 |
9 |
tohoku-bert-base-japanese-char-v2 |
0.645 |
0.639 |
0.642 |
10 |
tohoku-bert-base-japanese-char-v3 |
0.656 |
0.593 |
0.623 |
11 |
tohoku-bert-large-japanese |
0.715 |
0.694 |
0.704 |
12 |
tohoku-bert-large-japanese-v2 |
0.748 |
0.722 |
0.735 |
13 |
tohoku-bert-large-japanese-char |
0.734 |
0.648 |
0.688 |
14 |
tohoku-bert-large-japanese-char-v2 |
0.761 |
0.690 |
0.724 |
注:表中分值最大的数字用粗体表示。
4.4. 五分类实验结果
从五分类实验结果(如表7所示)来看,模型13 (tohoku-bert-large-japanese-char)取得了最高的精确率,分值均为0.73;模型7 (tohoku-bert-base-japanese-v3)取得了最高的召回率,分值均为0.681;模型11 (tohoku-bert-large-japanese)的F1值最高,分值为0.683,其次为模型7,分值为0.682。综合四分类结果来看,模型7 (tohoku-bert-base-japanese-v3)在将日文文本分类为高级上等难度文本(JLPT-N1)、高级下等难度文本(JLPT-N2)、中级上等难度文本(JLPT-N3)、中级下等难度文本(JLPT-N4)和低级难度文本(JLPT-N5)五个级别上表现出了更好的性能。
Table 7. Comparison of experimental results for five-class classification
表7. 五分类实验结果对比
序号 |
模型名称 |
精确率 (Precision) |
召回率 (Recall) |
F1值 (F1 Score) |
1 |
kyoto-L12 |
0.589 |
0.579 |
0.584 |
2 |
kyoto-L24 |
0.653 |
0.644 |
0.648 |
3 |
NICT-32K |
0.634 |
0.630 |
0.632 |
4 |
NICT-100K |
0.410 |
0.412 |
0.411 |
5 |
tohoku-bert-base-japanese |
0.686 |
0.671 |
0.678 |
6 |
tohoku-bert-base-japanese-v2 |
0.649 |
0.625 |
0.637 |
7 |
tohoku-bert-base-japanese-v3 |
0.683 |
0.681 |
0.682 |
8 |
tohoku-bert-base-japanese-char |
0.602 |
0.593 |
0.597 |
9 |
tohoku-bert-base-japanese-char-v2 |
0.652 |
0.625 |
0.638 |
10 |
tohoku-bert-base-japanese-char-v3 |
0.660 |
0.593 |
0.625 |
11 |
tohoku-bert-large-japanese |
0.690 |
0.676 |
0.683 |
12 |
tohoku-bert-large-japanese-v2 |
0.678 |
0.676 |
0.677 |
13 |
tohoku-bert-large-japanese-char |
0.730 |
0.667 |
0.697 |
14 |
tohoku-bert-large-japanese-char-v2 |
0.692 |
0.625 |
0.657 |
注:表中分值最大的数字用粗体表示。
4.5. 实验结果分析
通过对比不同模型的表现,可以发现基于BERT预训练语言模型的方法在日文文本难易度自动分类任务上具有一定的有效性。实验结果表明了BERT预训练语言模型强大的泛化能力。这主要得益于BERT预训练语言模型采用的Transformer框架能够有效地捕捉文本中单词和语句的语义特征,从而使得模型的分类结果更加精确。
从评估指标来看,日本东北大学发布的BERT预训练语言模型在各项任务中表现出了显著的优势;尤其是在二分类和四分类任务中,模型12 (tohoku-bert-large-japanese-v2)的多项评估指标均获得了最高分值。但是,随着分类任务的进一步细化,模型的性能也在随之下降。不同模型的表现差异可能主要源于网络结构、参数量和训练数据规模等。例如,日本东北大学发布的BERT-large模型在日文文本难易度自动分类任务中比BERT-base模型均表现更优。相比较BERT-base模型而言,BERT-large模型使用了更多的Transformer编码器层(24个)以及自注意力头(16个);其训练数据规模也更大,包括从cc-100和Wikipedia的语料,分别为74.3 GB和4.9 GB。在三分类任务中,日本东北大学发布的BERT-large-char模型(模型14)的表现较好。该模型在日语分词处理上采用了字符级别的嵌入,即在输入层,通过将每个字符映射为向量,然后通过神经网络来学习字符序列的表示,再输入到BERT中。基于字符的BERT模型可以更好地处理文本中的未知词问题。在五分类任务中,BERT模型表现不佳。其原因可能在于五个难易度的日文文本数量不均衡,尤其是JLPT-N5的文本较少,这导致BERT模型能够捕捉到的文本语义特征较少。此外,导致BERT模型分类错误的原因可能还在于一些日文常用词对文本的难易度区分不够明显;例如,日文文本中出现频度较高的「は」、「が」等助词。
尽管BERT预训练语言模型在日文文本难易度自动分类任务中表现出了一定的优势,但是仍然含有一些不足以及今后可以改进的地方。首先,BERT预训练语言模型需要大量的计算资源和数据资源,训练成本和技术门槛较高,这限制了其在语言教育等人文领域应用场景中的应用和推广。其次,BERT预训练语言模型输出的分类结果对语言教育等人文领域的研究者和教育者来讲,在解释性方面可能存在一定的局限性。因此,在今后的研究工作中,可以探索将BERT预训练语言模型与语言学特征相融合,通过收集更多的个性化语言数据并采用更加有效的预训练或微调等方法,构建更加精细化的模型,以提高BERT预训练语言模型的表示能力、泛化性能以及可解释性,从而更加满足语言教学的实际应用需求。
5. 结论
本文提出基于预训练语言模型的方法,通过多项分类实验评估了14中日语BERT预训练语言模型在日文文本难易度自动分类任务中的表现。实验结果表明,该方法具有一定的有效性,尤其是在二分类任务上表现最优;各种模型随着分类的进一步细化,其性能也随之降低;不同机构发布的模型在难易度分类性能方面也表现出了一定的差异。综合来看,日本东北大学发布的BERT预训练语言模型在本次日文文本难易度分类任务中表现更优。BERT预训练语言模型因其强大的表示能力,能够适应日文文本难易度分类任务,在日语教学领域展现出了较大的应用价值。今后,将继续探索针对日文的语言数据标注、文本分类的标准化、日语语言特征挖掘等系列问题,以构建更加精细化的模型,为智能化、个性化日语教学提供有力的技术保障。例如,可借助实时动态建模技术,模型不断输出与学习者日语能力相匹配的文本,并接受学习者的反馈,达到优化文本分类结果。
基金项目
广西哲学社会科学规划研究课题:日语文本易读性评估中融合神经网络技术的语言学特征优化组合研究(批准号:22FYY011)。