雅思口语AI评分模型迭代——雅思口语四项评分维度分数与口语总分关系的研究
Iterative Development of AI Scoring Models for IELTS Speaking—A Study on the Relationship between Sub-Scores of Four Rating Demensions and Overall Speaking Score
摘要: 雅思口语AI模考及评分系统正在教学中扮演愈发重要的角色,其有效提高了教师批改作业和对学生进行个性化反馈的效率,因此提升AI模考系统的评分准确性是一个重要的研究方向。本文通过对新东方八个分中心雅思教师的实际考试口语总分与对应的四项评分维度分数进行数据建模,得出了通过4项维度分数计算口语总分的加权模型公式。本文也呈现了部分统计数据,为后续口语模考平台迭代与学生针对性提分练习提供了支持。
Abstract: AI-powered IELTS speaking mock test and scoring system is playing an increasingly important role in language teaching and has effectively improved the educators’ efficiency in grading assignments and giving personalized feedback to students. Consequently, enhancing the accuracy of the mock test system is a vital focus of further research. This paper analyzes the real test scores from IELTS teachers in eight New Oriental Sub-centers and establishes a weighted formula for calculating the overall IELTS Speaking band from its four score breakdowns. Other than that, there are statistical findings presented to support the potential improvements of the AI-powered mock test platform and focused practice strategies for students.
文章引用:何彧扬, 姚宇西. 雅思口语AI评分模型迭代——雅思口语四项评分维度分数与口语总分关系的研究[J]. 国外英语考试教学与研究, 2025, 7(2): 54-59. https://doi.org/10.12677/oetpr.2025.72007

1. 引言

作为全球范围内认可度较高的英语语言能力测试,雅思考试(全称为International English Language Testing System,简写为IELTS)评分标准在各个国家和地区均保持一致。考试共分为听力,口语,阅读,写作4个科目,满分为9分。根据雅思官方最新的数据显示,2023~2024年度中国大陆的考生在雅思学术类考试的平均总分为5.9分,各个部分的具体分数如下:听力成绩5.9分,阅读成绩6.3分,写作成绩5.8分,口语成绩5.5分。可以看出,口语成绩不足是导致中国考生难以在雅思成绩上取得突破的重要原因(见图1) [1]

Figure 1. IELTS test taker performance data 2023~2024 excerpt

1. 2023年至2024年的最新雅思数据节选

此外,雅思口语考试共有4项评分维度,分别是流利性和连贯性(fluency and coherence)、词汇多样性(lexical resource)、语法多样性及准确性(grammatical range and accuracy)和发音(pronunciation) [2]。当前提到的口语AI模考平台,能够在分析学生输入的音频后,自主判断出四项评分维度的对应得分(4项小分),并通过求平均数的方式算出学生的口语模考总分。此算法的优点是让学生同等重视4项评分维度,但存在一个隐患,将四项小分求平均以得出口语总分的计算方式并未得到官方认可,其只是推测结论。在实际考试中已经观察到了一定比例的4项小分与口语总分不符合平均关系的案例。因此通过收集实考口语成绩与对应4项小分并进行数据建模,以寻找他们间可能存在的统计学关系,是AI口语模考后续发展的首要任务。

2. 数据收集与初步分析

2.1. 数据收集

本次数据建模使用了来自新东方国际教育事业部北京、深圳、济南、西安、厦门、杭州、珠海、天津共八个分中心的90条数据与18条网络数据。每条数据均包含实考口语总分与4项小分,共5列(见图2)。其中,FC代表“流利性和连贯性”,LR代表词汇多样性,GRA代表语法多样性及准确性,PR代表发音。

Figure 2. Total and sub-score excerpts from the oral test collection table

2. 实考口语总分,4项小分收集表节选

2.2. 数据处理

在进行数据建模前,本研究先对数据进行了初步分析,增加了以下5个自变量。1) “小分平均”:由FC,LR,GRA,PR求平均数得出;2) “异常”:若小分平均与口语总分的差值大于0.25,则填入“是”,反之填入“否”;3) “精准”:若小分平均与口语总分完全一致,填“是”,其余填“否”。4) “偏差”:小分平均减去口语总分。5) “偏差描述”:若小分平均小于口语总分,填入“偏高”,若小分平均大于口语总分,填入“偏低”,若小分平均等于口语总分,填入“相等”(见图3)。

Figure 3. Data preprocessing, including mean, anomaly, precision, deviation and deviation description

3. 数据预处理成果图,包含小分平均,异常,精准,偏差,偏差描述

2.3. 偏差情况

在共计108组样本中,共有52组口语总分不完全等于4项小分平均数,其中以“偏低”为主,共有43组(见图4)。总体看来,“偏低”的概率为39.8%,偏高的概率为8.3%,相等的概率为51.9%。从中可以看出,当出现口语总分不完全等于4项小分的平均数时,向下取整的概率更大。

基于43个“偏低”案例,我们可以来观察在4项小分中,是否有哪个小分出现了最多的“低于总分”的情况,用于预测导致总分偏低的主要原因。经过计算可以看到,在43个“偏低”案例中,出现了17起GRA低于口语总分的情况,因此我们可以做出预测:语法表现不佳更容易导致口语总分偏低(见图5)。

Figure 4. Ratio of deviations above/below the expected value

4. 在出现偏差时,偏高与偏低的比例

Figure 5. Key factors contributing to below-average oral performance

5. 导致口语总分偏低的主要原因分析

2.4. 异常情况

在本次收集的108组实考数据中,有10组可被归类为“异常”的数据,即4项小分的平均数与口语总分的净差值超过0.25。其中“偏低”为主,共7条,即4项小分平均数低于口语总分,包括一些不符合常理的分数,例如在4项小分均为8的情况下,口语得分为7.5。同时也存在“偏高”的情况,一条来自厦门分中心的数据显示,在4项小分均为6的情况下,口语得分为6.5。对于本次数据收集的总量而言,10条异常数据已经接近总量的10%,可以认定其并非人为操作失误或是突发情况。

当前并未发现异常情况的发生与考场地点或是口语总分有直接联系,目前的猜测是其是否与雅思总分有联系?但验证此猜想需要更多包含异常情况的数据作为支持。

3. 数据建模

根据上一部分做出的预测,本次建模的主要目的是判断在FC、LR、GRA、PR这4项小分中,是否有哪一到两项对口语总分的影响更大?因此,模型因变量(dependent variable)为“口语总分”,4个自变量(independent variable)则分别为“FC”、“LR”、“GRA”、“PR”。模型选择为多元线性回归(multiple linear regression),线性回归是研究变量间相互关系的一种有力工具,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法[3]。在R-studio环境下进行建模,建模选用数据包括收集到的全部108个实考案例。

模型展示

经过R-studio环境建模,结论为:分 = 0.395 + 0.221*FC + 0.267*GRA + 0.240*LR + 0.207*PR。4个自变量的最右侧均有3个星标,在R-studio建模环境下表示这四个变量都是显著变量(significant variables),对模型均有重要影响,同时本模型的拟合度为91.42%,不存在过拟合(over-fitting)的情况(见图6) [3]。从各变量的系数可以看出GRA的系数最大为0.267,其次是LR的系数为0.240。因此在4项小分出现相同幅度的变化时,GRA对于口语总分的影响最大,这也验证了前文对于“语法表现不佳更容易导致口语总分偏低”的猜想。

Figure 6. Screenshot of the R-studio model

6. R-studio模型截图

4. 后续升级方案与对考生的启示

4.1. 模型后续改进方案

当前用于建模的源数据还可以进行两个方面的改进。其一,当前的自变量仅包括雅思口语小分与总分,并未参考雅思总分(包含听,说,读,写)与考试地点等因素。在今后的数据收集中可以加上这两个自变量再次建模并观察其对口语总分是否有显著影响。其二,数据当前集中在有限的7个分中心且均来自教师,也就是对考试有较深了解者。为更好地贴近学员/初学者的考试状态,在今后的数据收集中可以加入学生实考成绩与对应的4项评分维度分数。此外,为了提升模型的准确性,源数据量应超过200组,因此,建议在下一轮模型迭代时,以包含学生、教师及10个以上分中心的200组数据作为起始标准。

4.2. 对考生的启示

当前的雅思口语教学当中,对于前文提到的4个评分维度并没有明确的优先级区分,且学生往往更在意表现力更强的流利度与发音。但根据本次建模情况来看,语法与词汇量对于口语总分的影响或许更大,因此在时间有限的情况下,学生可以优先关注语法与词汇量方面的改进。

致 谢

本次数据收集&建模的研究离不开各位新东方老师们的大力支持。在此感谢姚宇西老师对我的指导与点拨,以及感谢北京、深圳、济南、西安、厦门、杭州、珠海、天津分中心每一位提供了宝贵实考数据的教师与教学管理者。

NOTES

*通讯作者。

参考文献

[1] 李旖林. 浅析雅思口语的教学难点及教学策略[J]. 国外英语考试教学与研究, 2025, 7(1): 1-6.
https://doi.org/10.12677/oetpr.2025.71001
[2] 雅思口语评分标准[EB/OL].
https://assets.cambridgeenglish.org/webinars/ielts-speaking-band-descriptors.pdf, 2024-10-24.
[3] 平雅露. 基于多元线性回归对建筑价格的影响分析[J]. 统计学与应用, 2020, 9(1): 1-3.
https://doi.org/10.12677/SA.2020.91003