1. 引言
在新高考、新课程和新教材“三新”背景下,传统的高中生物教学方式难以满足当前教学需求。新课程和新高考更加强调培养学生的核心素养,以提升学生的综合素质。由于传统的考试和评价方法难以全面反映学生的生物学素养和能力。因此,引入新的评估模型尤为重要。Rasch模型作为一种项目反应理论(IRT)模型,在心理学、社会学等领域得到了广泛应用。该模型可量化学生能力和试题难度,为全面评估学生核心素养提供了条件。然而,在高中生物教学中,基于Rasch模型对试题解析和学生能力评估的研究相对较少。将Rasch模型应用于高中生物试题的解析中,不仅能够更准确地评估学生能力、试题难度和设计有效性,还能为教学及试题改革提供科学依据。这对于提高教学质量、优化教学内容、深化试题改革具有重要意义。本研究基于Rasch模型对高中生物试题进行解析,按照测量指标的选择、数据与试题分析、结果解释、结论与建议这一思路依次进行,通过分析数据及试题内容,为高中生物教学提供更精准的反馈。
2. Rasch模型简介
Rasch模型由丹麦数学家和心理学家于1960年提出,是一种用于心理测量和教育评估的统计模型,主要用于分析个体在测试中的反应数据,评估被试的能力与题目难度之间的关系,属于项目反应理论(IRT)的范畴。Rasch的简单函数表示为:Loge (Pni1/(1 − Pni1)) = Bn-Di [1],其中,Pni表示被试者n对项目i回答正确的概率,Bn表示被试者n的能力参数,Di表示项目i的难度参数。目前,Rasch模型适用教育测量和心理测量等领域,用于项目筛选、能力评估、测试设计和信度效度分析等,在教育领域的研究聚焦于学生能力、测试评分研究、试卷分析、教师能力、课程规划等[2]。此外,Rasch模型具有样本独立性、项目独立性和测量不变性等优势,该模型通过被试对试卷中试题的反应来测量其潜在特质。
3. 研究方法
3.1. 高中生物测评试卷
本研究使用高中三年级生物测评试卷,共计32题,其中客观题(选择题、填空题) 16题,主观题16题。客观题以O01~O12、M13~M16表示,主观题以S1701~S2103表示,其中,S1701表示第17题第1问,以此类推。
3.2. 样本选择
以某高中三年级全体学生为样本,本次测试,共获得有效数据393人。
3.3. 分析方法
本次数据分析主要采用了Excel和Winsteps 5.4.3两个软件,Excel用于处理原始数据,处理完毕后,将数据导入Winsteps 5.4.3软件中进行进一步分析。Winsteps是专门用于Rasch模型数据分析的软件,其在教育测验领域得到了广泛应用。本次数据分析,选择了分部计分模型(Partial Credit Model, PCM)进行数据处理。分析内容主要包括:单维性检验、试卷拟合度、题目拟合度、怀特图(Wright Map)、气泡图(Bubble Diagram)等。
4. 数据分析结果
4.1. 单维性检验分析
单维性检验是项目反应理论(IRT)中的一个重要假设检验,它指的是测验旨在测量被试的某一种能力,可以忽略其他能力对测验结果的影响。单维性检验分析主要用于评价试题是否紧扣学科主题。若试题展现出良好的单维性特征,说明学生在考试过程中主要受生物能力的潜在特质影响,从而影响作答表现。
Figure 1. One-dimensionality test
图1. 单维性检验
本次测试的单维性检验结果如图1所示,横轴表示项目的测量值(Items Measure),范围从−2到2。纵轴表示不同的题目(Items),从A到K。根据图1的单维性检验结果,可知大部分题目的项目测量值(Items Measure)集中在[−0.4, +0.4]区间内。这一分布符合Rasch模型理论中对单维性的要求,意味着这些题目主要受到单一潜在因素的影响。图1显示的题目在潜在变量上的分布较为集中,进一步支持了这些题目具有单维性,即它们共同测量了一个共同的潜在特质或因素。但A、B、C、D代表的4个题目的相关关系值超出[−0.4, +0.4]的建议范围,不符合单维性检验要求,表明S2001、S2002、S2003、M14这4道题目不只受单一因素影响,可能存在其它潜在特质影响了学生作答。
图2是基于方差的单维性检验结果,图中的“I”代表由题目解释的方差,而“1”代表未解释方差主成分分析中第1主成分。若I > 1,则说明题目解释的方差高于残差中第一主成分解释的方差。换言之,即使数据中存在第二个能力维度对测量结果产生一定影响,也不影响测量结果的单维性。图2数据表明,I为19.5%,而1为4.1%,I明显高于1。这说明尽管A和a可能受到多个潜在特质的影响,但并未影响整体测试结果。总之,该试题满足Rasch模型的单维性要求。因此,可以进行后续的分析。
Figure 2. Principal component analysis
图2. 主成分分析
4.2. 试卷拟合
对393名学生的数据进行整体质量检验分析,结果如表1所示。
Table 1. Overall quality test results
表1. 整体质量检测结果
|
数量 |
INFIT |
OUTFIT |
Speration |
Reliability |
MNSQ |
ZSTD |
MNSQ |
ZSTD |
被试(Student) |
393 |
1.00 |
0.0 |
1.03 |
0.1 |
1.67 |
0.75 |
项目(Item) |
32 |
1.00 |
0.1 |
1.05 |
0.2 |
8.25 |
0.99 |
表1列出了两组数据:被试(Student)和项目(Item),每组数据都包括数量、Infit和Oufit的MNSQ (均方差)和ZSTD (标准差),以及区分度(Separation)和信度(Reliability),以上数据用来检测试卷的整体质量。
ZSTD是MNSQ的标准化形式,表示拟合统计量的显著性。当IMNSQ的理想值为1时,表示实际数据与Rasch模型完全拟合;当IMNSQ的值在[0.5, −1.5]之间时,表示数据与模型预期拟合程度可接受;理想拟合状态下ZSTD值为0;当ZSTD值在[−2, −2]时,认为拟合较[3]。由表1可知,对于被试(学生)组,其IMNSQ值为1.00,ZSTD值为0.0,表明数据的拟合度较好。OMNSQ值为1.03,ZSTD值为0.1,也显示出良好的拟合度。一般项目与被试的区分度均需大于2 [4],信度理想值为1,大于0.7表明测验信度较高,0.6~0.7表明信度良好[5]。本次测试区分度为1.67 (<2),信度为0.75 (>0.7),说明数据的区分度较低,可靠性较高。对于项目(题目)组,其IMNSQ值为1.00,ZSTD值为0.1,显示出良好的拟合度。OMNSQ值为1.05,ZSTD值为0.2,也表明拟合度较好。分离度为8.25.31,信度为0.99,说明项目的区分度和可靠性非常高。总体来看,被试的数据除了区分度未在可接受范围内,其拟合度和可靠性均在可接受范围内,项目的数据质量都较好,拟合度、区分度和可靠性均在可接受的范围内。
4.3. 题目拟合
本次测验,试卷的32个题目拟合统计信息如表2所示。
Table 2. Item fit statistics table
表2. 题目拟合统计信息表
题目 |
难度 |
标准误 |
Infit MNSQ |
Outfit MNSQ |
相关系数 |
O01 |
−0.720 |
0.121 |
1.01 |
0.99 |
0.20 |
O02 |
−0.207 |
0.110 |
0.91 |
0.88 |
0.41 |
O03 |
−0.592 |
0.118 |
1.04 |
0.07 |
0.12 |
O04 |
1.056 |
0.107 |
0.97 |
0.98 |
0.27 |
O05 |
1.022 |
0.106 |
0.97 |
0.98 |
0.27 |
O06 |
1.225 |
0.140 |
0.92 |
0.87 |
0.36 |
O07 |
0.432 |
0.104 |
1.06 |
0.07 |
0.11 |
O08 |
1.679 |
0.164 |
0.98 |
0.91 |
0.22 |
O09 |
−0.255 |
0.110 |
1.00 |
0.00 |
0.22 |
O10 |
−0.905 |
0.127 |
0.97 |
0.98 |
0.26 |
O11 |
−0.634 |
0.119 |
1.00 |
0.05 |
0.19 |
O12 |
−0.795 |
0.124 |
1.00 |
0.99 |
0.20 |
M14 |
−1.888 |
0.229 |
1.06 |
1.91 |
0.01 |
M15 |
0.328 |
0.061 |
1.33 |
1.53 |
0.05 |
M16 |
−0.036 |
0.065 |
1.20 |
1.39 |
0.17 |
S1701 |
−0.762 |
0.064 |
0.90 |
0.89 |
0.47 |
S1702 |
0.187 |
0.039 |
1.06 |
1.08 |
0.49 |
S1703 |
0.316 |
0.086 |
1.05 |
1.27 |
0.16 |
S1801 |
−0.161 |
0.046 |
0.90 |
0.89 |
0.55 |
S1802 |
0.096 |
0.055 |
0.91 |
0.91 |
0.50 |
S1803 |
0.421 |
0.047 |
1.00 |
0.99 |
0.47 |
S1901 |
−0.317 |
0.081 |
1.14 |
1.15 |
0.07 |
S1902 |
0.041 |
0.075 |
1.00 |
1.04 |
0.35 |
S1903 |
0.014 |
0.053 |
0.87 |
0.84 |
0.55 |
S2001 |
1.003 |
0.060 |
1.06 |
1.08 |
0.30 |
S2002 |
0.039 |
0.060 |
0.94 |
0.89 |
0.45 |
S2003 |
0.887 |
0.042 |
1.02 |
1.02 |
0.48 |
S2004 |
1.206 |
0.066 |
0.89 |
0.88 |
0.48 |
S2101 |
0.782 |
0.039 |
1.02 |
1.02 |
0.53 |
S2102 |
1.352 |
0.056 |
0.94 |
0.94 |
0.41 |
S2103 |
0.996 |
0.046 |
0.95 |
0.96 |
0.51 |
表2显示了评测试卷每道题目的拟合指数统计,从表中可以看出,不同题目的难度系数、标准误差、Infit MNSQ、Outfit MNSQ和相关系数各不相同。这些指标可以帮助评估每个题目的质量和拟合度,从而为测试的可靠性和有效性提供依据。有研究者建议,Infit MNSQ和Outfit MNSQ的取值应当在[0.8, 1.2]之间,较为宽松的标准认为取值应当在[0.5, 1.5]之间[6]。作为高风险考试,应当选择较为严格的拟合标准[7]。从表2可知,各题目Infit MNSQ的取值范围在[0.87,1.33]之间,大多数题目都在可接受的范围内,表明数据与模型拟合较好。但M15参数值为1.33 (>1.2),超过阈值,说明该题与模型的拟合度较差。因此,需要对M15题的试题内容进行分析,了解该题与模型拟合度较差的原因。M15题如图3所示,这道题不仅考查控制变量法和植物激素知识点,还考查学生对探究实验的理解和数据分析能力,研究者探究了不同浓度和作用时间下6-BA对拟南芥种子萌发和幼苗生长的影响,要求学生分析表格数据,选出正确选项,选项涉及实验自变量、细胞分裂素的合成部位、6-BA与赤霉素的功能比较,以及特定浓度6-BA的作用效果。
Figure 3. Item 15
图3. 第15题
经分析,该题不符合模型预期表现的原因是题目提供的数据表信息量大,学生在解答此题时,需要在短时间内分析多个指标、区分自变量和因变量以及它们之间的关系,还需要运用细胞分裂素、赤霉素等相关储备知识进行迁移。此外,题目要求学生具备较强的探究实验理解和数据分析能力。然而,部分学生难以区分探究实验中的自变量和因变量,从而影响他们对每个选项正误的准确判断。对此,需将复杂的数据表简化,突出关键信息,减少学生的信息处理负担,还可以设计一些具体的情景或案例,让学生在实际问题中应用所学知识,这有助于提高题目的区分度和拟合度。据数据显示,Outfit MNSQ的取值范围在[0.00, 1.91]之间,其中O03、O07、O09、M14、M15、M16和S1703参数值分别为0.07、0.07、0.00、0.05、1.91、1.53、1.39和1.27,均偏离了正常范围。除M15题外其它六道题的Infit MNSQ的取值范围在[0.80, 1.20]范围内,综合两个拟合参数,可以认为O03、O07、O09、M14、M16和S1703六个题目在可接受范围内,M15题确实受到其它因素干扰。此外,M13题出现天花板效应,无法进行参数估计。
4.4. 怀特图
怀特图(Wright map)是一种用于展示项目反应理论(Item Response Theory, IRT)中项目和受试者之间关系的图表。它通常用于心理测量学和教育测量学中,以分析测试题目和学生的能力。本次测试的题目难度与学生能力之间的关系,如图4所示。
Figure 4. Wright map
图4. 怀特图
在怀特图(图4)中,中间的竖线是Logit刻度尺,横轴和纵轴表示题目的难度和考生的能力。#表示题目的难度等级,每个#代表一个单位的难度增加。S+和S表示受试者的能力等级,S+表示高于平均水平的能力,S表示平均或以下的能力。M表示中等难度的题目,T表示测试题目。题目和学生之间的距离表示它们在特征值上的接近程度。例如,一个S+学生和一个M难度的题目之间的距离较小,表示这个学生可能能够正确回答这个题目。
从Logit标尺左侧可以看出,被试学生的能力水平处于[−0.2, 1.2]之间,能力分布范围为1.4Logit,平均值为0.511Logit。但在Logit值大于1.3时,没有与学生能力水平相适应的题目,表明该试题缺少难度大的题目。与之相对应,题目难度平均值被设定为0,二者之差为0.511Logit,说明该试题对于被试来说整体难度偏低。
Logit标尺右侧为题目,从分布位置上看,题目S2102难度最大,该题属于认知层次中的理解维度,考察学生的科学探究素养和理性思维素养,其难度为1.352Logit。M14难度最小,因为该题属于基础知识,考察学生学科核心素养中的生命观念,其难度为−1.888Logit,题目难度的分布范围为3.24Logit。
学生能力均值较试题难度均值高0.511Logit,由此可以看出学生的能力水平相对高于测验项目的难度水平。这说明项目难度设计与学生的实际水平不匹配,项目难度偏低。而第6、8、14题过于简单,因为这三道题目均考察学生对基础知识概念的理解,第6题考察学生的社会责任素养、第8题和第14题考察学生的生命观念素养。所以,学生对于这种题型容易答对。由此可知,本次考试,存在一定数量的简单题。与简单题目较多的情况相对应,测验中的难题较少,尤其是在Logit值超过1.3时,没有相应的难题与学生能力匹配。总体看,试题中简单题目较多,试题难度差异较大,中等难度试题较为集中,不利于区分对不同能力水平的学生。
4.5. 气泡图
气泡图用于展示不同题目(Items)在两个维度上的分布情况。本次数据生成的气泡图如图5所示。
Figure 5. Bubble diagram
图5. 气泡图
在图5中,横轴表示“Overfit”和“Underfit”之间的差异,纵轴表示“Less”和“More”之间的差异。每个气泡代表一个题目,气泡的大小代表Rasch模型标准误,气泡越小说明误差越小,测量结果越精确;气泡左右位置代表项目拟合度,靠左表示过渡拟合、靠右代表不拟合,气泡越靠近气泡图的中轴线则说明题目与模型拟合得越好[8];气泡越靠近上方,说明题目的难度越大[9]。
该气泡图展示了不同题目在“Overfit”和“Underfit”以及“Less”和“More”两个维度上的分布情况。大多数题目集中在左下角,落在了可接受区间[−2, 2]内,表示它们在这两个维度上都有较低的值,O02、S1903为过拟合,代表这些项目与模型拟合度高。而一个较大的气泡位于右下角,表示该题在这两个维度上都有较高的值;M15、M16不在可接受区间内,再欠拟合(underfit)区间内,表明有能力高的做错而能力低的做对此题的情况[10];因此,也需要对M16的试题内容进行分析,了解能力高的做错而能力低的做对此题的原因,以修正题目。M16题如图6所示,主要考查学生对酵母人工染色体(YAC)构建及相关生物技术的理解和应用能力,该题涉及基因工程、细胞工程和胚胎工程等多个知识点。题目给出了利用整合有人源抗体IgM基因的YAC培育能分泌人源抗体的小鼠的三个技术路线图,要求学生判断哪个叙述是错误的。
Figure 6. Item 16
图6. 第16题
经分析,该题不符合模型预期表现的原因有以下几点:一是知识点综合性强,题目涉及YAC的构建、基因工程、细胞工程和胚胎工程等多个知识点,学生需要理解并综合运用这些知识才能准确解答;二是学生认知水平与题目要求的匹配度欠佳,题目要求学生具备较高的综合分析和应用能力,对于能力高的学生来说,可能超出了他们的认知水平,导致他们选错。因此,可将题目拆分为更基础的知识点,降低综合难度,或者在题目中增加生活化情境,帮助学生更好地理解题目要求,如在题目后补充:人源抗体IgM基因的YAC载体就像一个“基因运输车”,它能将人类抗体IgM基因安全地运送到小鼠细胞中,并确保这些基因能够在小鼠体内正确表达。
M14、O08和O06气泡较大,表明其难度估计的误差较大,其对应测量结果的精准性较小。S2102和S2004气泡位置在顶端,说明这两道题难度最大。综合Rasch模型分析的数据来看,第14题考查的内容是生命观念,该题主要考查基因、DNA和性状的关系,要求学生识记基因对性状控制的方式。学生识记该知识点后,便能轻松选出答案。该题难度为−1.888,难度最低,其内部拟合值M为1.06,外部拟合值M为1.91,可以看出,该题目外部拟合值M值较高并超出了理想范围。在Rasch模型中,M值用来评估项目难度水平。当外部拟合M值过高时,表示该题目的难度被高估。综上,第14题的难度过低,且主要考查学生对知识点的识记,并没有设计相应情景来引导学生思考。
第S2102题以科学探究题目的形式综合考查学生对知识的理解及灵活应用知识的能力,以分离能有效分解纤维素的菌株为背景,考查微生物的分离和培养,要求学生识记纤维素酶的概念、灭菌和消毒的区别等知识,所以难度较大。该题目难度为1.352,是试卷所有题目中难度最高的题目,对于难度较大的题目可能会影响学生能力区分度,因为题目难度大时,学生之间的得分差异较小,从而难以区分学生个体之间的能力水平。
5. 结论与建议
5.1. 测试评价
经检验得出,该生物试题大部分题目符合单维性要求,能够较好地反映出学生的生物学科能力,但有4道题目的单维性检验结果较差:S2001、S2002、S2003、M14,说明学生在作答这4道题目时,受到了除生物能力之外的潜在特质的影响。此外,该试题具有良好的信度和区分度,能够准确测量并区分学生的能力水平。然而,整体试题难度偏低,缺乏高难度题目,尤其是在Logit值超过1.3时,缺乏与学生能力水平相匹配的题目,因此需要对试题难度进行调整,并增加一些高难度的题目。最后,部分题目需要进行优化,如M13题出现了天花板效应,导致无法进行参数估计。
5.2. 相关建议
1) 试题分析需将所得数据与试题内容相结合
在使用Rasch模型分析高中生物试题时,应将数据与试题内容紧密关联,以便更准确地了解数据所揭示的问题根源。例如,对于单维性检验结果较差的题目,应深入分析其知识点覆盖范围和题目表述,看是否涉及多个知识点的考查或题目表述不清,导致学生理解困难。如图7第20题的第(3)小题,题目分为两小问且表述较为复杂。
Figure 7. Item 20
图7. 第20题
第一小问要求写出实验一的F1雌果蝇的基因型,学生需根据实验一的杂交组合和结果,结合体色与眼色基因的独立遗传及致死现象,推断出F1雌果蝇的基因型。第二小问要求计算将实验一中的F1雌果蝇与实验二中的F1雄果蝇随机交配后,子代雄果蝇的表型及比例,这需要学生对两对基因的组合情况、交配过程以及致死基因型的影响进行综合分析,对学生的逻辑思维和计算能力要求较高。
因此,可将题目拆分为两个独立的小问题,引导学生分步骤思考,降低理解难度。基于Rasch模型的试卷分析结果不是独立于应用存在的,其结论应结合评价的目的、命题设计等要素进行综合考量。在实际应用工作中,需要警惕仅关注拟合指标的唯参数论。
2) 合理设置题目难度系数,提高试卷结构的科学性和区分度
新一轮的课标修订中指出要科学合理地设置测评试卷的难度系数,防止偏题、难题、怪题的出现,试卷题目难度系数比例要合理,试卷总体结构要规范、要科学并且能够通过测评试卷有效区分学生能力水平。题目难度过低,可能无法有效区分不同能力水平的学生,以至于高分学生和低分学生之间的差距不明显,从而影响考试的公平性和选拔功能;题目难度过高,可能会导致大多数学生都无法正确回答,从而无法区分考生之间的能力差异,也难以准确评估学生在特定领域的知识水平。因此,设计测试题目时,需要确保题目难度适中,既能考察考生的基本能力,又能区分不同水平的考生,以实现测试的目的和功能。具体操作上,可将试卷结构分为基础题(占40%~50%)、中等难度题(占40%~50%)和高难度题(占10%~20%),分别对应考查核心概念、知识理解和综合应用能力。例如,在生物试卷中,基础题可考查细胞结构等基本概念,中等难度题要求学生分析实验数据得出结论,高难度题则要求学生结合复杂生态情境,综合运用知识解决问题,以实现测试的选拔与区分功能。
3) 创新试题形式,加强生活化情境设计
测评试题的设计应融入生活化情境测评,形成具有生活化的试题情境,如加强试题情境与学生生活、社会实践的联系,注重考查学生在具体情境中综合运用所学知识分析问题和解决问题的能力。创设试题情境不仅能提升学生的作答兴趣,还能简单明了地向学生传达题目的意思,防止学生因误解题目而影响作答效果。此外,生活化情境试题还能够使学生“身临其境”地理解问题、思考问题并作答。在设计试题时,应注重将学科知识与学生熟悉的生活场景相结合,使试题更具情境性,从而提高学生的理解能力。例如,图8第19题仅呈现了某农业生态示意图,要求学生看图理清流程并完成相应题目,题目缺乏情境性。
Figure 8. Item 19
图8. 第19题
该题可采用图文结合的形式呈现,在图的上方增加与题目相关的生活化情境信息,以帮助学生理解农业生态示意图。生活化情境设计:将农业生态园比作一个自给自足的“生态小镇”。作物是小镇的主要生产者,为居民(其他生物)提供食物和能量;塘泥、粪等废弃物通过土壤微生物的处理,就像小镇中的垃圾处理厂,将垃圾转化为有用的肥料,为作物的生长提供营养;整个生态园的合理布局和稳健运行,体现了生态工程的系统性,就像小镇的规划和管理,需要遵循生态平衡和可持续发展的原则。这种情境设计有助于学生理解生态系统的组成和生态工程的应用。