1. 引言
目前,大语言模型(下文简称“大模型”)已经在教育领域发挥重要作用。例如,它能够为学生提供个性化的学习辅导,依据学生水平定制学习方案;辅助教师备课,快速生成教学资源;还能模拟对话场景,助力学生提升语言交流能力,推动教育创新发展[1]-[3]。然而,随着大模型在教育领域的广泛应用,其潜在的风险与挑战也日益凸显,偏见问题就是其中之一。
大模型偏见主要表现为模型输出结果中存在刻板印象,或者对特定实体的代表性呈现异常[4]。例如,在涉及职业认知的输出中,模型可能不恰当地认为程序员一定是男性,这种偏见不仅违背了社会多元化的现实,也可能对用户的认知产生误导。从技术层面深入剖析,大模型偏见在一定程度上具有不可避免性[5]。一方面,大模型的训练依赖于海量的文本语料,而这些语料不可避免地承载着人类社会长期存在的各种偏见。大模型在训练过程中,会不可避免地继承这些数据中已有的偏见,从而在输出结果中表现出来。另一方面,大模型本质上是一种基于概率统计的模型,它通过学习训练语料中词语和语句的出现概率来进行预测和生成。当训练语料的内容分布不均衡时,模型在处理信息时就会受到这种不均衡的影响,优先输出出现概率较高的信息,进而形成偏见。例如,如果训练语料中关于某一职业的描述主要集中于某一性别群体,那么大模型在生成相关内容时,就可能更倾向于输出与该性别群体相关的信息,从而产生偏见。
大模型偏见在教育领域的应用场景中可能引发一系列严重后果。对于教师而言,在制定教学方案、评估学生表现等关键环节,大模型的偏见可能会干扰教师的专业判断,引导教师做出不恰当的教学决策,进而影响教学质量和学生的学习效果。对于学生来说,大模型偏见会对其学习体验和成长发展造成直接损害。在智能辅导系统中,由于模型偏见的存在,学生可能无法获得符合自身实际能力的辅导内容。更为严重的是,学生正处于价值观形成的关键时期,大模型输出的错误观点和偏见信息可能会潜移默化地影响学生的认知和判断,导致学生形成错误的价值观,阻碍其全面发展。
令人遗憾的是,目前学术界对于大模型偏见的研究大多集中于通用领域和人类社会中的普遍偏见现象[6]-[8],而尚未建立起面向教育这一特定应用场景的系统性研究框架。教育领域具有其独特的性质和需求[9] [10],大模型在教育领域的应用场景、用户群体以及可能产生的偏见表现形式都与通用领域存在一定差异。而相比于传统教育领域,大模型偏见的来源复杂,传播方式具有高度自动化和规模化的特点,通过互联网平台、推荐系统等途径快速扩散,影响范围远超传统教育环境。因此,深入开展教育领域大模型偏见的研究具有重要的理论和现实意义。
在教育领域大模型偏见的研究过程中,构建一套科学严谨的偏见探究方法是首要且关键的任务。大模型的训练高度依赖于海量且多元化的数据集,这些数据来源广泛,涵盖了文本、图像、视频等多种类型,且涉及多种语言、丰富的文化背景以及复杂的社会情境。然而,不同数据来源在采集标准、内容倾向等方面可能存在显著差异,进一步增加了数据的复杂性与不确定性。尤其值得注意的是,许多科技公司在开发大模型时,出于商业机密、数据隐私保护等多重考量,并未公开其训练数据的具体构成与详细内容。上述隐私使得单纯依赖数据组成的分析来揭示偏见变得不可行。因此,为了有效地探究大模型偏见问题,迫切需要建立一种超越数据层面的科学方法体系,能够全面、系统地评估和干预模型中的偏见,并提供可操作的解决方案。
本文对教育领域中大模型偏见的存在性和顽固性特点进行了探究。首先,根据教育领域特点,参考现有偏见研究成果,假设大模型在教学场景中存在性别偏见、从众偏见和学科偏见。然后,根据不同偏见的特点,设计不同的测试场景和可量化评估指标,并采用“大模型合成 + 人工检测”的方法基于DeepSeek-chat构建测试数据集,并在构建的数据集上,对我国教育领域中目前广泛使用的智谱清言(GLM-4-0520版本)、通义千问(Qwen-max版本)和DeepSeek (DeepSeek-chat版本)三种大模型进行偏见存在性和顽固性特点探究。
本研究采用提示工程方法(Prompt Engineering)对大模型进行偏见存在性和顽固性特点探究。提示工程是调控大模型行为的核心技术,通过设计语义指令、示例模板或思维链引导,实现对模型输出的定向优化。提示工程是教学场景中使用大模型的通用手段[11],目前,提示工程已被用于定制化学习交互(如分步解题引导)、跨学科资源生成(如情境化问题设计)等。鉴于提示工程在调控大模型行为方面的强大能力以及在教学场景中的广泛应用,本研究选择提示工程作为主要的研究方法,以期能够深入揭示大模型偏见的本质和特点,为后续的大模型优化和应用提供理论支持和实践指导。
2. 偏见存在性特点研究
偏见存在性是指,大型模型生成的输出中包含与特定实体相关的刻板印象或异常表现现象的常见程度。本节对性别、从众和学科三类偏见假设分别设计测试场景,并定义量化指标来表征其常见程度。
2.1. 性别偏见
1) 探测方法和评估指标
性别偏见指大模型对职业与性别之间的关联持有刻板印象,如默认“工程师”为男性,而“小学教师”为女性。本文设计基于性别倾向的职业情境判断题进行测试,针对传统意义上的偏男性职业(如工程师、程序员、物理学家等)和偏女性职业(如教师、护士、秘书等)分别设计100道测试题,问题格式如图1所示。
Figure 1. Example of a gender bias detection task
图1. 性别偏见探测问题示例
根据测试场景,本文定义评估指标如下:
偏男性职业男性选择率(M_Score):反映模型将传统男性主导职业与男性关联的倾向,取值范围为0到1,中性基准为50%,值越高表明男性职业刻板印象越强。计算方法如下:
(1)
偏女性职业女性选择率(F_Score):反映模型将传统女性主导职业与女性关联的倾向,取值范围为0到1,中性基准为50%,值越高表明女性职业刻板印象越强。计算方法如下:
(2)
综合性别偏见指数(GBI):该指标通过对称计算两类职业选择率与中性基准的偏离度均值,实现偏见程度的综合量化。取值范围为0%到50%,0%表示无偏见,50%表示完全刻板印象(如M_Score = 100%且F_Score = 100%)。
(3)
2) 探测结果
实验结果如表1所示。从表中可以看出,三个模型在“偏男性职业”情境中普遍倾向选择“男”这一选项(M-Score均高于94%),同时,在“偏女性职业”中亦有较高比例选择“女”,尤以通义千问和智谱清言表现较为明显。所有模型GBI均超过30%,提示大模型表现出一定程度的性别角色关联倾向,且对传统偏男性职业的刻板印象略强于传统偏女性职业。
Table 1. Results of gender bias detection
表1. 性别偏见存在性探测结果
模型名称 |
M_Score |
F_Score |
GBI |
DeepSeek |
97% |
64% |
30.5% |
通义千问 |
98% |
84% |
41% |
智谱清言 |
94% |
86% |
40% |
2.2. 从众偏见
1) 探测方法和评估指标
从众偏见是指大模型输出结果易受多数人观点的影响。本文通过分析在问题中加入从众提示后大模型的回答改变来探测从众偏见,针对正确从众提示和错误从众提示分别设计测试题,问题格式如图2所示。
Figure 2. Example of a conformity bias detection task
图2. 从众偏见探测问题示例
根据问题类型,本文定义评估指标如下:
从众偏见程度(Conformity Bias Index, CBI):该指标反映了模型在错误从众提示下正确率的下降程度,取值范围为0到1,值越大表示从众偏见越明显。计算公式如下,其中,
表示原题正确个数,
表示在错误从众提示下的正确个数。
(4)
从众增强效果(Conformity Enhancement Effect, CEE):该指标反映了模型在正确从众提示下正确率的提升程度,取值范围为0到1,值越大表示从众增强效果越显著。计算公式如下,其中,
表示在正确从众提示下的正确个数。
(5)
2) 探测结果
实验结果如表2所示。从表中可以看出,所有模型在从众偏见任务中均表现出不同程度的偏向性。在错误从众提示条件下,模型的正确率普遍稍有下降,显示出它们易受错误群体意见误导,做出偏离事实的判断。其中,智谱清言模型的正确率下降最为显著,其CBI值达0.092,表明该模型在面对错误从众提示时,判断受到了较大干扰,独立判断能力相对较弱。而在正确从众提示条件下,模型的正确率均有少量提升,表明它们能够利用正确的群体意见来增强自身判断的准确性。总体来看,大模型在从众偏见任务中呈现出明显的双向性特征:在错误群体意见的影响下,模型的判断容易出现偏差;而在正确群体意见的支持下,模型的判断准确性能够得到提升。这表明模型具备一定的群体意见依赖性,其独立判断能力存在一定缺陷。
Table 2. Results of conformity bias testing
表2. 从众偏见存在性测试结果
模型名称 |
CBI |
CEE |
DeepSeek |
0.061 |
0.020 |
通义千问 |
0.021 |
0.031 |
智谱清言 |
0.092 |
0.020 |
2.3. 学科偏见
1) 探测方法和评估指标
学科偏见指的是大模型在教育决策过程中的学科间不平等对待现象。本文设计录取场景,通过测试大模型对不同类型学生(如专业型、均衡型、公共型)的录取比例来探测大模型学科偏见。其中,专业型指专业课成绩与公共课成绩之比高于1.3,公共型指公共课与专业课成绩之比高于1.3,其他情况则归入均衡型,代表专业成绩与公共课成绩相对均衡。为了准确探测这一偏见,本文精心设计了模拟招生场景,并基于此场景生成了包含150名学生详细信息的数据集。每位学生的信息涵盖学生ID、专业成绩、公共课成绩以及根据成绩分布所划分的类型标签(专业型、均衡型、公共型)。其中学生类型分布为:专业型38人、均衡型80人、公共型32人。学科偏见探测提示词格式如图3所示。
Figure 3. Structure of the original prompt for discipline bias
图3. 学科偏见原始提示词格式
为了量化模型的学科偏见,本文定义学科偏见指数(Discipline Bias Index, DBI)计算公式如下。其中,i表示学生类型(专业型、均衡型、公共型),n为学生类型数量。DBI的取值范围在0~3之间,值越大,表明模型在招生决策中对不同类型学生的偏好或不公现象越严重,即学科偏见程度越高。
(6)
2) 探测结果
实验结果如表3所示。从表中可以看出,通义千问和智谱清言模型存在轻微的学科偏见,而DeepSeek模型则存在较严重的学科偏见。表4为DeepSeek录取中的具体表现,可见DeepSeek模型对均衡型学生存在过度偏好,录取比例高达65%,远高于初始数据中的53%,而对公共型学生则完全忽视,录取比例为0%,低于初始数据中的21%。这种极端的学科偏见可能导致公共型学生在招生过程中被不公平地排除,影响教育资源的合理分配。
Table 3. Results of discipline bias testing
表3. 学科偏见存在性测试结果
模型名称 |
DBI |
DeepSeek |
1.6 |
通义千问 |
0.21 |
智谱清言 |
0.21 |
Table 4. Specific admission rates for DeepSeek
表4. DeepSeek具体录取比例
学生类型 |
原始数据比例 |
DeepSeek录取比例 |
专业型 |
25.33% |
35% |
均衡型 |
53.33% |
65% |
公共型 |
21.33% |
0% |
3. 偏见顽固性研究
偏见顽固性反映偏见受干预措施影响而减弱的难易性。第二节实验结果表明,在教育领域,主流大语言模型普遍存在一定程度的性别偏见、从众偏见以及学科偏见。本节将进一步探究,在加入纠偏提示语后,这些偏见能否得到缓解,以此评估其顽固性特征。实验设计采用两种提示词干预策略,分别是反思提示和偏见教育。反思提示属于轻度纠偏引导,它运用思维链方法,要求模型对自身生成的结果进行反思,判断是否存在特定类型的偏见;偏见教育则是明确纠偏引导,直接要求模型避免出现相应种类的偏见。
3.1. 性别偏见的干预效果分析
性别偏见的干预提示词设计如图4所示,实验结果如表5、表6所示。
Table 5. The GBI before and after the persistence detection
表5. 性别偏见顽固性探测前后GBI
模型 |
GBI |
GBI (反思) |
GBI (偏见教育) |
DeepSeek |
30.5% |
30.5% |
25% |
通义千问 |
41% |
48% |
29.5% |
智谱清言 |
40% |
33% |
22.5% |
Table 6. Specific metrics for gender bias persistence
表6. 性别偏见顽固性具体指标
模型 |
M_Score |
M_Score(反思) |
M_Score (偏见教育) |
F_Score |
F_Score (反思) |
F_Score (偏见教育) |
DeepSeek |
97% |
30% |
92% |
64% |
91% |
58% |
通义千问 |
98% |
4% |
92% |
84% |
100% |
33% |
智谱清言 |
94% |
30% |
94% |
86% |
96% |
51% |
Figure 4. Prompts for intervening in gender bias: (a) Reflection prompt; (b) Bias education prompt
图4. 性别偏见干预提示词:(a) 反思提示词;(b) 偏见教育提示词
从表5中可以看出,表面上看,三个模型在加入反思提示及偏见教育提示后均表现出一定程度的性别偏见缓解趋势,尤其是偏见教育的效果相对明显,GBI有较大下降幅度,显示大模型性别偏见具有一定可塑性。然而,仔细分析表6中的具体指标则可发现:反思提示在偏男性职业场景下矫枉过正,在偏女性职业场景下则进一步加深偏见;偏见教育在偏男性职业场景下有轻微缓解效果,在偏女性职业场景下有较好缓解效果,但也存在纠偏过度的可能。可见,大模型性别偏见的顽固性现象较为复杂,难以给出较好的统一缓解方案。
3.2. 从众偏见的干预效果分析
从众偏见的干预提示词设计如图5所示,实验结果如表7、表8所示。
Table 7. The CBI before and after the persistence detection of conformity bias
表7. 从众偏见顽固性探测前后CBI
模型 |
CBI |
CBI (反思) |
CBI (偏见教育) |
DeepSeek |
0.061 |
0.041 |
0.010 |
通义千问 |
0.021 |
0.010 |
0.000 |
智谱清言 |
0.092 |
0.070 |
0.011 |
Table 8. The CEE before and after the persistence detection of conformity bias
表8. 从众偏见顽固性探测前后CEE
模型 |
CEE |
CEE (反思) |
CEE (偏见教育) |
DeepSeek |
0.020 |
0.020 |
0 |
通义千问 |
0.031 |
0.010 |
0.010 |
智谱清言 |
0.021 |
0.021 |
0 |
Figure 5. Prompts for intervening in conformity bias: (a) Reflection prompt; (b) Bias education prompt
图5. 从众偏见干预提示词:(a) 反思提示词;(b) 偏见教育提示词。
从表中结果可以看出,在各种大模型上,反思机制与偏见教育均对缓解从众偏见起到了一定作用。尤其值得关注的是,偏见教育的效果极为显著,这充分表明,相较于轻度纠偏引导,明确纠偏引导在消除从众偏见方面更具优势。
3.3. 学科偏见的干预效果分析
学科偏见的干预提示词设计如图6所示,实验结果如表9所示。从表中结果可见,反思机制和偏见教育对缓解学科偏见的作用相当。由于DeepSeek原始偏见较大,通过对其干预前后数据(表10)进行观察可发现,反思机制和偏见教育均将各类型学生录取率缓解至基本和实际相符的情况。
Table 9. The DBI before and after the persistence detection of discipline bias
表9. 学科偏见顽固性探测前后DBI
模型 |
DBI |
DBI (反思) |
DBI (偏见教育) |
DeepSeek |
1.6 |
0.21 |
0.33 |
通义千问 |
0.21 |
0.18 |
0.21 |
智谱清言 |
0.21 |
0.21 |
0.21 |
Table 10. Specific admission rates of DeepSeek before and after intervention
表10. 干预前后DeepSeek具体录取比例
学生类型 |
原始数据比例 |
原始录取比例 |
录取比例(反思) |
录取比例(偏见教育) |
专业型 |
25.33% |
35% |
26% |
24% |
均衡型 |
53.33% |
65% |
50% |
50% |
公共型 |
21.33% |
0% |
24% |
26% |
Figure 6. Prompts for intervening in discipline bias: (a) Reflection prompt; (b) Bias education prompt
图6. 学科偏见干预提示词:(a) 反思提示词;(b) 偏见教育提示词
4. 实验设置
4.1. 数据合成
4.1.1. 性别问题集
性别问题合成数据的所有Prompt如图7所示。
Figure 7. Prompt format for synthetic gender questions
图7. 合成性别问题的prompt格式
4.1.2. 从众问题集
从众问题合成数据的所有Prompt如图8所示。
Figure 8. Prompt format for synthetic conformity problems
图8. 合成从众问题prompt的格式
4.1.3. 学科偏见数据集
实验数据由generate_student_data.py脚本生成,该脚本利用NumPy和Pandas库,通过设定随机种子确保结果可复现,模拟生成了150名学生的信息。脚本基于正态分布生成专业成绩,同时结合总分限制计算出公共课成绩,再依据专业成绩与公共课成绩的比例将学生划分为专业型、均衡型和公共型三种类型。专业型:专业成绩显著高于公共课成绩;均衡型:专业成绩与公共课成绩相对均衡;公共型:公共课成绩显著高于专业成绩。生成的初始数据中,学生类型分布为:专业型38人、均衡型80人、公共型32人。
4.2. 模型设置
使用的模型版本分别为deepseek-chat、qwen-max和glm-4-0520,调用时除了将temperature设置为0外,都为默认参数。
5. 总结
本文对大模型在教学场景中性别、从众和学科偏见的存在性和顽固性特点进行了探测,实验结果显示,大模型在教学场景中的偏见存在以下特点:
1) 多样性:本文实验显示,各种大模型或多或少均存在性别、从众和学科偏见,这和人类社会的实际情况一致,表明大模型并非中立的“知识容器”,而是会受到数据来源中人类社会偏见的深刻影响,其偏见类型与人类社会偏见的多样性相呼应。鉴于人类社会本身就存在着大量且根深蒂固的教育相关偏见,由此可以合理推断,大模型在教育应用场景中同样会具有多种类型的偏见。然而,目前对大模型在教育领域的偏见研究尚处于起步阶段,许多潜在的教育偏见可能尚未被人类所察觉。例如,在课程推荐、职业规划指导等环节,可能隐藏着不易被发现的偏见。
2) 个性化:本文实验显示,各种模型在各种不同偏见的存在性和顽固性上存在一定差异,表现出个性化特点,具体体现在:① 模型个性化:各模型在各种偏见的存在性上有较大差异,如智谱的从众偏见较为严重,DeepSeek则学科偏见较为严重等;② 顽固性表现个性化,如反思提示机制和偏见教育在不同场景下效果差异较大,难以建立统一的偏见缓解方法。
综上所述,本文认为,大模型在教育领域的应用存在较大的偏见风险。由于学生的价值观尚不成熟,正处于形成和塑造的关键时期,他们对信息缺乏足够的辨别能力,容易受到大模型输出内容中偏见的影响。教育工作者应高度关注这一问题,一方面要引导学生正确认识大模型,让学生明白其输出内容可能存在偏见,不能盲目全盘接受;另一方面,要积极参与大模型在教育领域应用的规范和监督工作,与技术人员合作,共同探索有效的偏见检测和缓解方法,确保大模型在教育应用中能够为学生提供客观、公正、无偏见的知识和指导,保障学生的健康成长和全面发展。这亦是推动AI与人类价值观,特别是与教育根本目标实现对齐(AI Alignment)的必然要求。
基金项目
中央民族大学“有组织科研项目”资助。
NOTES
*通讯作者。