1. 引言
人工智能(AI)与语言教育的深度融合为英语写作教学提供新的可能,自动反馈系统(如Pigai)及生成式人工智能工具(如ChatGPT、DeepSeek)能够提供即时反馈与语言优化支持,为学习者的写作发展创造了新的契机。然而,其广泛使用也暴露出学习者在批判性思维、独立写作与伦理规范方面的不足,过度依赖现象尤为突出。尽管近年来有关AI教育应用的研究逐渐增多,但针对学习者在真实写作情境中如何建构并运用人工智能素养(AI literacy)的系统性实证探讨仍显薄弱,亟需进一步研究。
2. 研究现状
2.1. 人工智能素养研究
人工智能素养(AI Literacy)的研究已围绕“概念界定–维度划分–量表开发”形成系统脉络,为教育领域的AI素养培养提供了理论参考。
在概念界定上,AI的核心概念最早由McCarthy [1]定义为“制造智能机器的科学与工程”,而“人工智能素养”概念则由Martin Kandlhofer于2016年首次提出,目前其普遍被视为数字素养的延伸或深化,成为信息社会个体发展的必备能力[2]。然而,“人工智能素养”与“数字素养”的边界界定仍模糊,给人才培养指标设定与教育政策制定带来挑战[3]。UNESCO (2024)发布的《学生人工智能能力框架》虽首次系统界定其教育内涵,提出“理解、应用与创造”的发展路径及四大核心维度[4],但学界对其定义仍存在“综合能力路径”与“技术素养演进路径”的分歧[5]:前者如Long和Magerko [6]将其定义为“个体批判性评估AI、人机协作及多场景使用AI的能力集合”,后者如Kandlhofer等[7]强调“理解AI技术原理而非单纯操作技巧”。两类路径虽均突破技术工具化认知,但尚未形成统一定义框架,且未针对EFL写作这类语言学习场景形成专项界定,难以直接指导语言教学实践。
在维度划分上,知识技能导向模型[8] [9]聚焦AI知识掌握与工具操作,虽为测评提供了明确指标,但忽视了AI应用的社会伦理风险;综合能力导向模型[6] [10]融入批判性思维、价值观等软性能力,实现了技术与人文的融合,却未明确各维度间的逻辑关联与权重分配;文化伦理导向模型[11] [12]虽回应了AI应用的伦理挑战,却未覆盖EFL写作所需的“跨文化语用”、“学术诚信”等专项维度,与语言教学场景的适配性不足。
在量表开发上,国际研究以通用性为目标,如Long与Magerko [6]的16项能力维度量表、Ng等[13]基于布鲁姆分类法的四维模型,虽结构完整但多聚焦K-12阶段,高校领域缺乏“量表–行为”双证据的实证支持;国内研究虽侧重本土化适配,如王奕俊等[9]针对高校设计的多维度框架、苏文成等[14]面向高校学生的细分量表和余维杰等[15]对中外人工智能素养框架的研究,但未纳入AI写作场景特有的“Prompt调优”、“原创性声明”等可操作指标,难以满足EFL写作教学的测评需求。
2.2. AI辅助EFL写作研究
AI辅助EFL写作的研究随生成式AI技术的发展逐步深化,主要围绕“应用模式创新”与“应用成效评估”展开,证实了技术的教学辅助价值,但在细分场景覆盖与长期效应探索上仍有明显缺口。
在应用模式创新上,国际研究侧重理论框架构建与过程量化分析:Fauziah与Minarti [16]将AI定位为“智能支架”,强调其对语言质量的辅助作用;Dai [17]提出“AI + Human Co-evolution”模型,将写作视为人机协同建构认知的动态过程;Shen [18]通过技术手段量化“高频调用–中间评估–局部采纳”的交互特征,虽技术深度突出,但对EFL教学场景的落地性考虑不足。国内研究更关注教学实践融合,如刘应亮等[19]的“中介技术 + 教学场景”模型、汪靖等[20]的“人机共生写作机制”、朱小超等[21]的“五阶段教学框架”,形成了“过程嵌入型”、“交互追踪型”、“认知功能型”三类可操作模式,但针对学术写作、应用文写作等EFL细分场景的专项设计仍空白,难以适配多样化的语言教学需求。
在应用成效评估上,现有研究从多维度揭示了AI辅助的复杂性:Caner-Yildirim [22]基于技术接受模型指出,学生使用意愿受“享乐动机、道德考量”影响;Zhan等[23]证实“反馈素养”是AI成效发挥的关键;Mahapatra [24]、魏爽等[25]实证AI可提升写作准确性与结构清晰度;Lee [26]提出“AI + 教师 + 学生”三方协同框架,回应“AI替代教师”的争议;刘梦君等[27]发现“差异化效应”,即不同基础学生受益维度不同;秦丽莉等[28]、王亚冰等[29]则指出AI存在“促进认知投入但引发情感张力”的问题。但现有研究多聚焦短期写作成绩,缺乏对学生批判性思维、原创表达等长期素养的追踪,且对EFL学习者核心痛点——跨文化语用准确性、学术引用规范的关注不足,难以全面支撑AI与语言教学的深度融合。
综上,人工智能素养研究虽形成多元理论基础,但缺乏EFL写作场景适配的定义、维度与量表;AI辅助EFL写作研究虽证实技术价值,但细分场景覆盖不全、长期效应探索不足。两类研究衔接薄弱,亟需构建适配EFL写作的AI素养框架,为后续实证研究提供方向。
3. 研究问题
本研究以大学英语学习者为对象,聚焦AI辅助写作这一具体教学情境,旨在从测量构建、行为分析与反思理解三个维度,系统探究EFL学习者在英语写作任务中的AI素养表现,进而提出可操作的教学干预与能力提升策略。
为实现上述目标,研究设计了三个相互关联的核心研究问题:
RQ1:如何构建并验证适用于大学英语写作背景的学习者AI素养量表?
RQ2:大学英语学习者在真实写作任务中如何使用AI工具?其行为表现反映出哪些AI素养特征?
RQ3:大学英语学习者如何反思自己在写作过程中对AI工具的使用?这些反思如何体现其AI素养的认知与情感特征?
4. 研究过程
4.1. 研究设计
研究以“AI辅助 + 任务驱动 + 反思实践”的高校英语写作课程为情境,该课程涵盖写作前AI构思、写作中实时辅助、写作后反馈整合的全流程任务,教师通过专题指导帮助学生掌握DeepSeek、豆包、Grammarly等工具的提纲生成、语法校正、逻辑优化等功能,并要求学生记录反思日志。研究分为两个阶段:第一阶段通过黑龙江四所高校215名非英语专业本科英语学习者的问卷调查数据进行量表开发和验证;第二阶段对某理工类高校37名参与者进行为期12周的纵向追踪研究,结合写作表现、行为日志与反思文本综合分析。所有对象均签署知情同意书,数据经匿名化处理以符合伦理规范。
研究工具围绕“三角互证”原则开发三类:一是《大学生AI辅助英语写作素养量表》(SCALE-AIEW),经专家审阅、预测试(37人)与项目分析(删除8个低区分度条目),最终形成包含认知(AI理解与应用)、行为(工具操作与协作)、情感(动机与自我效能)、伦理(偏见识别与责任意识)四维度的36个Likert 5点计分条目;二是AI写作功能知识测试(10题开放式问卷),考查工具认知、使用能力与反馈处理策略;三是AI辅助写作反思日记,分写作前(工具准备与构思)、中(实时交互与修改)、后(反馈整合)及整体反思四部分(17题),追踪认知与态度变化。变量设定参考Bloom分类法、ABCE框架等如表1所示,将AI素养明确为情感、行为、认知、伦理四维度,其中行为素养为观测重点,伦理素养用于解释抄袭或盲目依赖现象。
Table 1. Variables of AI-assisted English writing literacy scale for college students
表1. 大学生人工智能辅助英语写作素养量表的变量
维度 |
条目 |
情感维度 |
A1~A9 |
行为维度 |
B1~B13 |
认知维度 |
C1~C8 |
伦理维度 |
E1~E6 |
研究实施分三阶段:量表开发阶段初拟55条目标题,经多轮优化确定36条目标题;正式施测阶段对215人施测量表,用SPSS 26.0检验信效度,如表2所示(各维度Cronbach’s α > 0.75, KMO > 0.6, Bartlett检验显著);质性追踪阶段37名学生完成多阶段写作任务,同步提交反思日记与作品。
Table 2. Summary of reliability and validity of formal research
表2. 正式研究的量表信效度总结
维度 |
条目 |
Cronbach’s α |
KMO |
Bartlett χ2 (df) |
提取因子数 |
情感维度 |
9 |
0.862 |
0.716 |
93.406 (36) |
3 |
行为维度 |
13 |
0.895 |
0.666 |
184.211 (78) |
3 |
认知维度 |
8 |
0.747 |
0.619 |
95.847 (28) |
3 |
伦理维度 |
6 |
0.734 |
0.685 |
31.795 (15) |
2 |
4.2. 数据收集与分析
在研究第一阶段通过“问卷星”收集量表与行为问卷,回收226份后剔除11份无效问卷(有效率95.13%),用SPSS 26.0进行描述性统计(正态性检验)、信度分析(Cronbach’s α)与探索性因子分析(验证结构效度);在研究第二阶段收集了37名学生12周的反思日记与写作作品,采用主题分析法处理:先开放编码提取关键行为与态度,再轴心编码聚合相似主题,最终归纳“AI内容筛选策略”、“伦理风险反思”等核心主题,并结合典型案例挖掘素养动态特征。
为提升结论可信度,进一步探究学习者在AI辅助写作中的行为表现与其AI素养水平之间的关系,研究通过“描述性对照–统计检验–案例叙事”实现数据三角互证,采用Spearman等级相关分析,将学生在写作过程中表现出的关键行为特征,包括“AI调用频率”与“反馈采纳深度”(均已通过对其实时报告、反思日志分析和作文评分编码量化方式)与其在量表中所得的四个素养维度(即情感、行为、认知与伦理素养)进行对应比较。
5. 研究结果与讨论
5.1. AI素养量表的开发与验证
结合EFL英语写作语境特征及Ng等[13]、UNESCO (2024) [4]等相关研究,本研究构建了包含认知素养、行为素养、情感素养与伦理素养的四维度AI素养模型。其中,认知素养聚焦对AI工具功能与局限的理解,行为素养关注AI使用策略与操作路径,情感素养侧重使用过程中的心理体验与动机,伦理素养强调道德边界与责任意识,四维度相互交织,共同构成适配EFL写作场景的综合素养体系。基于该模型设计的55条初始条目,经2位语言测试与教学专家的内容效度评审及37名理工类高校大一学生的预测试优化后,最终保留36条条目。预调研信效度分析显示,情感素养(α = 0.854)、行为素养(α = 0.895)信度良好,认知素养(α = 0.685)与伦理素养(α = 0.685)剔除问题条目后信度分别提升至0.747、0.734 (如表3所示);各维度探索性因子分析累计方差解释率均 ≥ 59.7%,结构效度达标。215份正式样本的分析进一步证实,量表四维度Cronbach’s α介于0.734~0.895,KMO值 ≥ 0.619,Bartlett球形检验均显著(p < 0.001),情感、行为、认知维度各提取3个因子,伦理维度提取2个因子,旋转后累计方差解释率 ≥ 65.33%,最大交叉载荷 ≤ 0.38,整体信效度良好,可作为EFL学习者AI素养的有效测量工具。
5.2. 写作行为视角下的AI素养表现
前期调查显示,89%的学生在写作前使用AI构思,偏好DeepSeek (90.63%)、豆包(87.5%)等国内工具;66.67%的学生采用“自写初稿 + AI修改”模式,仅16.67%依赖AI生成初稿,体现初步策略意识。结合反思日志与量表数据,可归纳出四类AI辅助写作行为模式如表3所示:深度整合型高频使用AI并全面采纳建议,判断优化型(占比70.59%)策略性调用且择优采纳,语言微调型聚焦语法、用词等表层修改,功能防御型低频使用且态度谨慎。
Table 3. Four typical behavioral patterns in the process of AI-assisted writing
表3. 人工智能辅助写作过程中的四种典型行为模式
模式名称 |
使用频率 |
AI信任度 |
修改规模 |
是否完全采纳 |
代表行为 |
深度整合型 |
高 |
高 |
全面(语言 + 内容) |
是 |
全流程接纳AI建议 |
判断优化型 |
中高 |
中 |
语言 + 结构 |
否(择优) |
局部比对后调整 |
语言微调型 |
中 |
中 |
语法/用词为主 |
否(细节为主) |
表层润色 |
功能防御型 |
低 |
低 |
偶发/局部 |
否(谨慎) |
被动调用 |
由表4可知,Spearman相关分析表明,AI调用频率、反馈采纳深度与四维度素养均呈极显著正相关(ρ ≥ 0.976, p < 0.01),四维度间亦高度相关(ρ ≥ 0.979, p < 0.01),证实AI使用行为与素养水平联动发展。此外,在初稿完成后,97.06%的学生借助AI修订初稿,但仅29.41%完全采纳建议,用词调整(87.88%)、语法修正(75.76%)是最主要的修改内容。
Table 4. Spearman rank correlation coefficient matrix: the relationship between AI usage behavior and AI literacy dimensions
表4. Spearman等级相关系数矩阵:AI使用行为与AI素养维度的关系
|
平均值 |
标准差 |
AI调用频率 |
反馈采纳深度 |
情感素养 |
行为素养 |
认知素养 |
伦理素养 |
AI调用频率 |
3.448 |
1.037 |
1 |
|
|
|
|
|
反馈采纳深度 |
3.213 |
0.956 |
0.991** |
1 |
|
|
|
|
情感素养 |
3.613 |
0.910 |
0.992** |
0.992** |
1 |
|
|
|
行为素养 |
3.513 |
1.013 |
0.999** |
0.991** |
0.990** |
1 |
|
|
认知素养 |
3.496 |
0.834 |
0.984** |
0.976** |
0.989** |
0.979** |
1 |
|
伦理素养 |
3.239 |
0.788 |
0.988** |
0.987** |
0.991** |
0.986** |
0.988** |
1 |
注:*p < 0.05;**p < 0.01。
5.3. 反思视角下的AI素养表现
从37名EFL学习者的反思日志来看,其对AI写作工具的态度呈现“信任–审慎–保留”的连续谱系特征,且情感接受与风险警觉并存。从整体态度分布来看,79.4%的学习者将AI视为“智能助手”,对工具在词汇拓展(如高级同义词替换)、语法纠错(如时态/语态错误修正)、句式多样化(如简单句转复合句)及思路激发(如生成写作框架)等方面的效率价值高度认可,日志中频繁出现“AI帮了大忙”、“快速指正复杂语法错误”、“灵感触发”等正面表述,体现对AI功能性的直接肯定。另有20.6%的学习者因两类问题表现出中立或谨慎态度:一是AI建议与个人写作风格不符(如过度书面化表达),二是过度依赖引发的思考惰性(如直接套用AI生成内容),这类学习者普遍强调“该用时用、不滥用”、“AI仅辅助,核心思路需自主打磨”,形成情感层面“接受–警觉”的双重心理防线。从认知反思深度来看,学习者对AI工具的优劣势认知呈现全面性与针对性。优势层面,学习者普遍认可AI在纠正时态错误、丰富句式结构、完善文章框架等基础功能上的高效性;局限层面,反思聚焦三大核心问题:32%的学习者指出AI处理专业/小众主题时内容准确性不足,24%提及AI在固定搭配与语境适配中易产生“中式英语”,41%发现模型训练语料偏差导致的句子逻辑不通或表达不地道。这种“优势认可–局限洞察”的双重认知,推动学习者形成“多轮比对–二次校订–权威查证”的使用习惯,既借助AI提升效率,又通过元认知操作保障语言地道性与学术严谨性。在伦理意识层面,学习者普遍表现出对原创性与学术诚信的高度坚守。85%的学习者明确拒绝“照搬AI生成内容”,通过三大核心策略维护创作主体权:一是“独立构思优先”,先完成初稿再用AI优化;二是“专业内容查证”,对AI生成的专业表述进行权威资料核验;三是“脱机写作训练”,定期脱离AI以强化独立思考能力。日志中“担心过度依赖削弱思辨能力”、“抄袭是使用者问题,非工具问题”等表述,既反映对潜在抄袭风险的警觉,也体现对“工具定位–使用者责任”的清晰伦理判准,将AI界定为“辅助者”而非“替代者”,在效率与原创间实现平衡。
综上,EFL学习者的AI写作素养是“情感态度–使用能力–认知反思–伦理意识”的有机统一体:情感层面的连续谱系为工具使用提供心理基础,认知层面的优劣势洞察为高效应用提供判断依据,伦理层面的原创坚守为合规使用提供边界约束,而三者交织形成的动态调适机制,最终构成学习者与AI协作的核心素养体系,也为教学中引导“信任–批判–自主”并行的智能写作模式提供实践参考。
6. 结论
本研究针对生成式AI工具在大学英语写作应用中的学习者依赖、批判意识薄弱等问题,基于布鲁姆认知目标分类理论,采用混合研究方法探究EFL学习者的AI素养。研究分两阶段开展:第一阶段开发并验证了包含情感、行为、认知、伦理四维度的AI素养量表(SCALE-AIEW),量表信效度良好,可作为EFL写作场景下AI素养的有效测评工具;第二阶段通过12周纵向追踪,发现学习者AI使用行为呈现四类典型模式,且使用行为与素养水平高度关联,同时反思分析揭示其对AI的态度呈“信任–审慎–保留”连续谱系,多数学习者具备对AI优劣势的认知判断及对原创性的伦理坚守。本研究丰富了EFL写作场景AI素养的实证研究,为AI素养导向的英语写作教学提供实践参考,本研究结论适用范围明确限定为黑龙江省理工类高校的EFL学习者,对其他地域(如东部沿海、中西部)高校,或人文社科、艺术类等非理工类专业的EFL学习者,因样本未覆盖,结论适配性需进一步验证。研究存在样本地域与学科单一、观测周期(12周)较短的局限,未来可通过跨学科、跨区域大样本研究,延长观测周期,检验结论普适性。