1. 引言
近年来,以大语言模型(Large Language Model, LLM)、生成式人工智能为代表的自然语言处理(Natural Language Processing, NLP)技术取得突破性进展,深刻影响着科研、产业与社会生活[1]。在此背景下,国内众多高校纷纷将《自然语言处理》纳入本科高年级或研究生阶段的核心课程[2]。该课程不仅承载着传授前沿技术的任务,更肩负着培养学生计算思维、语言建模能力与解决真实世界问题能力的使命。
然而,传统的《自然语言处理》课程多沿袭“理论讲授 + 简单实验”的模式,难以应对技术快速迭代与学生能力差异带来的教学挑战。因此,如何构建一个既能夯实基础,又能激发创新,还能对接产业需求的教学体系,成为亟待解决的关键问题。本文基于本校《自然语言处理》课程教学现状与存在问题,结合对多所高校《自然语言处理》课程现状的调研,从教学内容改革、教学方法改革和考核方式改革三个主要方向进行探索和实践,针对性地提出并完善了一套面向AI时代的《自然语言处理》课程教学体系改革路径。
2. 教学现状与存在问题分析
通过对多个学期教学实践的总结与学生反馈的梳理,当前NLP课程教学主要存在以下三方面的问题。
2.1. “数理知识储备要求高”与“浅应用”的矛盾
该课程要求学生具备坚实的数学基础(如高等数学、线性代数、概率论)和编程能力(如Python、PyTorch/TensorFlow框架)。尽管本科生已修完相关先修课程,但其掌握程度参差不齐,且普遍缺乏将数学工具应用于实际建模的能力。教学中若过于强调公式推导,易使学生感到枯燥畏难;若忽略其背后的数学原理,则又陷入过度依赖封装库而缺乏原理认知的开发者窘境,学生无法建立系统的知识体系,难以应对技术迭代。
2.2. 实践资源匮乏,缺乏真实场景支撑
实践环节是NLP教学的核心,但普遍存在资源匮乏问题。教学多使用清洗干净的小型标准数据集(如IMDb影评数据集),与工业界海量、嘈杂、多目标的真实场景存在一定的落差。同时,缺乏高性能算力平台支持学生进行模型训练和推理相关的实验,也缺少来自企业的真实案例作为牵引,导致学生的动手能力、解决复杂问题的创新能力和工程化思维得不到有效锻炼。
2.3. 课程评价方式单一,忽视综合能力培养
传统考核以期末笔试和简单编程作业为主,侧重知识点记忆与代码复现,难以全面评估学生的批判性思维、系统设计能力与创新意识。尤其在生成式AI时代,能否提出有价值的问题、设计合理的提示词、团队合作、沟通交流、评估模型输出质量、建立工程化思维等新型能力未被有效纳入评价体系。
3. 教学改革策略
为破解上述难题,课程组从教学内容、教学方法和考核方式三个方面系统探索出一套具有针对性的改革策略。
3.1. 教学内容改革
针对《自然语言处理》课程长期存在的“数理知识储备要求高”与“浅应用”的矛盾,即学生因数理与编程基础薄弱难以深入理解模型原理,而现有教学又往往止步于调用封装工具导致能力浮于表面,本课程构建了“前置知识→基础理论→核心技术→前沿应用→工程实践”五级知识体系,旨在形成一种“层层递进、螺旋上升”的教学框架。
首先,针对学生数理与编程基础参差不齐的问题,设计独特的“前置知识模块”,该模块并非孤立讲授数学或编程语法,而是将高等数学、线性代数、概率统计、Python编程等关键知识点直接嵌入典型NLP任务场景。例如,在讲解梯度下降时,同步演示其在词向量训练中的具体作用,使学生在“学以致用”的即时反馈中,化被动记忆为主动应用,有效降低入门门槛。
其次,在基础理论部分,聚焦语言表示与经典模型。系统讲授文本预处理、n-gram语言模型、TF-IDF、词袋模型、隐马尔可夫模型(HMM)及条件随机场(CRF)等内容。强调数学原理与手工实现,引导学生建立“从问题定义到模型构建”的完整建模直觉,深刻理解算法背后的数学机理与设计思想。
考虑到市面大部分教材内容有滞后性,多数教学内容仍以传统统计方法为主,对深度学习方法、Transformer架构、提示工程等前沿内容覆盖不足,课程引入了核心技术部分,聚焦于领域前沿技术,涵盖Word2Vec、RNN/LSTM、Seq2Seq、Transformer架构、BERT等预训练模型,通过PyTorch框架实现关键模块,学生不仅调用模型,更通过复现关键组件(如自注意力机制、位置编码、掩码语言建模)深入理解参数更新、梯度传播等底层机制,打通深度学习模型可解释性差的原理性认知。同时,为紧密对接技术前沿,课程新增大语言模型前沿应用专题(占总课时约10%),系统引入Prompt工程与策略对比实验,开展零样本、少样本、思维链(CoT)、角色扮演等提示方法的教学内容;本地轻量化大模型部署:基于GGUF格式与llama.cpp/vLLM,在消费级设备上完成7B以下模型的量化、推理与性能调优。随着教学内容改革的进行,在未来我们还计划增加基于LangChain的智能应用开发,检索增强生成(Retrieval-Augmented Generation, RAG)系统构建等内容。
多数高校受限于算力资源与数据获取渠道,往往存在实践资源匮乏、缺乏真实场景支撑的问题。针对这块短板,课程组积极与企业对接,开展了产学合作协同育人项目,校企合作开发包含丰富的行业案例、实验项目和知识点的数字化教学资源库,引入符合企业实际应用场景的案例化实战项目,形成一套案例丰富的实验资源库和对应的实验指南。由企业提供可远程调用的云端计算资源,支持模型微调、模型训练与推理任务,有效解决了算力资源匮乏和缺乏真实场景支撑的问题;所形成的相关资源可进一步用于课程的优化和推广。
3.2. 教学方法的改革
针对本科生普遍存在工程经验薄弱、对真实产业场景陌生、自主探索能力有限等问题,本课程在教育部产学合作协同育人项目框架下,创新提出“低起点切入、真问题牵引、双导师护航”的教学方法体系,确保学生在安全、有序、有反馈的环境中完成课程的学习。主要改革策略如下。
3.2.1. 项目驱动贯穿全程
以“一个学期一个主线项目”为核心,将课程视为一个完整的工程探索周期,通过系列微项目(Micro-Projects)作为教学单元,逐步引导学生从基础技能训练走向综合系统构建,最终在课程结束时整合形成一个具有真实应用价值的主线项目(Capstone Project)。这些微项目并非教师凭空设计的教学练习,而是直接来源于合作企业的实际业务场景。在教育部产学合作协同育人项目框架下,课程团队与科大讯飞股份有限公司建立了常态化对接机制,定期收集其在文本分类、信息抽取、情感分析、问答匹配等典型NLP任务中的轻量级需求。经教学化改造后,将其拆解为若干边界清晰、周期可控(通常2~3周)、技术聚焦的微任务。例如,某电商平台提出“需自动识别用户评论中提及的商品型号”,经简化后转化为“基于规则与机器学习的实体识别微项目”;某商家希望“对售后工单进行自动归类”,则衍生出“多标签文本分类微项目”。并且所有微项目共享同一底层数据源或应用场景(如始终围绕“电商平台智能客服”),使得学生在不同阶段所开发的模块(如分词器、特征提取器、分类模型、生成模型、评估脚本)可逐步集成、迭代优化,最终在课程末期集成为一个功能完整的系统——这便是主线项目的雏形。具体而言,学生分组协作,在持续数月的真实任务牵引下,亲历“需求理解–方案设计–模型实现–效果评估–系统集成”的完整工程闭环。对于本科生而言,这种渐进式、有积累、可看见成果的学习路径,极大增强了学习动机与成就感,有效避免了因任务过于宏大而产生的畏难情绪,也为其未来参与科研或进入产业界奠定了扎实的工程思维基础[3]。具体的项目列表如表1所示。
Table 1. List of experimental projects
表1. 实验项目列表
教学阶段 |
微项目名称 |
企业需求来源 |
核心任务目标 |
知识点 |
第1~2周 |
电商评论分词
与基础预处理 |
用户评论中需准确
识别商品实体 |
构建适配电商领域的中文分词
与清洗流程 |
中文分词、正则清洗、停用词
处理 |
第3~4周 |
商品型号实体
识别 |
自动识别用户评论
中提及的商品型号 |
从非结构化评论中抽取出
结构化商品型号 |
规则匹配、CRF/BiLSTM-CRF
命名实体识别 |
第5~6周 |
售后工单多标签
分类 |
对售后工单自动归类
(如物流、质量、
退换货等) |
构建多标签文本分类器,支持
一个工单归属多个类别 |
TF-IDF/Word2Vec、多标签
SVM/BERT、标签相关性建模 |
第7~9周 |
用户情感与意图
联合分析 |
客服对话日志分析
需求 |
同时判断用户情绪(正面/负面)
与意图(咨询/投诉/建议) |
多任务学习、BERT微调、
情感词典融合 |
第9周 |
本地轻量化
大模型部署 |
在有限算力下部署
开源大语言模型 |
使用ollma,在消费级GPU/
笔记本上部署7B以下大模型 |
Ollma本地化安装及部署 |
第11~14周 |
FAQ问答匹配 引擎 |
智能客服需快速匹配
用户问题与标准答案库 |
利用FAISS/Pinecone与开源
Embedding模型,搭建私有
知识库问答系统 |
API调用、对话管理、检索
增强生成(Retrieval-Augmented
Generation, RAG) |
第15~16周 |
主线项目集成
与优化 |
综合课程所有
微任务 |
将各模块整合为“电商平台
智能客服辅助系统”,支持
端到端功能演示 |
系统架构设计、模块接口对接、
性能调优、用户体验测试 |
3.2.2. 串联对比教学
自然语言处理技术发展呈现出明显的代际演进特征,但各阶段方法并非简单替代关系,而是在特定场景下各有优劣,若仅按时间顺序线性讲授模型(如从n-gram到BERT),学生极易陷入“新模型替代旧模型”的片面认知,而忽视不同方法的适用边界、内在联系与组合潜力。因此,本课程系统引入串联对比教学法[4],该方法通过纵向串联和横向对比的双重维度,帮助学生打破知识点之间的隔离状态,构建系统化的知识网络。
纵向串联强调知识点之间的逻辑衔接和演进关系,使学生理解技术发展的内在脉络;例如,将课程核心内容按“问题驱动–表示演进–模型升级”的逻辑链条重新组织;在讲解“文本分类”任务时,并非孤立介绍SVM或BERT,而是回溯其历史脉络:为何早期采用词袋模型?→其忽略语序的缺陷如何催生出n-gram算法?→n-gram的稀疏性又如何推动分布式表示(如Word2Vec)的发展?→序列上下文关联建模的需求最终引向RNN/LSTM,直至引出Transformer的全局注意力机制。这一过程不仅呈现技术“是什么”,更揭示“为何如此演进”,使学生理解每一代模型都是对前代局限性的回应,从而建立起动态技术发展观。
横向对比则注重同一问题不同解决方案的优劣分析,培养学生的批判性思维和方案选型能力。例如,在文本分类任务中,引导学生对比传统机器学习方法(如SVM、朴素贝叶斯)与深度学习方法(如TextCNN、BERT)在准确率、训练效率、可解释性等方面的差异。通过实际案例数据对比,学生能够直观感受不同方法的特点;在中文分词环节,组织学生对基于规则的方法、统计方法和深度学习方法进行对比实验。学生需要设计评估方案,从分词准确率、未登录词识别能力、运行效率等维度进行全面比较。这种对比不仅加深了学生对技术原理的理解,更重要的是培养了其技术选型的能力。
3.2.3. 双导师协同教学
依托教育部产学合作协同育人项目,建立制度化、常态化的校企协同机制,邀请AI企业工程师开展专题讲座,分享工业界NLP处理流程设计经验,同时构建双导师协同教学模式,该模式通过校内学术导师与行业实践导师的深度协作,构建“理论与实践并重、学术与产业融合”的新型教学体系。校内导师主要负责理论基础教学和学术指导,确保学生掌握自然语言处理的核心原理和方法论;行业导师则来自合作企业的技术团队,重点指导学生将理论知识应用于实际业务场景,培养学生的工程实践能力和行业视野。具体来说,在合作形式上双方依托教育部产学合作协同育人项目,课程与科大讯飞、粤嵌科技、上海新榜等企业签订共建协议,建立制度化双导师机制:校内导师负责理论教学,企业导师(每学期2~3名)每两周开展线上技术指导,并参与项目评审。企业提供脱敏业务数据及远程GPU算力平台(NVIDIA A10/RTX 4090),支持学生完成模型训练与部署。针对企业数据敏感问题,校企共同制定三级脱敏规范;针对工程师时间冲突,建立AB角替补与微课资源库。该机制有效弥合了学术严谨性与工程实用性之间的鸿沟,提升了学生的产业适配能力。
这种双导师模式打破了传统教学中理论与实践的壁垒,使学生能够在学习过程中同步接触最新的学术研究成果和行业技术动态。校内导师注重知识体系的系统性和完整性,通过严谨的理论教学为学生打下扎实的学术基础;行业导师则侧重技术应用的实用性和创新性,通过真实案例和项目实践培养学生解决问题的能力。两种视角的融合使学生能够更好地理解自然语言处理技术的实际价值和应用前景。
3.3. 考核方式的改革
传统终结性评价(如期末笔试)难以全面反映学生在复杂任务中的综合素养、实践能力和协作水平[5],应以重过程、强应用、促发展为原则,建立融合项目实现、项目答辩与过程化考核的多维动态评价机制。具体考核方式如下:
1) 项目实现(40%):以真实或模拟项目为载体,要求学生完成从需求分析、方案设计、开发实施到测试优化的完整闭环。评价重点包括:技术实现的完整性与创新性、代码/文档规范性、功能达成度、资源利用效率等。双导师可分别从理论严谨性与行业实用性角度进行评分,确保评价的专业性与现实贴合度。
2) 项目答辩(30%):学生以小组形式进行成果展示与答辩,接受导师质询。评价维度涵盖:逻辑表达能力、技术理解深度、应变能力、团队角色贡献说明等。
3) 过程化考核(30%):贯穿整个教学周期,包括:阶段性任务提交、实验/实训报告、课堂参与、谈论与分享中的积极性。
表2罗列了2023~2025三年间人工智能专业学生(120~140人,学生人数逐年增加)在《自然语言处理》课程考核中的各项平均成绩及总平均成绩(单位:分,满分100)。经过对课程持续优化,教学效果逐年提升,学生整体表现呈稳步上升趋势。
Table 2. Average student performance evaluation table (2023~2025)
表2. 2023~2025年学生考核平均成绩表
学年 |
项目实现(40%) |
项目答辩(30%) |
过程化考核(30%) |
总平均成绩 |
2023年 |
78.5 |
76.2 |
80.0 |
78.3 |
2024年 |
81.0 |
79.5 |
83.6 |
81.3 |
2025年 |
83.3 |
83.0 |
87.2 |
84.4 |
4. 教学改革成效
为科学、客观地评估本轮教学改革方案的实施成效,本研究进行了历史前后测对比实验,以改革全面实施前的历史教学周期(2020~2022级)作为对照组,以实施改革后的教学周期(2023~2025级)作为实验组,通过对比两组学生在核心考核维度上的表现差异,量化分析改革措施的实际效果。
对照组(前测组)选取了2020、2021、2022三个教学年(共323人)的学生数据。该阶段课程采用理论讲授为主,辅以验证性实验的传统教学模式,考核以期末综合和项目实现成绩(占比60%)和平时考核成绩(基础实验、平时作业、课堂表现,占比30%)为主。
实验组(后测组)选取了2023、2024、2025三个年级(共360人)的学生数据。该阶段课程全面推行本文所述的“五级知识体系”、“项目驱动 + 串联对比 + 双导师协同”教学法及多元化过程考核模式。
Table 3. A comparison table of effectiveness indicators before and after curriculum reform
表3. 课程改革前后成效指标对比表
学年 |
学生人数 |
综合项目平均分 |
优秀项目比例 |
总平均成绩 |
学年评教均分 |
2020~2022 (改革前) |
323 |
76.5 |
12/40 (30%) |
78 |
89.5 |
2023~2025 (改革后) |
360 |
81.0 |
18/45 (40%) |
81.3 |
92.5 |
表3数据清晰地表明,自2023年全面实施教学改革以来,课程在多维度关键指标上均呈现出显著且一致的积极提升。首先,综合项目平均分由76.5分提升至81.0分,表明学生在真实任务驱动下的工程实践能力与技术整合水平有所增强;尤为显著的是,优秀项目比例从30% (12/40)上升至40% (18/45),反映出高阶创新能力和高质量成果产出的比例明显提高,同时也充分印证新教学策略的有效性。其次,课程总平均成绩稳中有升(80.0→81.3),说明新考核体系在保持学业标准的同时,更有效地激励了全过程学习投入。此外,学生评教均分从89.5分提高到92.5分,体现出学生对课程内容实用性、教学组织合理性及学习获得感的高度认可。
为从学生主观感受层面深入评估改革成效,本研究系统收集并分析了2023~2025级学生的课程评教开放式反馈。通过对学生评语进行主题编码与归类,提炼出核心反馈主题如表4所示:
Table 4. Representative feedback and comments on student evaluation of teaching reform
表4. 教学改革学生评教代表性反馈评语
反馈主题 |
代表性学生评语(匿名摘录) |
项目驱动教学、真实场景牵引 |
“课程的项目感觉很贴近真实应场景,让我觉得学的东西有用,做项目特别有干劲。” “看到自己做的情感分析模块被集成到小组的智能客服系统里,真的有种解决了客户需求的感觉!” “整个项目像一张大的拼图,每完成一个微项目都像拼图又多了一块,最后
我们组拼出完整系统时特别自豪。” |
串联对比教学、五级知识体系 |
“通过对比不同模型在同一个任务上的表现,我真正明白了为什么Transformer会取代RNN,以及它们各自的优劣,而不是死记硬背知识点。” “从词袋到Word2Vec再到BERT,老师带我们走了一遍技术演进史,理解了BERT的先进性,知其所以然了。” |
项目驱动、双导师协同、工程实践 |
“第一次独立完成一个从数据清洗、模型训练到部署测试的完整NLP pipeline,虽然困难重重,但收获巨大,感觉自己像个真正的程序员。” “企业导师带来的案例让我们看到了工业界的挑战和解决方案的折中,这是
课本上学不到的。” “第一次写API接口、第一次做模型版本管理……这些非算法的技能让我意识到实际应用中所需要的综合能力。” |
考核方式改革、双导师协同 |
“双导师制度非常好,校内老师帮我们夯实基础,企业老师拓宽视野,答疑时角度互补。” “考核方式更公平了,整个学期的努力都能被看到,组内协作让我感受到了
沟通的重要性。” “项目评分标准提前公布,小组合作完成课程设计,答辩要求每个人都必须
了解自己负责的内容,老师现场评价给分很合理。” |
这些质性反馈印证了项目驱动与过程化设计在降低认知负荷、增强学习动机、构建系统性工程能力方面的独特价值。学生不再将NLP视为孤立算法的集合,而是理解其作为端到端智能系统组成部分的工程本质。这种认知转变,正是新工科背景下人工智能人才培养的核心目标之一。
尽管受限于学历层次与岗位竞争,本科毕业生直接从事NLP算法研发的比例相对有限,但本课程所强化的工程实践能力、数据处理素养与系统集成意识,显著提升了学生在NLP技术应用生态中的就业适配性。对2023~2025届修读本课程的126名毕业生跟踪统计发现,约41%进入人工智能相关领域就业,其中除少数进入算法助理岗位外,多数胜任数据标注与质量管控、文本数据分析、模型部署与运维、智能客服系统实施等关键支撑性岗位。例如,在上海新榜信息技术股份有限公司、天下秀数字科技(集团)股份有限公司、上海悦普广告集团股份有限公司等数据分析与内容科技企业从事数据智能标注、文本内容分析与处理,以及模型辅助运维等工作。
5. 结论与展望
本文系统分析了当前《自然语言处理》课程教学面临的核心挑战,包括学生基础参差不齐导致的“数理知识储备要求高”与“浅应用”矛盾、实践资源匮乏造成的教学与实际应用脱节,以及传统考核方式难以全面评估学生综合素养等问题。针对这些痛点,本研究从教学内容改革、教学方法改革和考核方式改革三个主要方面提出了一套完整的教学体系改革方案。经过多个教学年的实践结果表明,新的教学方案较好地解决了传统教学存在的问题,显著提升了学生的学习内驱力、工程实践能力和技术迁移能力,能很好地达成课程培养目标。教学改革是一项长期的任务,还需要持续探索,只有不断迭代课程内容、创新教学方法、完善评价机制,《自然语言处理》课程才能真正成为培养新时代人工智能创新人才的重要基石,在AI浪潮中行稳致远。
NOTES
*通讯作者。