1. 引言
2019年10月,教育部正式发文《教育部关于一流本科课程建设的实施意见》指出,课程是人才培养的核心要素,课程质量直接决定人才培养质量。教育部要求各高校全面梳理各门课程的教学内容,淘汰“水课”、打造“金课”,合理提升学业挑战度、增加课程难度、拓展课程深度,切实提高课程教学质量。近几年很多高校对一流课程的教学和建设相关问题做出了很多有价值的探索、研究和实践。如孙雪结合“双万计划”国家级一流本科课程推荐认定办法,从教学设计、教学内容、组织实施等六个方面,基于指标体系提出研究型大学本科线下“金课”建设的基本思路[1];郭莹等提出了从“学校、专业、课程、环境、教师、学生”六个层面全方位建设金课的路径[2];也有的学者强调通过项目建设强化课程教学目标、完善线下教学环节与资源,并开展教学内容模块化与过程案例化等方面的教学实践[3],或提倡采取“导、学、教、练、思、考、评”的多元化教学过程,提升学生解决复杂工程问题的能力等[4]。总体来看,这些相关研究对高校一流课程的建设和教学实践起到了积极的引导或推动作用。
然而,由于当前DeepSeek R1、ChatGPT和千问等大语言模型对高校教学的冲击[5],尤其对教育资源和生源均有一定差异的应用型本科高校来说,面临内容抽象、繁琐、难度大或劝退指数高的一些工科专业课程,要建立起能够对标国际前沿技术、激发学生学习兴趣和动力的一流课程仍有一定的难度和困难。有必要进一步按照教育部实施意见中所强调的“确立学生中心、产出导向、持续改进的理念”,改进课程的教学设计、方法和内容,使得教学与学生能力发展需求相匹配,推动学生从被动接受转向主动建构,从而激发学生主动学习。实际上“学生中心”的理念源于建构主义理论,即强调学生对知识的主动探索、主动发现和对所学知识意义的主动建构。其次,杜威的“兴趣与努力”理论也强调教育应不依赖外部压力,而是基于学生的兴趣,通过真实情境激发学习动机。而学生的自主性、胜任感和归属感往往能激发内在动机,促使学生主动探索志趣方向。另外,联合国教科文组织的“全球教育治理”理论指出,教育需要通过跨国比较以推动教育质量提升,促进知识共享与公平竞争。鉴于以上几方面因素,本文提出了秉持“问学生志趣变方法”和“问国际前沿立标准”等理念,结合课程特点、地方应用型本科学生的学习基础和能力、金课的“两性一度”建设标准以及课程思政融入要求等情况综合进行考虑,进一步完善和创新教学方法体系,充分调动和发挥学生的积极性和主体作用,以适应应用型本科人才培养为目标的办学定位和“学生中心”理念的贯彻。以下以“自然语言处理”课程的教学及其建设为例展开讨论。
2. 自然语言处理课程特点、存在的问题和挑战
自然语言处理 (Natural Language Processing, NLP)的目标是实现人机之间的有效通信,使得计算机既能够理解自然语言的意义,也能以自然语言文本来表达意图与思想。“自然语言处理”融合了语言学、计算机科学、机器学习、数学、认知心理学等多个学科领域的知识,是人工智能类专业的一门专业方向课程。课程内容有自然语言理解和自然语言生成两个方面,包括文本分类、结构分析(词法分析、分词、词性标注、句法分析、篇章分析)、语义分析、知识图谱、信息提取、情感计算、文本生成、自动文摘、机器翻译、对话系统、信息检索和自动问答等。其教学目标在于通过本课程学习,使学生掌握自然语言(特别是中文语言)处理技术(特别是基于统计的语言处理技术)的基本概念、基本原理和主要方法,了解当前国内外自然语言处理技术的发展概貌,具备运用基本原理和主要方法解决工程应用技术中实际问题的能力。同时结合ChatGPT和我国“文心一言”等在该领域的前沿发展,在讲授自然语言处理知识体系的过程中潜移默化自觉接受理想信念与价值判断层面的精神指引。
自然语言处理技术发展更新换代快,且课程内容大多数都很抽象、繁琐及难度大。尤其当前我国DeepSeek和OpenAI联合微软公司所研发的ChatGPT等代表了自然语言处理技术在复杂工程应用领域的国际先进水平。它们的出现直接推动了通用人工智能发展,标志着通用人工智能开始正式登上历史舞台。2023年4月28日中共中央政治局召开会议,提出要重视通用人工智能发展,营造创新生态,重视防范风险[6]。同时也可以看到,大型语言模型对于传统自然语言处理任务范式方面形成了潜在颠覆性。其次,ChatGPT绝大部分的技术细节还没有完全公开,一些已经公开的研究内容和方法也仍然需要更多时间进行验证[7]。虽然DeepSeek开源了其学习参数,但其实现的源代码仍未公开,而现阶段的很多教材内容仍以传统自然语言处理任务范式和内容为核心,在保持学科知识的前沿性方面还有一定的差距。另外,所提供的案例有限或比较陈旧,数学推导公式繁多,尤其对应用型本科高校中数学基础较差的学生来说,劝退指数更高,因此有一定的局限性。以上这些都对应用型本科高校中自然语言处理面向一流课程的教学及其建设带来了挑战。若仅以当前内容较为陈旧的教材为核心内容按部就班的方式教学,课堂上一些学生大概率会成为“后排养老区”、“中间娱乐区”的“低头族”。
3. 面向一流课程的教学和建设思考
首先为尊重课程自身的特点和保证学科知识的前沿性,让学生在学习过程中触及国内外自然语言处理技术的新方法和新理念,尤其是对国际上ChatGPT和国内大语言模型新技术核心思想的掌握和理解。针对课程数学推导公式繁多、内容抽象、劝退指数高和当代基于大算力大模型技术实现自然语言处理在普通实验室环境难以实现,进而难以直观感受和理解其实现技术和基本原理等问题,需要重点解决教学案例库构建的趣味化、复杂抽象数学公式的直观形象化与实例化、工程应用的探究化、高阶化与挑战化、课程思政融入的多维化与自然化以及相关课程(或交叉课程)教学内容的系统化及其思政推进的协同化等五方面的“十化”教学实践和建设。为保证课程教学内容的工程应用的探究化、高阶化与挑战化,需要设计、模拟和实现当前源代码、技术细节不公开、风靡全球的DeepSeek或ChatGPT中多种功能,并通过这些前沿领域难度大的工程实践应用和课堂场景实验等环节的建设及运用,充分体现自然语言处理课程教学及其建设的高阶性、创新性和挑战度。以下图1展示了五方面的“十化”开展课程教学及其建设的思路。
Figure 1. Approaches to teaching practice in “natural language processing” course
图1. “自然语言处理”课程教学实践的思路
3.1. 授课案例库趣味化
一般来说,普通应用型本科高校的生源质量总体上弱于研究型高校,有必要构建教学启发式案例库,并使其趣味化,以激发学生对自然语言处理课程的学习兴趣,促进其对课程的自主学习。以词法分析教学内容为例,如“我看见你很高兴”、“门把手弄坏了”或“南京市长江大桥”等。其中的“我看见你很高兴”,到底是“我高兴”还是“你高兴”?
对这类案例中的语句分词若处理不当就会有分歧。将类似这些趣味性的案例库应用于课程理论教学中,在引起同学哄堂大笑的同时,更能促使其主动思考计算机该如何处理自然语言中这些分词问题。因此有必要根据课程章节内容进行搜集和构建系统化的趣味化案例库。
3.2. 复杂抽象数学公式的形象化和实例化
数学公式繁多、枯燥和抽象难懂是该课程显著特点之一。若按部就班的讲解,很难吸引学生的注意力并激发其学习兴趣。尤其对数学基础较差的学生,劝退指数更高。然而将复杂抽象数学公式的相关章节内容进行形象化和实例化并用于教学,会有意想不到的效果。比如在图2中,左图是本轮课程关于教学内容“Seq-to-Seq + 注意力机制”原始的抽象数学公式,而右图则是课程组所设计的以“苹果”和“粉红色”这样简单词句的分析,对复杂模型数学公式进行了形象化和实例化。若对左图仅用传统公式推公式的讲法很难吸引学生的注意力,然而设计了右图并展开讲解,学生就很容易理解“苹果”一词中的“苹”字比“果”字被赋予更高分值而合情合理,也符合人类对话中的注意力机制,进而也有助于学生理解左图中复杂抽象的数学公式。实践表明这种教学设计能够起到较好效果,有必要根据近期的前沿技术进一步改进、完善这类形象化和实例化的教学设计。
Figure 2. Visualization and instantiation of complex abstract mathematical formulas
图2. 复杂抽象数学公式的形象化和实例化
3.3. 工程应用的探究化、高阶化与挑战化
当前DeepSeek和OpenAI联合微软公司所研发的ChatGPT代表了国际上自然语言处理技术在复杂工程应用领域的最高水平。这些大模型平台除了众所周知的能够实现文本生成、论文写作、与普通用户对话交流、编程、解答用户提出的复杂数学或物理难题,还有图3(a)所示。只需要根据用户的描述就能够生成想要的图像。
Figure 3. (a) The astonishing capabilities of LLM; (b) The scale of parameters used to recognize handwritten digit 3
图3. (a) 大模型的惊人能力;(b) 识别手写数字3所用的参数规模
以上大模型的这些出色表现当然离不开背后的大模型和大算力,当前DeepSeek和ChatGPT等的训练参数数量均超过了千亿级规模,而图3(b)则展示了识别手写数字3所用的参数仅仅只有1万个左右。通过这种直观对比,可想而知要想全面实现DeepSeek或ChatGPT所面临的挑战和难度。面临这些具有挑战度和高阶性的难题,有必要设计、模拟和实现当前技术细节不公开、风靡全球、基于大模型和大算力多模态技术平台中的多种功能,并通过这些难度大的工程实践应用和课堂场景实验等环节的建设及综合运用,充分体现自然语言处理课程教学的高阶性、创新性和挑战度,以激发学生对自然语言处理的学习兴趣和自主学习的能动性,掌握自然语言处理的基本原理和主要方法,提升其解决网络自然语言信息处理、机器翻译和聊天机器人等方面的系统分析、设计和研究等方面的能力。目前笔者所在课程组已模拟并实现了基于Transformer技术的一个具有情感分析能力的聊天机器人,并在课堂讲授中予以应用、展示效果和讲解模型算法的核心代码,使其在现场展示中,激发了学生探讨模型实现方法的热情和学习兴趣,起到了良好教学效果。
其次,通过引导和鼓励兴趣高的优秀学生参加各种平台举办的线上竞赛。比如,飞桨AI Studiop中由百度公司所举办的线上知识对话、段落检索语言与智能技术竞赛或飞桨杯网页生成prompt指令设计等赛道的竞赛。这种以赛促学的方式,不仅能够引导学生对这些技术前沿开展探究,也客观上体现了高阶性、创新性和挑战度。其中以2023语言与智能技术竞赛为例。该竞赛针对近来深度学习模型的可解释性被越来越多的人关注,但模型的可解释性评估还不够完善。该竞赛项目的基线提供了预训练模型ERNIE-3.9-base、情感分析人物的评测数据和相关评测指标,旨在使得竞赛选手在项目的基线基础上对模型可解释性进行评估。参赛的学生不仅要熟悉竞赛项目的基线采用的运行环境选择、模型源代码及其运行机制、测试集加载、数据预处理,也要在对课程所学内容融会贯通的基础上对比赛项目算法或模型进行改进,并进行源代码的修改和模型参数的调整。这些过程既能够激发学生对自然语言处理的学习兴趣和自主学习的能动性,也充分体现学生对具有高阶性、创新性和挑战度问题的接受和掌握程度。
3.4. 思政元素融入的多维化和自然化
由于学生的科学精神、工匠精神、世界观、人生观和家国情怀等价值观方面的形成会受到很多方面影响,是多方面合力作用的结果,也是一个较长的复杂过程。其次思政元素融入课程理论若能带来“自然的逻辑美感”和思想魅力才能打动人和触及灵魂,否则难以避免陷入“贴标签”的窘境。因此需要形成课程思政“多维化”融入课程的“自然化”方法体系,并应用于课程教学过程中。具体论述可详见本文作者发表的文献[8]。这里仅对上述“自然的逻辑美感”可举一例。
如图4所示,笔者所在团队模拟大语言模型的部分功能,即基于中华古诗数据库训练集设计并实现了“五言绝句”的古诗自动生成系统。该系统训练伊始连标点都点不对,然而随着epoch (深度学习轮次)的增加及其交叉熵损失函数值loss的降低,自动生成的“五言绝句”文本越来越朗朗上口了。当讲解自然语言处理中的文本生成章节时,课堂上如果以教材为中心对枯燥的模型及公式展开讲解,一些学生大概率会显得无精打采。然而课程组备有了该系统,现场展示以上场景实验及其核心代码,能起到良好的教学效果。课堂实践表明:当多数学生看到这类结合理论的场景实验演示和对核心代码的讲解,学生的目光陡然聚焦,互动也明显增多了。课堂上的这种教学除能激发学习兴趣之外,同时也使得学生在潜移默化中“自然而然”地感受到实现该系统的深度学习模型所体现出来的美妙、我国NLP头部企业DeepSeek等在自然语言处理领域所取得的巨大进展以及我国历史、文化和语言文字的博大精深。其次,从以上古诗自动生成系统的训练基础和过程看,模型训练的数据倘若不是来自优美的中华古诗,而是“投喂”给它一些具有误导性、非法性、意识形态风险或有违伦理的“脏数据”,那生成的文本可想而知。因此该案例也就自然向同学们展示了“天使或魔鬼”不在人工智能中,而在于驾驭他人的心灵中。同时也使学生容易理解“警惕一些通用人工智能平台在所谓‘算法中立’的包装下,可能成为西方国家对我国进行西式价值观渗透的工具”[9]。
3.5. 相关课程或交叉课程教学内容的系统化及其课程思政的协同化
自然语言处理课程是一门与编译原理(程序设计语言)、人工智能、机器学习和深度学习等课程紧密相联系的交叉性课程。以交叉度较高的“编译原理”课程课程为例,编译原理这门课所支撑的“遵纪守法”、“党的领导”等多项思政指标点可以用来对自然语言处理中词法分析、语法分析及语义分析中基于规则分析法方面的教学。反过来自然语言处理的基于统计及深度学习的方法也可对编译原理课程相关内容的教学进行有益补充和支持。尤其针对人才培养方案未安排编译原理课程的人工智能专业学生来说,以上对相关内容讲解有必要。然而针对学过编译原理的计算机专业的学生来说,在自然语言处理课程中讲解基于规则的语法分析方面的相关内容,可酌情省略或删减。因此相关(或交叉)课程教学内容的系统化以及课程思政推进的协同化是需要关注的又一个方面。
Figure 4. Automatic generation example of “five-character quatrains”
图4. “五言绝句”自动生成举例
4. “十化”方法的应用效果及其推广适用性
4.1. 应用效果
笔者课程团队将以上五方面的“十化”方法体系应用在了“自然语言处理”和“编译原理”等课程的教学和建设,并已通过了连续两年两轮的教学实践,结果表明以上模式的效果较为显著。其中“自然语言处理”课程的班级期末考核课程目标评价达成度由原来的70%提升至80%左右。另一方面,从学生平时听课、学习行为和参与度等表现情况来看,也有明显变化。比如授课案例库趣味化、复杂抽象数学公式的形象化和实例化等方法运用于课堂教学后,明显降低了人工智能专业课堂上学生看手机的“低头率”,很多学生对课堂所授内容关注度有了明显提高。再比如,类似“古诗自动生成”这种具有自然逻辑美感的思政元素自然化融入课程教学的案例,在丰富课堂内容的同时也促使学生将注意力转向晦涩难懂的深度学习神经网络的训练及其文本预测生成,提高了对其所学专业的认同,激发了一些学生对当今DeepSeek或ChatGPT等大语言模型的工作机理及背后训练逻辑的学习热情。如有一次本课题组成员将所研发的具有探究化、高阶化与挑战化的工程应用案例放在某新生班级QQ群,其初衷仅是做简单的一个专业介绍或引导,然而却吸引了7名学生主动前来咨询,并报名参加本课程团队的“NLP兴趣组”。另外也有一些学生在课堂学习的基础上,继续探索领域内的相关前沿知识,积极申报并成功立项了省级大创项目,而在全国大学生相关学科竞赛中也取得了优异成绩。所有这些教学实践反馈均表明这些方法体系既开拓了学生的课程视野,有效引导学生进行探究和形成具有挑战性的创新思维,也提升了对具有挑战性复杂工程的应用和实战能力。
4.2. 推广适用性
很多专业的专业课程实际上同样具有抽象、复杂、难懂或数学公式多等特征,尤其是“智能建造”“通信工程”“自动化”或“机械工程与智能制造”等工科专业更是如此,因此“十化”方法体系在这些专业的课程教学实践及其一流课程建设中仍具有较强的借鉴意义。比如其中的“复杂抽象数学公式的形象化和实例化”,在《流体力学》课程中可利用MATLAB动态模拟纳维–斯托克斯方程,形象地展示出不同流速下流线变化,从而能够直观形象地理解方程含义。再比如在“计算机网络通信”课程中,“数字”方波信号很难通过普通双绞线进行远距离传输的根本原因是它含有丰富的高次谐波。有些学生对这个机理难以理解,这时我们可以利用动画展示出周期函数的“傅里叶变换”,即方波一般由无穷多级正弦函数波形叠加而成,进而容易理解其中高次谐波通过带宽受限的双绞线而导致失真。再比如,当某专业开展“AI与社会治理”课程群的教学及其建设,其中包括《智慧城市》《机器学习基础》《数据伦理》等课程,这可能就需要相关课程教师共同设计“算法偏见修正”协同课题,以促使这些课程教学实践和建设互为补充和互为支撑而形成体系,这实际上就需要“相关课程或交叉课程教学内容的系统化及其课程思政的协同化”。而对于“教学案例库构建的趣味化、工程应用的探究化、高阶化与挑战化和课程思政融入的多维化与自然化”等方法在其他专业课程教学及其建设中的重要性更是不言而喻,这里不再赘述。
5. 结语
综上所述,为适应新时代对高等教育课程教学改革和发展要求,上述基于“问学生志趣变方法”和“问国际前沿立标准”理念的五方面“十化”应用于教学实践及其建设,增强课程吸引力,也有利于激发学生学习课程的兴趣和自主学习的能动性,使得在学习和掌握国际国内自然语言处理先进技术的基本原理、新方法和新理念的同时,也能够自然地体会到我国在自然语言处理中所取得的成就、中华历史、文化和语言的博大精深以及NLP头部企业攻坚克难的科学精神和工匠精神,从而更好适应一流课程背景下的应用本科高校课程教学和大语言模型对教学带来的冲击。同时,这些方法体系对其他专业课程教学和建设也有一定的借鉴意义。尤其是对工科专业中类似抽象、复杂难度高的课程,更具有较大的推广意义。
基金项目
中国高等教育学会2023年度高等教育科学规划课题,一般项目,计算机国一流专业及产教融合建设中专业思政关键问题的研究,23PG0410;中国高等教育学会2024年度高等教育科学研究规划课题,重点课题,产教融合视域下应用型本科高校“双师型”教师培训与培养路径研究,24PX0301;常州工学院课程思政示范专业建设项目,重点项目,计算机科学与技术,30120300100-23-zd-sfzy02;常州工学院课程建设项目,“自然语言处理”,JK2023-8。