1. 引言
谷歌公司在2012年首次提出了知识图谱的概念,认为“知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的技术方法”,并首先利用知识图谱技术改善了搜索引擎核心。本质上,知识图谱是在自然界建立实体关系的知识数据库,用于准确阐述万物之间的关系。知识图谱技术已广泛应用于工业、农业、管理、金融、互联网等传统和新兴领域,目前也已渗透到教育领域,衍生了教育知识图谱和学科知识图谱等概念。
在教育领域,“专业”一词是指高等学校或中等专业学校所分的学业门类。专业设置的目的在于满足社会分工条件下各行各业对专门人才的需求。在我国,专业划分具有较强的管理功能,规范着高校人才培养的口径和领域,也直接关系到所培养人才的知识能力结构,专业的设置通常围绕规定的学科门类进行。专业的内涵解释和外延拓展往往决定着高校学院设置和基层教学组织构成。培养方案是专业人才培养的基础性文件,是开展教学活动的依据,其中课程体系是专业培养方案的重要组成部分,不同专业的培养方案,其课程体系不同,从人才培养视角,课程体系只是形式,其目的在于通过课程体系的学习和考核使学生满足培养目标和毕业要求。
课程体系的本质是知识体系。分析专业设置、课程体系和知识体系三者之间的关系可知:① 有些名称相近的专业,如交通运输和交通工程专业,物流工程和物流管理专业等,其专业内涵的解释、课程体系、课程名称和知识内容等都可能存在相同或相似之处,而不同的课程名称及其教授的知识点也可能相同或具有较高相似度。在专业名称相近情况下,如果课程体系所涵盖的知识体系相似度过高,那么是否需要重新思考专业设置的科学性问题?因此,是知识体系而非课程体系应作为专业设置的依据。② 同一个专业,不同学校的课程设置也可能不尽相同。那么,专业课程体系的确定依据是什么?通过上述分析可知,专业课程体系是知识体系在人才培养阶段的外在形式,而专业知识体系才是专业人才培养的实质内涵,因此,专业课程体系的确立依据在于专业所对应的知识体系。对不同高校的同类专业而言,通过差别的课程体系(完全相同的概率非常小)使学生掌握的知识体系应该是相同的。
综上,论文提出专业知识图谱的概念,不但可作为制定专业课程体系的依据,还可作为专业设置或者专业优化的主要依据。围绕专业知识图谱这一核心概念,本文分析了领域知识图谱、学科知识图谱与专业知识图谱三者之间的逻辑关系,制定了专业知识图谱的构建流程,并以交通运输专业为例,提出了其专业知识图谱的框架,为交通运输专业人才培养方案中课程体系制定提供了依据,同时也为其他专业构建知识图谱、确定课程体系提供参考。
2. 知识图谱、领域知识图谱、学科知识图谱与专业知识图谱
2.1. 知识图谱
领域知识图谱、学科知识图谱、专业知识图谱都是知识图谱这一概念的衍生概念。对知识图谱概念的准确定义是理解其他衍生概念的基础。但是目前为止,学术界和工业界对知识图谱尚未有统一、明确的定义。一些有代表性的定义如表1所示。
Table 1. Representative definitions of knowledge graphs
表1. 知识图谱的代表性定义
从表1可知,尽管不同机构/学者对知识图谱的概念从不同角度进行了定义,但大多数机构/学者对知识图谱本质的认知都相同或相近,即都认为知识图谱在本质上是一种揭示实体之间关系的语义网络、知识网络或者知识库(实体及其属性一般以数据库或知识库的形式存在),其背后包含了知识图谱建模、知识表示、知识获取、知识存储、知识图谱应用等一整套工程技术方法。正因如此,一些学者习惯从知识图谱构建的角度去定义通用知识图谱和领域知识图谱等衍生概念。
2.2. 领域知识图谱
将知识图谱分为通用知识图谱和领域知识图谱是一种公认的知识图谱分类方式。在领域知识图谱的理论研究方面,学者们主要是从其与通用知识图谱的对比当中分析其构建特点,而较少分析概念的内涵和外延。如刘烨宸等 [1] 、杭婷婷等 [7] 和杨媛媛 [8] 分别从图谱构建的角度通过分析领域知识图谱和通用知识图谱在知识表示、知识获取和知识应用等方面的区别,分析了领域知识图谱的构建特点。刘烨宸等认为领域知识图谱(domain-specific knowledge graph)是把知识的覆盖范围和使用方式都聚焦于某一特定领域,其对该领域知识的深度和精度都有很高的要求。杭婷婷等认为领域知识图谱面向某一特定领域,以行业数据为主,其构建过程是半自动化的,通常采用自顶向下和自底向上两种方式相结合的方式来构建。田玲等 [5] 认为领域知识图谱是面向军事、公安、交通、医疗等特定领域,用于复杂的应用分析或辅助决策,具有专家参与度高、知识结构复杂、知识质量要求高、知识粒度细等特点。杨媛媛认为,领域知识图谱在构建过程中,只构建特定领域内的实体,实体之间的关系描述与抽取则需要熟练的专业知识作为支撑,同时,领域知识图谱通常为解决特定领域内专业人员的检索需求而构建,具有很强的针对性,服务特定领域和特定人群。
综上,现有研究主要从图谱构建的角度理解领域知识图谱的构建特点,目前尚未从理论研究的角度形成统一的科学定义。对领域知识图谱概念的理解关键在于理解“领域”。汉语词典中,领域指“从事一种专门活动或事业的范围、部类或部门”,在现实生活中,领域主要指行业,如交通领域即交通行业,领域知识即行业知识。领域知识图谱即行业知识图谱,是面向特定行业、知识覆盖范围涵盖该行业的知识图谱,如海信“交管云脑”交通知识图谱等。
2.3. 学科知识图谱
近年来,随着计算机和信息技术、网络技术、人工智能等先进技术在教育领域的深度应用,知识图谱理论在教育领域的应用研究逐渐增多,学科知识图谱的概念被提出。学科是指按照学问的性质,依据学术的性质而划分的科学门类。关于学科知识图谱的概念尚未形成完整、统一的定义。范佳荣等 [9] 总结了不同学者对于学科知识图谱的定义,认为学者们能够在“以教学过程中涉及的元素为实体节点、以教学元素间的逻辑关系为边,形成的语义网络”上达成共识,而不同内涵在表征实体节点或实体属性的观点上略有不同。主要可以分为知识实体观、资源实体观和问题实体观三种。李艳燕等 [10] 认为,学科知识图谱是由结点以及结点之间的关系组成的知识库,其中结点由知识点或与知识点相关的教学资源所组成,每个结点都具有一个全局唯一的标识符,结点之间的关系表述的是知识点与知识点之间、知识点同教学资源之间以及教学资源之间的关系。林健等 [11] 认为,学科知识图谱是一种支持具体学科教学设计与资源组织管理的教育知识图谱。上述定义都属于“资源实体观”。本文采用范佳荣等学者的定义,认为学科知识图谱是以学科问题的逻辑关系为核心,与相应的知识体系和能力体系建立映射关系的可视化表征工具。
2.4. 专业知识图谱
“专业”一词有多种理解。周川 [12] 认为,可以从广义、狭义、特指三个层面来理解专业。从广义角度看,专业即某种职业不同于其他职业的一些特定的劳动特点。广义的专业即某种职业不同于其它职业的一些特定的劳动特点;狭义的专业,主要是指某些特定的社会职业;特指的专业即高等学校中的专业。它是依据确定的培养目标设置于高等学校(及其相应的教育机构)的教育基本单位或教育基本组织形式。本研究采用周川对“专业”的特指定义,同时认为,专业的设置和专业所应涵盖的知识体系与社会岗位需求密切相关。进而,本文中“专业知识”是以专业设置为前提,特指高校设置的专业所涵盖的知识体系,包括知识结构、知识层次和知识内容,以及它们之间的有机联系。
研究基于这种“设置于高等学校的教育基本单位或教育基本组织形式”所应涵盖的知识体系及其在知识网层面上的数字化表达和可视化应用。因此,研究将“专业”与“知识图谱”的概念相融合,提出专业知识图谱的概念:专业知识图谱以高等学校专业设置或者专业划分为前提,是专业所涵盖的知识体系中各种知识概念、属性和关系构成的语义网络。
2.5. 领域知识图谱、学科知识图谱与专业知识图谱之间的关系
要明确领域知识图谱、学科知识图谱与专业知识图谱三者之间的关系,首先要理解领域、学科与专业之间的关系。领域、学科和专业三个概念的本质不同,不存在包含与隶属关系。但在实际使用过程中,三者之间联系密切。社会岗位需求是高校专业设置和培养方案制定的基本依规,领域或行业既是社会岗位需求的来源,又是高校专业人才的实践地和最终去向;专业是本科人才培养的基本组织形式,按照人才培养的规律和要求面向社会岗位需求培养人才;学科是专业的支撑,以学科建设支撑和带动专业发展和人才培养,是我国高校专业发展和人才培养的基本逻辑。
在三种知识图谱中,领域知识图谱从领域知识的角度出发,涵盖范围最广、深度最深,基本包括了学科知识图谱的所有内容,一个具体的领域知识图谱往往涉及多门学科的知识图谱。学科知识图谱更多是从知识本身的视角出发,注重知识体系自身的结构和逻辑性。专业知识图谱更多是从社会需求和人才培养的视角出发,按照人才培养目标在一定层次上有机组织各类学科知识为社会岗位需求服务。专业知识图谱和其他两种知识图谱之间的关系比较复杂。首先,学科知识图谱不但涵盖了本学科的基础知识,而且包括了前沿理论和方法;根据联合国教科文组织《国际教育标准分类》,本科教育(undergraduate education)属于高等教育的中级层次,专业知识图谱作为本科专业培养方案中课程体系的确定依据,其在学科知识图谱覆盖范围内的那一部分知识的深度要小于学科知识图谱。其次,为建构相对完整的人才知识体系,专业知识图谱包含了很多基础知识,如交通运输类专业知识图谱涵盖了数学、化学、物理等基础学科的部分知识,涉及多个学科知识图谱和领域知识图谱。因此,专业知识图谱和领域知识图谱、学科知识图谱之间部分重合,但通常不存隶属关系。三个知识图谱之间的关系如图1所示。
Figure 1. Diagram of the relationship between domain-specific knowledge graph, discipline knowledge graph and major knowledge graph
图1. 领域知识图谱、学科知识图谱与专业知识图谱之间的关系
以交通运输为例。交通运输行业按照运输方式划分,主要包括铁路运输行业、公路运输行业、水路运输行业和航空运输行业。交通运输工程学科本身是一门交叉学科,属工科一级学科,包含4个二级学科:道路与铁道工程学科、交通信息工程及控制学科、交通运输规划与管理学科和运载工具运用工程学科。根据教育部最新公布的《普通高等学校本科专业目录》,交通运输类专业包括交通运输、交通工程、航海技术、轮机工程、飞行技术、交通设备与控制工程、救助与打捞工程、船舶电子电气工程、轨道交通电气与控制、邮轮工程与管理、智慧交通、智能运输工程共12个专业。以交通运输领域知识图谱、交通运输工程学科知识图谱和交通运输类专业知识图谱之间的关系如图2所示。其中,基础科学是指数学、物理学、化学、生物学、天文学、地球科学、逻辑学七门基础学科及其分支学科、边缘学科。
Figure 2. Diagram of the relationship between the domain-specific knowledge graph of transportation field, the discipline knowledge graph of transportation engineering, and the major knowledge graph of transportation
图2. 交通运输领域知识图谱、交通运输工程学科知识图谱与交通运输专业知识图谱之间的关系
3. 专业知识图谱的架构模式和构建过程
专业知识图谱的架构由模式层、数据层和关系组成。其中,模式层即专业知识本体(本体是一种形式化的,对于共享概念体系的明确而又详细的说明),定义了专业知识图谱的框架,是知识图谱的核心。模式层由专业相关概念、概念间层级结构以及概念之间的关系组成;数据层主要描述事实,以〈实体–关系–实体〉、〈实体–属性–属性值〉这样的三元组作为基本的表达方式。
在构建过程中,一般知识图谱以及领域知识图谱和学科知识图谱的研究均已取得了一定成果,这为高校专业知识图谱的构建奠定了基础。通常认为,知识图谱的构建过程包括知识抽取、知识表示、知识融合、知识推理、知识存储等,知识图谱中有四大核心,即技术知识抽取、知识表示、知识融合和知识推理 [7] [13] 。领域知识图谱和学科知识图谱的构建大致遵循此流程。专业知识图谱作为知识图谱在高等教育领域的一种应用,也应遵循一般的知识图谱构建流程,同时,考虑到其与领域知识图谱和学科知识图谱的关系,其构建过程主要参照这两种知识图谱,并考虑高校专业知识的特点。
在构建模式方面,领域知识图谱以行业数据为主,其中既有结构化数据又有半结构化和非结构化的数据,构建方法通常为自顶向下和自底向上两种方式相结合。高校专业知识图谱的数据源类型既有行业数据、也有学科知识。具体来源不同的数据,其结构化程度也往往不同。因此,专业知识图谱也采用自顶向下和自底向上两种构建方法相结合方式,即,从结构化程度不同的原始数据和外部知识库中抽取知识,根据语义信息进行知识融合和知识加工,得到专业知识图谱。本文参照领域知识图谱构建过程 [5] [7] ,提出专业知识图谱构建流程,如图3所示。其中,(领域1,领域2,……,领域n)指的是专业知识图谱构建时的知识来源,由于学科知识包含于领域知识内,因此,学科知识未在图3中标明。
(1) 知识获取:从不同来源、不同结构的行业数据和学科数据中进行知识提取并存入知识图谱中,包括实体抽取、属性抽取和关系抽取。实体抽取的方法主要有基于规则与词典的方法、基于统计机器学习的方法、面向抽象域的抽取方法;关系抽取可以基于传统机器学习的方法,也可以基于深度学习的方法;事件抽取主要有基于模式匹配的方法、基于机器学习的方法和混合事件抽取方法 [8] 。知识抽取是构建大规模知识图谱的基础。
Figure 3. Diagram of the construction process of major knowledge graph
图3. 专业知识图谱构建流程
(2) 知识融合:将来自不同数据源的异构化、多样化的知识在同一个框架下进行消歧、加工、整合等,可以分为本体融合和数据融合。其中,本体融合的主要方法有本体集成和本体映射两大类,相比于本体集成,本体映射的方法自动化程度更高,融合的成本更低;数据融合主要包括实体链接(包括知识消解和共指消歧两个步骤)和知识合并;知识融合主要解决不同数据来源知识图谱的异构问题,提高知识图谱质量。主要挑战在于数据质量和数据规模。
(3) 知识加工:将知识融合后获得的事实表达通过本体构建、知识推理和质量评估获得结构化、网络化的知识体系。本体是同一领域内的不同主体之间进行交流的语义基础 [1] 。本体构建目前主要通过数据驱动的自动化本体构建过程进行。知识的推理方法可以分为基于逻辑的推理和基于图的推理两大类。质量评估主要通过对知识的可信度进行量化,通过舍弃置信度较低的知识保障知识图谱的质量,主要包括知识图谱补全和知识图谱错误检测。
4. 交通运输专业知识图谱框架
交通运输专业知识图谱是高等院校交通运输专业设置的理论基础,也是各高校修订交通运输专业培养方案、制定其课程体系的依据。交通运输专业知识图谱的构建过程可按如下流程进行。
(1) 交通运输专业知识获取。根据社会分工和岗位需求以及高校交通运输专业人才培养目标,从交通运输领域、管理领域、工程技术领域和科学领域数据中提取交通运输专业人才培养所需知识并存入知识库中。如公共交通系统属于专业发展类知识,用〈实体–关系–实体〉方式表达即为〈公共交通系统–属于–专业发展类知识〉。
(2) 交通运输专业知识融合。将异构的多样化的交通运输专业知识消歧、加工、整合。如消除“交通运输专业”、在特定情境下指交通运输专业的“该专业”、“专业”等名词所产生的共指现象。
(3) 交通运输专业知识加工:将知识融合后获得的事实表达通过本体构建、知识推理和质量评估获得结构化、网络化的知识体系。首先,利用Protégé工具将概念、实体、属性及关系等数据信息生成交通运输专业知识本体;其次由专家进行审核,决定本体建模是否迭代;再次,在已有的知识库基础上进一步挖掘隐含知识,通过推理扩展知识库。例如对危险品运输进行定义,可自动推理出公路危险品运输属于危险品运输。
交通运输专业知识图谱中的知识主要来自交通运输、工程技术、管理、基础科学和人文社会科学五大领域及其交叉领域,分为22个模块,每个模块下又包括具体的知识。为更加清晰地呈现交通运输专业知识图谱的全貌,本文采用图和表相结合的方式进行示意,如图4和表2所示。图4中,标号1~22表示22个知识模块。
Figure 4. Diagram of the framework for undergraduate major knowledge graph of transportation
图4. 交通运输本科专业知识图谱框架
图4中22个知识模块所包含的具体知识在表2中列明。表2中,每个知识模块所包含的具体知识按照粒度,还可以再进行细分,限于篇幅,本文未做进一步划分。
Table 2. Specific knowledge contained in the knowledge classified with 1-22 in Figure 4
表2. 图4中标号1~22知识模块所包含的具体知识
5. 结论
本文提出了专业知识图谱的概念,分析了领域知识、学科知识和专业知识之间的逻辑关系。借鉴领域知识图谱和学科知识图谱的构建方法,制定了专业知识图谱的构建流程。以交通运输专业为例,提出了交通运输专业知识图谱框架。专业知识图谱的构建方法是知识图谱理论和技术在高等教育领域的探索和尝试。交通运输专业知识图谱框架的构建,可为高校交通运输专业设置的科学性、专业培养方案的修订以及课程体系的优化提供理论依据。后续研究将进一步完善该框架,在交通运输专业图谱构建过程中将该岗位前瞻性的需求纳入系统性考虑范畴。
基金项目
感谢以下基金项目的支持:中国学位与研究生教育学会2020年面上课题:“双一流”建设背景下全日制专业学位研究生培养模式改革路径研究(2020MSA104);“新工科”研究与实践项目(航空航天、交通运输类项目群):道路交通运输类专业新工科建设研究与实践;中国高等教育学会“十三五”规划课题(16YB120):行业特色型高校“一流大学,一流学科”建设路径和对策研究;陕西省高等教育学会2019年度高等教育科学研究项目:新时代视域下高水平行业特色高校应用型人才培养模式及评价体系研究(XGH19088);中国交通教育研究会2018~2020年度教育科学研究重点课题:交通类高水平特色型大学“双一流”建设路径与对策研究(交教研1801-14),重点课题A类;长安大学教育教学改革研究项目:《交通运输工程学》国家一流课程建设研究与实践(BZ202119);长安大学本科课程思政示范课程建设项目:《交通运输工程学》课程(300207223047);长安大学国际教育学院教改项目:行业特色型高校留学生培养模式及评价体系研究(300108221099)。