1. 引言
语言应急服务指为重大突发事件(包括自然灾害、事故灾难、公共安全事件及社会安全事件)提供快速救援语言产品的服务体系[1]。近年来,此类服务在城市治理、风险预警、信息传播、风险沟通和社会监测等领域发挥着关键作用。一方面,语言应急服务直接关系民生福祉,在应对自然[2]与人类社会中的各类公共突发事件时,承担着舆情疏导、社会安抚、资源动员和决策支持等重要职能;另一方面,语言应急能力也是国家经济实力与软实力的集中体现。因此,建设完善的语言应急响应体系不仅能切实便捷生活,也能提升国际话语权。
目前语言应急服务及其能力建设研究仍面临多重挑战。首先,学术界需就语言应急的定义与内涵达成共识。虽然已有大量研究探讨语言应急服务的概念框架与发展历程[3],但以COVID-19疫情为分水岭,针对具体应用场景的实证研究仍显不足。其次,现有应急语言团队因成立时间较短,其运行流程与政策体系仍需优化。最后,如何运用知识图谱技术构建语言应急知识体系,实现数据价值最大化,亟待深入探索。
为解决上述问题,本文旨在设计一个基于知识图谱的语言应急服务信息系统。系统的核心目标是突破关键情境下的语言壁垒,通过提升信息处理效率与知识资源整合能力,促进应急场景下的语言沟通。知识图谱技术自2012年由谷歌提出后,已在公共安全、医疗等领域形成成熟的决策支持应用范式[4]。其本质是以“实体–关系–实体”三元组为基础的语义网络[5],通过节点关联构建网状知识结构。面对全球数据量的爆发式增长,传统图结构已难以满足知识图谱构建需求。
本研究通过梳理语言应急与知识图谱相关文献,构建具备动态构建、智能处理与多语言映射三大核心能力的服务体系,设计四类典型应用场景,最终形成可提升应急响应可靠性的解决方案。
2. 文献概述
2.1. 知识图谱的构建发展与应用
知识图谱作为一种结构化的语义知识库,近年来在智能问答、决策支持与语义检索等领域展现出强大的知识组织与推理能力。知识图谱已从通用领域延伸至多个垂直行业,尤其在应急管理、医疗健康与公共安全等领域形成了较为成熟的应用范式。
近年来,由于知识图谱已证明的有效性和能力,其应用在研究人员中显著增加。在应急响应方面,Joao B等人(2020) [5]使用自然语言处理工具进行文本处理,利用卷积神经网络分类和提取灾害信息,并借助知识图谱呈现关联洞察生成关于灾害和利益相关者的可视化信息,显著提升了应急管理的信息整合效率。Song等人(2023) [6]以光刻胶产业链为例,设计了一套满足科技成果信息需求的知识处理方法,并对科技创新成果信息知识图谱的实现进行了具体分析,构建了面向科技成果对接的知识图谱,体现了知识图谱在复杂产业信息结构化与精准匹配方面的优势。针对公共卫生突发事件,Zhen Y等人(2024)开发了后续多事件图卷积网络模型,通过将关系信息、语义信息和上下文推理嵌入预测模型中,提升了政府对突发公共卫生事件的预测与管理效率[7]。在医学领域,Zhang Y等人(2024)构建[8]的中医药知识图谱有助于教学、疾病诊断、治疗决策和中医药现代化。
上述研究均构建了不同模式的知识图谱,进一步深化了大规模智能问答系统的研究。因此,在语言应急服务领域构建知识图谱是可行且必要的,这将有助于系统性地回答问题和推理语言应急相关知识。
2.2. 语言应急服务的发展与应用
目前语言应急服务在国内外都有具体实践,但较多都聚焦于宏观应急或危机管理层面。就国家而言,美国有机构专门招募语言志愿者来解决应急事件中的翻译问题;日本由于自然灾害较多也高度重视应急语言能力的构建。
目前,语言应急服务的实践多侧重于宏观应急或危机管理(郑泽芝等人,2020) [1]。在理论层面,语言应急服务与大语言模型的研究已取得一定成果。如,Siqing Shan等人(2012)分析了应急响应决策支持系统框架在电子政务中的应用[9],通过建立包括应急计划、应急管理、应急预案等方面的模型为应急服务提供了理论和设计的实践指南;也有针对疫情提出的应急语言服务的语言转向等。国内的语言应急服务可分为两个时期。第一阶段肖俊敏等人,2022年[3]从SARS疫情结束后持续到新型冠状病毒爆发前,理论研究开始起步。第二阶段始于2020年,新冠肺炎疫情暴发后,学术界对COVID-19疫情迅速做出反应,涌现出大量关于应急语言的研究成果。在市场应用方面,在第二阶段以前,中国语言应急应用的研究较少且内容相对单一,重点多聚焦于国外语言应急工作的特色和经验。新冠疫情的爆发提供了新的研究视角和实践土壤,大量实践的开展使得应用性研究迅猛增长,如紧急语言服务(EMLS)的提出;市场上通过语料库建设、舆情监测、人才数据库等技术推出的辅助生成具有参考价值的语言服务产品以及利用动态知识图谱技术构建集信息检索、结果可视化、智能翻译等功能于一体的平台。此外,针对应急领域的实践也有不少尝试,如世卫组织命名突发公共疾病和病毒、招募语言志愿者解决翻译问题、美国政府推出国家语言服务团项目等。
总之,语言应急服务的设计在理论和实践上都体现了进一步的创新和进展。它有效满足了突发事件事前、事中和事后各阶段的需求,提升了应急响应能力。
3. 系统框架
作为语义网的支持技术,知识图谱[10]在自动问答领域发挥着关键作用,已成为组织、表达和管理海量、异构、动态数据的有效途径。基于知识图谱的语言应急服务系统构建[11]分为三个层次:系统层、知识层和应用层(如图1所示)。在基础设施层,本文完成了包括多源数据采集的底层构建支撑知识库。知识层着重培养系统的动态构建能力、智能语言技术和多语言映射能力,这是系统建设的难点和重点,也是应用层的基础。应用层通过知识的收集、分析、整合与共享,实现上层知识应用,满足突发公共事件发生前、发生时和发生后三个阶段的需求,包括语言应急服务的沟通、安抚、监测和决策目标。(1) 基础设施层:该层由数据采集和知识处理两部分组成。基于收集的新闻、政府公告和社交媒体舆情等多源数据,在建立Schema后进行实体命名,继而进行关系抽取,为知识层和应用层奠定基础。(2) 知识层:该层构建三种语义处理能力以辅助语义分析,即动态构建能力、智能语言技术和多语言映射能力。(3) 应用层:通过四大应急场景,实现沟通安抚、监测决策两大目标,提升系统效能。
Figure 1. Construction framework of language emergency service system based on knowledge graph
图1. 基于知识图谱的语言应急服务系统的构建框架
3.1. 知识图谱层的构建
知识图谱层的构建包含两个部分:知识图谱设计与知识图谱应用接口的构建(如图2所示)。知识图谱的应用接口为中间层、上层应用及其他开发者或用户提供知识的访问、检索、转换与共享功能[10]。
该构建方法包含以下三个步骤:
(1) 基于人机协作的语言应急服务知识图谱半自动构建:利用从新闻和政府公告中获取的语料库自动构建图谱模式。同时,采用人机协同的方法对模式构建结果进行验证,确保其准确性。
(2) 语料库的命名实体识别(NER):融入语言应急服务领域的专业词汇信息,通过半自动标注方法训练实体抽取模型。
(3) 语料库文本特征的实体关系抽取:构建融合语言应急服务特征的实体——实体关系抽取模型。
Figure 2. Knowledge graph is a framework for application interface construction
图2. 知识图谱于应用接口构建框架
3.2. 核心能力层
语言应急服务的基石在于语言应急任务的落地执行。因此,知识图谱对语言应急服务的赋能体现在任务生成与实施的过程中。语言应急服务能力向任务执行的演进包含几个关键步骤:(1) 需明确突发公共事件的分阶段目标(事前、事中、事后)及服务目标(沟通协调、安抚保障、监测预警、决策支持);(2) 应急任务所需的动态构建能力、智能语言处理能力和多语言映射能力;(3) 依托这三项核心能力完成应急任务。
3.2.1. 动态构建能力提升语言应急服务的信息采集与处理能力
动态构建能力指系统基于实时更新的知识图谱数据,动态调整内容、结构或功能的能力。其功能包括信息采集和信息处理两大部分。通过网络爬虫技术定期从新闻网站、社交媒体等数据源获取信息,经Web Scraper处理后,采用第4.1节所述方法,最终整合至数据仓库中。
3.2.2. 智能语言技术提升语言应急服务智能化水平
智能语言技术是指利用人工智能、自然语言处理与机器学习等技术,使计算机能够理解、生成自然语言的能力。当前智能语言技术主要体现于自然语言处理技术(如命名实体识别)、深度学习模型(如循环神经网络、长短期记忆网络、Transformer)及大语言模型技术(如BERT、GPT)。其功能包括:(1) 提升语言理解能力:运用自然语言处理技术对文本数据进行词法分析、句法分析与语义分析,使机器理解人类语言。(2) 智能问答与交互:利用海量语料训练问答模型提升系统智能化水平与用户体验。(3) 情感分析:采用BERT预训练模型对文本进行编码,通过添加输出层实现情感分类。由于BERT含有多层Transformer编码器(包含自注意力机制与前馈神经网络),能捕捉输入信息识别文本情感色彩(分为积极、消极与中性三类)。
3.2.3. 多语言映射能力消除语言应急服务语言障碍
多语言映射能力是一种能建立不同语言对应关系,实现跨语言信息理解与处理的语言技术。其意义体现在:(1) 跨语言信息检索:该能力允许用户检索不同语言的文本数据库,实现跨语言信息搜索获取。对半结构化源数据(如CSV、JSON、XML等关系数据库)与图数据,实现多语言映射。(2) 机器翻译与语音识别:将各语言实体关系对齐,提供精准知识检索与推理功能。(3) 助力救援工作:利用已有知识分析地理、气象、灾情等应急信息生成救援指南、操作手册等提升救援效率。
3.3. 应用层
知识图谱应用层通过整合智能语音交互、知识可视化、多模态输出与应急决策支持提升应急响应效率[12]。以救援场景为例:语音交互模块可实时解答救援人员关于救灾流程的询问;可视化工具清晰展示灾害关联信息输出以地图直观呈现风险点。知识图谱还能关联企业信息,为监管部门提供执法清单与风险问卷以辅助科学决策。这些功能的实际应用使语言应急服务在灾害响应中更加高效智能。
4. 案例研究
4.1. 知识图谱层构建
本文使用Web Scraper于2024年9月10日~2025年11月10日协作采集了国内各地方政府、中央政府等网站上的突发事件与自然灾害相关语料数据并进行清洗。按照第4.1节流程完成知识图谱构建,语料数据结构如图4所示。截至发表前,我们的数据集包含79,981条记录,涵盖4590个实体(节点)与13,372种关系(边)。数据类型如表1所示,绘制知识图谱如图3所示。
Table 1. Knowledge graph database structure of language emergency services
表1. 语言应急服务的知识图谱数据库结构
数据类型 |
描述 |
示例 |
数值 |
语料库 |
文本语料库 |
新闻报道、社交媒体文本、应急处理手册、官方文件等 |
9,520,000条记录 |
地理 |
地名、地理坐标、地图数据 |
地名索引、地图数据 |
6789个地名、5,900,000个坐标点 |
词典和词汇 |
识别和解释领域术语和概念 |
专业词汇表、术语集 |
8000条词汇 |
人员和组织 |
人员信息、组织信息、关系等 |
人员姓名、机构名称、关系描述 |
6631个人员和组织、337个关系 |
时间 |
时间线、时间节点、时间关系等 |
日期、时间、时间段 |
100,000个时间节点 |
语言学 |
研究成果、语言规则、结构 |
语法规则、语义关系、结构等 |
173条语言规则、语义关系 |
事件 |
突发事件、自然灾害、事故等 |
地震、火灾、交通事故、疫情爆发 |
7789个事件记录 |
Figure 3. Knowledge graph of language emergency services
图3. 语言应急服务知识图谱
总体而言,语言应急服务能力需要统筹协调语言应急场景流程。语言应急管理的应用流程分为事件发生前、发生时、发生后三个阶段(见图4)。在不同应急情景发生前,需收集分析可能引发初始风险的各种要素信息并进行风险评估。
Figure 4. Scenario construction of language emergency service system based on knowledge graph
图4. 基于知识图谱的语言应急服务系统的场景构建
4.2. 应用场景
4.2.1. 语言应急预案库
应急预案是针对紧急情况制定的一套预备操作流程,涵盖通信联络、计划制定、作业执行、态势感知、风险分析、预警机制、后勤保障与安抚服务等全方位内容。其中,监测系统作为风险分析与预警的重要来源,能够有效评估与控制公共卫生突发事件。
Figure 5. Technical roadmap for language emergency planning
图5. 语言应急计划预案技术路线图
语言应急预案库技术建设路径包含多个层面(见图5)。以新冠肺炎疫情为例:首先动态爬取数据集,经协同过滤算法提取关键信息并进行实体识别;继而用LDA技术进行主题建模,完成新增病例数、医院就诊量、传播路径等数据的文本挖掘;并采用循环神经网络(如长短期记忆网络、门控循环单元)预测传播趋势。通过GRU模型分析历史数据预测疫情发展态势,结合GPS生成疫情图谱。
4.2.2. 语言应急决策支持系统
Figure 6. Language emergency response decision support technology roadmap
图6. 语言应急响应决策支持技术路线图
Figure 7. Query diagram by relational classification
图7. 按关系分类查询图
语言应急决策支持对时效性具有极高要求,常用于搜救行动中的决策与方案执行[13]。该系统可辅助决策者进行舆情响应,协助国家协调各部门资源,制定应急政策并生成应急决策处理器。语言应急决策支持的技术路线(图6)与前述部分结构一致,其特点在于用户交互环节侧重决策支持模块,其余5个类似应用场景的技术路线本文不再赘述。
以自然灾害为例,救援工作时间紧迫、任务繁重。决策者可通过知识图谱查询“自然灾害”“气象灾害”“地质灾害”等领域的应急数据(见图7),据此确定救灾范围、救援时机及受灾群众转移安置方案,从而完成危机管理任务。语言应急决策支持不仅是应急预案的组成部分,更在风险引导与承担方面发挥着关键作用。
Figure 8. Search interface of knowledge graph retrieval platform
图8. 知识图谱检索平台搜索界面
4.2.3. 语言应急知识库
知识图谱的本质是大型数据库,而语言应急知识库作为其分支之一,涵盖数据库、案例库、模型库、志愿者库、法律依据库等组成部分。应急知识库的功能包括:(1) 作为存储海量知识的大型数据库;(2) 充当搜索引擎(如图8);(3) 自动知识分类与知识分析的工具;(4) 用户获取知识的桥梁;(5) 作为翻译工具。将多语种翻译纳入应急规划的沟通策略是节约时间和资源的有效途径。知识图谱经过多次训练后逐步规范非标准化知识,其翻译能力可应用于国际应急救援、方言地区等多语言翻译场景。
4.2.4. 语言应急人才队伍建设
语言应急服务同样包含语言应急人才队伍建设。其类型如表2所示。本文设计的语言应急人才智能检索平台,能够高效筛选出人才实现高度匹配,解决以往“无路径可循”的困境。
Table 2. Language emergency personnel team construction knowledge base
表2. 语言应急人才队伍建设知识库
语言应急服务人才类型 |
对应人员 |
对应行业 |
具备条件 |
应急专家库 |
研究人员 技术人员 |
医疗卫生 工程技术 环境保护 应急管理 心理健康 |
技术开发 从事相关行业工作 |
应急媒体库 |
记者 编辑 |
新闻报社 通讯技术 数字媒体 广告公关 |
丰富的媒体资源 专业权威的机构 与其他行业协作的能力 |
应急志愿者库 |
灾难救援志愿者 医疗卫生志愿者 社区应急志愿者 物资管理志愿者 |
医疗卫生 社会福利 教育培训 志愿者组织等 |
资格审查 响应能力和可调度性 道德素质和责任感 |
5. 对比分析
为验证本新型系统设计的可行性与优势,我们设计了一系列实验以证明其有效性。针对语言应急预案库、语言应急决策支持系统语言应急知识库和语言应急人才队伍四大应急场景进行任务模拟。每个场景均定义了代表性任务,例如处理应急数据、生成初步预案、检索整合相关知识或匹配人力资源。
5.1. 系统时间效率对比
在传统系统配置中,任务通过人工流程完成,由领域专家负责数据收集、分析与决策。任务完成时间从任务启动计算至最终成果产出,平均耗时数小时。相比之下,基于知识图谱的系统集成了数据检索、语义解析和动态推理的自动化流程。虽然仍需人工协作以验证或优化输出结果,但系统显著减少了人工工作量。该系统任务完成时间以分钟计,全程可在30分钟内完成。通过对比系统的完成时间并计算系统平均时间的节省百分比,量化其效率提升。
Table 3. Comparison of completion time between traditional system and knowledge graph system
表3. 传统系统与知识图谱系统任务完成时间对比
应急场景 |
传统系统完成时间/分钟 |
知识图谱系统完成时间/分钟 |
时间减少率(%) |
语言应急预案(LEPP) |
180 |
25 |
~86% |
语言应急响应决策支持(LERDS) |
150 |
20 |
~87% |
语言应急知识库(LEKR) |
210 |
28 |
~87% |
语言应急人才队伍建设(LEPT) |
180 |
25 |
~86% |
如表3所示,在语言应急处理预案场景中,传统系统需要3小时完成任务,而基于知识图谱的系统仅需25分钟即可完成相同任务,时间缩减约86%。在语言应急决策支持、知识库构建及人才调配等其他场景中也观察到可比拟的改进效果。
5.2. 系统适应性对比
Table 4. System fitness comparison (fitness score, out of 100)
表4. 系统适应性对比(适应性分数,满分100)
应急场景 |
传统系统适应性得分 |
知识图谱系统适应性得分 |
增长率(%) |
语言应急预案(LEPP) |
70 |
85 |
21.40% |
语言应急响应决策支持(LERDS) |
68 |
88 |
29.40% |
语言应急知识库(LEKR) |
72 |
87 |
20.80% |
语言应急人才队伍建设(LEPT) |
65 |
82 |
26.20% |
针对4.2.2节场景,需要评估系统适应各类紧急情况的能力。通过场景模拟,应急管理专家团队根据系统动态适应能力进行百分制评分。结果发现:采用人工静态流程的传统系统适应性较差,而能自动更新知识库并运用语义关系的知识图谱系统获得更高适应性分。如表4所示,在语言应急处理预案场景中,传统系统得分为70分,而基于知识图谱的系统获得85分,改进幅度约为21.40%。在语言应急决策支持、知识库构建及人才调配场景中进行的类似评估也取得了可比结果。
5.3. 知识检索准确率对比
基于4.2.3节语言应急知识库的应用场景,本文测量了各系统处理复杂应急数据时的信息检索准确率。实验通过预设关键词、突发事件及预期知识输出构建基准数据集,要求两种系统从各自数据库中检索相关信息。传统系统通常依赖关键词匹配与静态搜索算法,而知识图谱系统采用语义搜索与推理技术来理解上下文关系。通过将检索结果与基准答案比对,以正确检索信息占比计算准确率。系统间的准确率差异用于计算改进百分比。
Table 5. Comparison of knowledge retrieval accuracy
表5. 知识检索准确率对比
应急场景 |
传统系统精确度(%) |
知识图谱系统精确度(%) |
增长率(%) |
语言应急预案(LEPP) |
78 |
90 |
15.40% |
语言应急响应决策支持(LERDS) |
80 |
93 |
16.30% |
语言应急知识库(LEKR) |
75 |
88 |
17.30% |
语言应急人才队伍建设(LEPT) |
77 |
91 |
18.20% |
如表5所示,在语言应急处理预案场景中,传统系统的检索准确率为78%,而基于知识图谱的系统达到90%,提升幅度约为15.40%。在语言应急决策支持、知识库构建及人才调配场景中的对比实验均呈现一致的提升趋势。
5.4. 综合应用影响评估对比测试
本研究旨在通过整合效率、适应性与检索准确率等多维度性能指标,开展综合评估以反映系统在应急场景中的整体影响。为此,我们通过综合各项评估指标(经适当加权)制定了十分制综合评分,用以体现系统在真实应急应用中的整体性能。采用专家小组评估与自动化测试相结合的方式,对传统系统和知识图谱系统在四大场景中的表现进行综合评分。最终根据两套系统的综合得分计算总体提升幅度。
Table 6. Comprehensive application impact assessment (comprehensive score, out of 10 points)
表6. 综合应用影响评估(综合得分,满分10分)
应急场景 |
传统系统应用得分 |
知识图谱系统应用得分 |
增长率(%) |
语言应急预案(LEPP) |
6.5 |
8.2 |
26.20% |
语言应急响应决策支持(LERDS) |
7 |
8.8 |
25.70% |
语言应急知识库(LEKR) |
6 |
8 |
33.30% |
语言应急人才队伍建设(LEPT) |
6.2 |
8.5 |
37.10% |
如表6所示,在语言应急处理预案场景中,传统系统综合得分为6.5分,而基于知识图谱的系统获得8.2分,总体提升幅度约为26.20%。对语言应急决策支持、知识库构建及人才调配场景的类比评估也呈现出相当的提升效果。
为消除不同特征值域差异造成的计算偏差,使各特征在实验中具有同等权重,本文采用归一化进行处理。其计算方法为最小 − 最大缩放法,计算公式如下:
图9展示了传统方法与知识图谱方法在四大场景下,跨四项指标(完成时间、适应性、准确率、综合得分)的归一化分数对比:
X轴:表示不同应用场景;
Y轴:表示归一化分数(范围0~1),1代表最优性能;
折线:每条折线表示特定场景下不同方法在各指标中的得分变化。
例如“LEPP-传统”表示传统方法在语言应急处理预案场景中所有指标的得分。
从图9可知,知识图谱方法的综合得分在所有场景中均高于传统方法。在多数场景和指标下,知识图谱方法(虚线表示)的得分均优于传统方法(实线表示);在准确率指标上,传统方法与知识图谱方法的得分差异尤为显著。特别是在语言应急知识库场景中,知识图谱方法的得分远高于传统方法,进一步证明了本文所设计系统的优越性。
Figure 9. Normalized scores comparison across scenarios and methods
图9. 不同场景与方法归一化得分对比表
6. 结论
本研究聚焦于基于知识图谱的语言应急服务系统构建,通过构建四大语言应急场景有效提升服务效率。研究贡献可归纳为:首先,引入知识图谱作为语言应急服务系统以提升知识利用效率;其次,设计了包含基础层、知识层与应用层的三层系统架构;最终,按设计构建系统并验证了其效能。
然而,领域知识图谱的构建仍面临诸多困难与挑战。在实际应用场景中,本研究通过系列探索性测试评估其可行性,但现实突发事件的有限性使得难以逐一验证所有潜在场景。
未来研究可围绕以下关键问题深化探索:首先,通过运用自动化技术与自然语言处理算法提升知识图谱构建的效能与准确性;其次,需融合先进深度学习与人工智能算法以实现大模型驱动的场景交互;最后,应挖掘更多语言应急服务应用场景,设计定制化方案以满足多样化应急沟通需求。
数据可用性声明
本文数据可联系通讯作者获取。
基金项目
上海市哲学社会科学规划课题,基于知识图谱的面向突发公共事件的语言应急服务研究,项目编号:2022ETQ004。
NOTES
*通讯作者。