1. 引言
术语是知识体系的核心成员,集中体现了学科知识的要义。通过术语了解学科发展动态是一种行之有效的方法。术语提取技术是大规模本体工程自动或半自动构建、扩充的关键技术之一。近年来,人们已经认识到术语提取方法的重要性并进行了大量研究。在翻译工作中,翻译质量和速度是影响翻译工作的关键因素。积极管理术语,包括预处理翻译项目中的关键术语,会产生积极影响。实际翻译工作中,术语来源广泛,以术语提取为基础,结合现有翻译软件和技术,可最大限度提高效率。
以医学领域为例,医学涵盖广泛而复杂的知识,涉及各种疾病、治疗方法、解剖学等内容。通过提取专业术语,可以将这些知识组织成结构化形式,不仅提高翻译效率,还方便后续查阅和使用。许多医学研究需要应用自然语言处理、机器学习等技术提取专业术语,有助于计算机系统更好地理解和处理医学文本,支持自动化分析和决策。
2. 专业术语提取介绍
2.1. 专业术语
关于专业术语的定义,[1]楚金金(2022)认为专业术语作为具备独特性的词汇,展现出明确的单义性特征,即每个术语严格对应单一概念。这一特性要求翻译过程中应尽量避免任何可能引起的歧义。然而,在重复率较高或含义相近的术语组合时,不同翻译方法可能会产生差异,从而导致翻译实践中出现分歧现象。对于科技文献而言,确保术语的一致性与单义性,是维系科技信息精准交流与广泛传播不可或缺的基础。根据[2]韦孟芬(2014)可知,术语(terminology)又称科技名词,是在特定学科领域用来表示概念的称谓的集合。[3]方梦之(2011)与韦孟芬的观点一致,她认为专业术语用于描述科学现象和揭示客观事物的发展规律,科技英语必须使用表意确切的专业术语。这些术语准确标志科学技术概念,反映科学技术进步,是记录和表述生产材料、机械设备、工艺流程及生产操作过程中各种现象、流程、特性、关系、状态的不同名称。
薛子俭[4]等人(2012)及常青云[5]等人(2009)均强调,专业术语定义严谨,科技论文在运用时务必精确无误,并强调中英文术语在文稿中需保持前后一致,以确保表达的准确性与连贯性。
王亚辉[6]等(2008)认为术语的翻译可以分为两大类。一类是其翻译形式已经存在,具有约定俗成的、公认的准确翻译形式,另一类是随着事物的涌现,对不断出现的新事物的翻译,这类术语翻译可能具有多样性,没有公认的标准翻译方法,但皆可被理解。
2.2. 术语提取背景和意义
目前科技发展快速,互联网普及率接近百分之八十,可获取的信息呈指数级增长。在国际化和全球化推动下,互联网以多样化方式传播信息资源,语言交流也呈多元发展。据统计,全球有上百种常用交流语言,从中提取有价值信息愈发重要。
术语提取在不同领域中具有重要性,特别在医学领域。它有助于确保准确理解文本内容,避免错误解释和误导。医学研究常涉及复杂的科学概念和术语,因此准确的术语理解是深入探讨和实验设计的关键。此外,专业术语的统一使用促进了国际间的交流,有助于避免由语言差异引起的沟通问题。在医疗实践中,正确理解和使用术语确保医疗团队间传递信息的准确性,从而提高患者护理的质量和安全性。此外,术语提取也在文献检索中发挥作用,帮助研究人员快速找到相关的文献,从而提高研究效率。另外,通过从大量文献中提取术语,还可以支持数据挖掘和新知识的发现,有助于发现新的趋势和关联,从而推动领域内的创新。
2.3. 相关研究综述
专业术语生成技术,对于科技术语整理、审定与专业词典编纂的工作效率和质量有较为重要的意义。专业术语词汇生成技术是语言处理领域的重要研究方向,其发展得益于自然语言处理(NLP)和计算语言学的进步。
国外于二十世纪开始使用统计学的方法进行术语的提取生成,例如[7] Salton, Yang和Yu (1975)通过简单低加权两个相邻的字的方式提取术语。发展到二十一世纪后,[8] Dekang (2001)和[9]刘建舟表示,使用参数MI和LR相结合的方法在中文抽取中取得比较好的效果。
早期的术语提取技术主要依赖于规则和词典匹配方法,随着机器学习配合统计方法的引入,术语提取技术取得了显著进展。[10] Frantzi等人(1999)提出了C-value/NC-value方法,通过结合词频和词汇邻近度来提高术语识别的准确性。近年来,深度学习技术进一步推动了术语提取的发展。[11]陈睿(2019)利用神经网络模型进行术语提取,通过训练大规模语料库来自动识别术语。特别是在医学领域,[12]吴俊等人(2020)提出了基于BERT的术语提取方法,大幅提高了医学术语的识别效果。
3. 术语提取流程
3.1. 术语提取工具
语帆术语宝由一个在线术语管理系统和两个附件组件组成。通过在线管理术语系统可以管理和检索双语术语,及术语对应的翻译解释、来源网站和术语标签;通过附加组件“语帆术语助手”可以在Word中标注文章中出现术语的对应译文,并可在Word中检索在线术语资源;通过附加组件“语帆术语采集器”可以在浏览器中阅读双语新闻或其他双语资源时,将发现的新词添加到在线术语管理系统中进行管理。
AntConc软件的开发者是Laurence Anthony,是日本早稻田大学教授。该软件的核心功能之一在于精确计算观察语料库(observed corpus)中各主题词(key word)相对于参照语料库(reference corpus)的主题显著性(keyness)。AntConc集成了一系列高效工具,涵盖索引、索引定位、文档查看、词丛、N元模型分析、搭配、词汇列表生成及关键词单等功能。
作为一款功能强大的免费开源语料库分析软件,AntConc旨在为语言学家、研究人员和学生提供深入的文本数据分析工具。它具有多项实用功能,可帮助用户探索语料库中的词汇使用、语法结构和文本模式等特征。AntConc可以通过词频统计、关键词分析、词汇分布、词性标注和共现分析等方式,揭示文本的内在特点。此外,该软件支持排序功能,能根据不同标准对词汇进行排序,以便用户识别重要的词汇或短语。AntConc的简单易用性使其适用于多种语言学和文本分析应用,包括语料库语言学、语义分析和翻译研究等领域。通过提供深刻的文本见解,AntConc旨在助力研究人员和学生更好地理解和分析文本数据。
3.2. 术语提取流程
这一部分阐述语帆术语宝与AntConc软件在单语术语提取过程中的主要步骤及关键成果,并通过可视化手段直观展示其核心流程及重要发现。提取流程概述如图1所示:
Figure 1. Flow of term extraction
图1. 术语提取流程
3.2.1. 语帆术语宝
首先,使用Adobe Acrobat 9 Pro软件将PDF格式的医学领域论文:《探讨一种新型Wnt替代蛋白激活脑细胞Wnt信号通路的作用研究》(需要翻译的部分)进行格式转换,将文件保存为TXT格式。接着,打开语帆术语宝界面,选择原文语种为英语,译文语种为中文,上传上一步中的TXT格式文件。下一步是术语宝单语提取功能中最重要的环节。上传完成后,根据界面出现的四个选项:词频设置、术语词长、术语条数以及停用词表,设置筛选条件。停用词表(Stop Words List)定义为一系列在自然语言处理中因缺乏实质性意义或普遍出现而无需保留的字词集合,这些字词在数据预处理阶段被系统自动剔除,旨在优化存储效率并加速搜索过程。设置完上述筛选准则并执行后,系统将自动呈现初步筛选结果,此流程设计直观且易于执行。然而,鉴于当前在线应用的筛选条件设定较为有限,可能导致输出结果未能完全符合预期,故而在某些情况下,仍需人工介入进行二次筛选以优化结果质量。
术语宝的术语提取过程操作简单易上手,且结果较为详细,但一些问题的存在导致其提取结果有一定缺陷。比如图2和图3中,提取结果中的significantly promote; a new strategy; the possible treatment明显不是术语,可是由于该结构出现的频率较高,被作为术语提取出来。经初步分析,在进行术语提取时,该应用的缺点在于仅仅是将词的出现频率作为检索机制。
Figure 2. Extraction results from LingoSail TermBox (1)
图2. 语帆术语宝提取结果展示(1)
Figure 3. Extraction results from LingoSail TermBox (2)
图3. 语帆术语宝提取结果展示(2)
3.2.2. AntConc
AntConc作为一款免费的语料库检索工具,广泛应用于语料库语言学、翻译学及外语教学等领域的科研活动中。其单语提取功能在核心机制上与术语宝较相似,首要步骤均涉及将PDF格式的文档转换为TXT格式,促进后续的数据处理。第二步选中需要处理的文本以及对比的语料库,在这一步中,既可以导入并使用自己创建的语料库,也可以使用AntConc提供的语料库。如果使用AntConc提供的语料库,需要在线更新,并且下载时间比较长,但是相对来说语料库内容和种类都很丰富。接着,返回主界面后单击“Start”,此时提示要想使用关键词单,会先去生成词单,单击“确定”即可。所有的单词默认按照词频来排序,包含序号(Rank)、词频(Freq)、关键性(Keyness)和关键词(Keyword)的统计信息。表格上方还可以看到该语料库自身的类符(Types Before Cut)和关键词单(Types After Cut)的类符数量。关键词单中单词的排序可以按照词频、关键性、关键词词头或词尾排序。选择“Sort by Freq/Keyness/Keyword/ Keyword End”后单击“Sort”即可,还可以勾选“Invert Order”可实现反向排序。
与语帆术语宝有同样问题,虽然提取结果很详细,但是如图4中可见,提取结果中像ng, b, s, using等词明显不是术语,由此该软件进行单语术语提取时仍存在一定的缺陷性。
Figure 4. Extraction results from AntConc
图4. AntConc提取结果展示
3.3. 提取结果对比
根据AntConc提取结果显示,共提取50个单语术语,与语帆术语宝提取结果对比后,发现多了17个。但是相对于术语宝提取结果而言,AntConc提取内容能用的部分较少。在使用该软件进行单语术语提取时,对于关键性(Keyness)的计算原理产生好奇,通过进一步搜索相关教程和知识发现,打开菜单栏“Tool Preferences”中的“Keyword List”,可以看到关键性(Keyness)的评估可采用对数似然比(Log-Likelihood)与卡方检验(Chi-Squared)两种计算方法。具体而言,关键性衡量的是某一词汇在特定文本中的实际出现频率与其在参照语料库(即更大规模的语料库)中预期频率之间的相关性。对数似然比作为真实性指标,其值愈高,则表明该词汇与参照语料库相比的实际出现频率偏离预期愈显著,即相关性愈强。而卡方检验,作为一种广泛应用的假设检验方法,其值增大实际上指示了观测频数与期望频数之间的差异减少,即在该语境下,值大反而意味着与参照语料库的一致性增强,但在此讨论关键性的语境中,我们更关注其作为衡量不相关性的反向指标,即值大时相关性相对较低。此外,阈值(Threshold Value)作为区分显著性与非显著性的临界标准,在关键性计算中扮演重要角色。
术语宝作为一款综合性强、功能完备的在线术语管理工具,其优势显而易见。首要优势在于其全面的术语提取功能体系;第二,尽管术语质量尚有优化空间,但是术语宝能有效减轻工作负担,简化操作流程,直接生成XLSX或TXT格式文件,无缝对接至SDL Multiterm等专业平台;第三,相较于AntConc,尽管后者已具备良好的用户友好性,但术语宝在操作便捷性上更胜一筹,尤其适合非专业人士快速上手使用。
通过对比分析两者的术语提取成效,不难发现术语宝与AntConc在提升术语提取效能上均存在一定的问题,亟需后续优化,但这两款应用各具特色与优势,展现了在术语管理领域的不同侧重点与应用价值。
4. 总结
AntConc作为一款强大的语料库分析工具,可以为使用者提供深入研究文本数据的途径。通过词频统计和关键词分析,能够快速识别出文本中的关键术语和短语,有助于把握文本的主题和重点。同时,在使用AntConc的过程中,也给广大使用者提醒要更加重视术语的统一使用。这不仅有助于提高文本的一致性,还能使得分析更加准确和可靠。其次,在使用语帆术语宝进行术语提取时,其界面简洁易用,操作相对直观。不需要太多复杂的设置,就能快速加载和分析文本数据,这对于初学者来说是一个很大的优势。
通过对语帆术语宝和AntConc的对比分析,发现两种工具各有优缺点。在术语提取过程中,语帆术语宝提供较多术语,但存在冗余,而AntConc提供较为精确的术语,但数量较少。因此,结合两种工具的使用能够提高术语提取的全面性和准确性。未来研究中,可进一步优化术语提取工具的算法,提高其适用性和精确度。同时,建议在术语提取实践中结合多种工具,充分利用各自优点,以达到最佳效果。