基于语料库的人机翻译对比研究——以经济类新闻为例
A Corpus-Based Comparative Study of Human and Machine Translation in Economic News
摘要: 随着全球经济一体化与人工智能技术的发展,ChatGPT等机器翻译在经济新闻翻译中提效显著,但仍面临专业术语、文化背景及语义差异的挑战。本研究以2023年5月至2024年5月间《中国日报》的双语经济新闻为例,运用语料库手段与案例分析的方法,聚焦于人工翻译与ChatGPT机器翻译在词汇多样性方面的表现,旨在揭示两者在经济新闻翻译中的差异。研究发现,尽管ChatGPT能实现基础性的语言转换,但人工翻译在保持原文语义精准性的同时,展现出更高的词汇多样性和文化适应性,尤其在处理复杂专业术语和特定语境时表现更优。本研究不仅深化了对经济新闻翻译中人工与机器翻译差异的理解,推动人机翻译的协同发展,同时为翻译研究提供新的语料库应用视角。
Abstract: With the development of global economic integration and artificial intelligence technology, machine translation tools such as ChatGPT have made significant improvements in economic news translation, but it still confronts challenges due to differences in professional terminology, cultural backgrounds and semantics. Taking the bilingual economic news published in China Daily from May 2023 to May 2024 as an example, this study employs corpus-based and case analysis methods to focus on the performance of human translation and ChatGPT machine translation in terms of lexical diversity, aiming to reveal the differences between the two in economic news translation. The study found that although ChatGPT can achieve basic language transformation, human translation shows higher lexical diversity and cultural adaptability while maintaining the semantic accuracy of the original text, especially when dealing with complex professional terms and specific contexts. This study not only deepens the understanding of the differences between human and machine translation in economic news translation, promotes the collaborative development of human-machine translation, and provides a new perspective for corpus application in translation research.
文章引用:高姗姗. 基于语料库的人机翻译对比研究——以经济类新闻为例[J]. 现代语言学, 2025, 13(4): 709-717. https://doi.org/10.12677/ml.2025.134403

1. 引言

在全球化和信息技术快速发展的背景下,跨语言沟通愈发重要。经济类新闻作为传递全球经济信息的重要载体,其翻译质量直接影响信息的准确传达。随着人工智能技术的兴起,尤其是深度学习机器翻译系统(如ChatGPT)的出现,跨语言信息处理迎来变革[1]。然而,由于经济类新闻包含复杂专业术语、独特语境及敏感信息[2],机器翻译在这一领域仍面临挑战,特别是词汇多样性和翻译准确性的保持方面。

新闻翻译作为全球化信息时代的关键环节,其研究历程丰富多彩。早期研究从不同理论视角为新闻翻译提供了新的思路。陈晓莉、文军(2011)引入模因论解析新闻标题翻译[3],刘立(2012)从跨文化交际和传播学视角剖析其标准、原则和策略[4],王维平(2012)等探讨经济新闻翻译中“准确”与“自然”的平衡,为翻译实践提供指导[5]。随着研究的深入,研究方法和技术手段日趋多样化。冯全功(2016)研究译后编辑[6],王伟(2017)利用语料库进行长句翻译研究[7],都丰富了研究方法,提升了实践水平。魏丽英(2017)分析翻译中的语法问题[8],以及郭晓丽(2019)强调新闻翻译在全球化信息传播中的价值[9],进一步拓宽了研究视野。朱一凡(2019)揭示了翻译汉语与原创汉语在使用差异,为新闻翻译规范化提供了数据支持[10]。近年来,人工智能技术的发展使人机翻译对比研究成为热点。李奉栖(2022)采用错误记分法对比两者翻译的质量[11],梁君英(2023)基于语料库分析两者的差异[12]。这些研究揭示了机器翻译的潜力和局限,为人机协同发展提供了新思路。然而针对经济类新闻翻译的研究仍显不足,尤其缺乏对词汇多样性这一关键指标的细致量化分析。

鉴于此,本研究旨在通过基于语料库的定量分析与案例分析,探讨人工翻译与ChatGPT机器翻译在经济类新闻翻译中词汇多样性方面的具体差异。研究问题如下:在经济类新闻文本翻译中,人工翻译与机器翻译在词汇多样性方面存在哪些差异?这些差异如何影响文本进行准确且专业的翻译和对原文信息的理解深度?通过对比分析两者在词汇选择、使用频率等方面的不同,探讨在高度专业化和精确要求的经济新闻翻译中,人工翻译的优势与不足,以及未来如何结合两者优势提升翻译质量,促进新闻翻译实践的优化与发展。

2. 研究设计

本研究旨在对比人工翻译与ChatGPT机器翻译在经济类新闻领域的词汇多样性表现及其质量差异。为此,自建英汉翻译平行语料库,从中提取具有代表性的数据样本。

(一) 研究语料

本研究语料库来源于2023年5月至2024年5月期间《中国日报》发布的双语经济类新闻。选择《中国日报》作为数据源,是因为其经济新闻报道内容丰富、覆盖面广,且能深刻反映中国在全球经济中的地位和影响。

本语料库包含英文原文、人工翻译和机器翻译三个子语料库,每个句对内部存在明确的对应关系[13],以全面反映人机翻译在经济类新闻领域的实际情况。在构建过程中,特别注重数据的清洗和预处理工作,通过严格的筛选和校对,保留了242篇具有代表性的新闻文本,其中人工和机器翻译译文各占一半。语料库的基本统计信息见表1

Table 1. Basic corpus statistics

1. 语料库的基本统计信息

分析语料

文本数量

形符总数

人工译文

121

30,538

机器译文

121

31,330

总计

242

61,868

(二) 研究方法

首先确保平行语料库的一致性与准确性,包含同一新闻内容的人工与机器翻译版本。其次,利用WordSmith和AntConc等工具进行量化分析,关注词汇选择、使用频率及多样性等指标,如词频表、词汇类型总数、词汇量/总词数比和独特词汇比。最后,通过案例分析,对比两者在词汇选择、专业术语运用及语境适应等方面的表现,探讨翻译质量差异。

3. 分析与讨论

本节将通过具体的数据指标、翻译实例以及词汇频率的详细对比,来深入地探讨人工翻译和机器翻译在词汇选择、丰富度、稀有度以及词汇多样性方面的具体表现。

(一) 数据指标

本研究对WordSmith提供的指标进行统计,这些指标涉及基础计数指标和词汇指标等层面,结果见表2

Table 2. Comparative analysis of human-machine translation metrics

2. 人工翻译和机器翻译译文的指标对比

指标类型

指标名称

人工译文

机器译文

基础

计数指标

平均词数

3.50

3.54

平均句长

10

11

词汇指标

形符/类符比

34.74%

34.54%

通过数据指标的对比分析,我们得出以下结论。

在平均词数方面,人工翻译的平均词数略低于机器翻译,这一微小差异表明机翻在处理文本时倾向于生成更多词汇,引入冗余或不必要的表达。在平均句长方面,机翻长于人工翻译,显示其更倾向于生成较长句子,这可能增加读者理解难度。形符/类符比指标是衡量文本中词汇多样性和丰富度的重要指标,这显示两者在词汇丰富度和多样性方面无显著差异。然而,为了更深入地探讨这一结论,接下来将通过具体的翻译实例进行详细分析。

(1) 原文:Jack Chan, EY China chairman, said that China is an important engine for global economic growth for all sorts of businesses, and China’s continued efforts to open up will provide more motivation for investors to tap into this massive market. We believe that the foreign investment performance in China this year will maintain a high-quality development trend, Chan said.

HT:安永中国主席陈凯表示,中国是全球经济增长的重要引擎,中国坚持对外开放将为全球投资者开拓这一巨大市场提供更多动力。他认为,今年中国外商投资将保持高质量发展态势。

MT:安永中国主席陈杰表示,中国对各种业务的全球经济增长都是一个重要引擎,中国持续的开放努力将为投资者开拓这一巨大市场提供更多的动力。陈说:我们相信,今年在中国的外商投资表现将保持高质量发展的趋势。

根据例1发现,人工译文精准地传达了原文的核心信息,包括中国作为全球经济增长的重要引擎、中国坚持对外开放的立场以及对外商投资高质量发展的预期。译文表达流畅,没有出现生硬或不通顺的表述。在词汇选择和句子结构上,人工翻译更加贴切和地道,例如,“重要引擎”这一表述既准确又形象,符合中文表达习惯。同时,“坚持对外开放”也准确地传达了原文中的“continued efforts to open up”这一含义,完美适应了中文语境,没有出现因文化差异而导致的误解或歧义。

机器译文基本准确地传达了原文的主要信息,但在个别表述上存在偏差。例如,“中国对各种业务的全球经济增长都是一个重要引擎”这一表述略显生硬,且“各种业务”的表述在原文中并未明确提及,可能是机器翻译时的误解。机器译文在流畅性方面稍显不足。例如,“陈说:我们相信”这一表述略显突兀,可以改为“陈表示,他相信”或“陈认为”等更自然的表述方式。机器译文在词汇选择上虽然基本准确,但个别词汇的选择不够贴切。例如,“陈杰”这一名字可能是机器翻译时的错误,因为原文中明确提到的是“Jack Chan”,且后文也提到了“安永中国主席”,因此应翻译为“陈凯”。相对于人工翻译,机器翻译在语境适应方面存在问题。例如,“今年在中国的外商投资表现将保持高质量发展的趋势”这一表述虽然基本正确,但“表现”一词会给读者留下过于宽泛或模糊的印象,不如“外商投资将保持高质量发展态势”这一表述更加具体和明确。

综上所述,人工译文在准确性、流畅度、词汇选择和语境适应方面都优于机器译文。人工翻译能够更准确地传达原文的含义,同时保持译文的流畅和地道。机器翻译虽在一定程度上完成翻译任务,但在个别表述和词汇选择上仍存在不足。因此,在需要高质量翻译的场景下,人工翻译仍然是不可或缺的选择。

(二) 词汇多样性分析

本研究采用AntConc对文本进行分析,两者译本基本信息见表3

Table 3. Token counts and lexical diversity in translations

3. 人工翻译和机器翻译总词数和不同词汇种类数

文本

总词数

不同词汇种类数

人工译文

30,538

10,609

机器译文

31,330

10,822

表3可知,机翻总词数略高于人工翻译,表明其倾向于生成更详细描述或添加解释性词语,但这并不代表翻译质量的提升。虽机翻使用的词汇种类略多,但这并不意味着其词汇选择更准确。相反,这反映了机翻在处理复杂语境时的一种倾向:通过多种词汇尝试匹配原文含义,可能导致词汇使用不准确或不一致[14]

(2) 原文:Should economic growth take priority, relegating poverty reduction policies when a high level of per capita income becomes a reality? Is there a causality relationship between economic growth and poverty reduction? If so, does economic growth per se lead to poverty reduction, rendering the correct trickle-down approach? If poverty reduction is given priority, will that help or hinder economic growth?

HT:在实现人均收入达到高水平之后,是否应该把经济增长的优先级放在减贫政策之前?经济增长和减贫之间是否存在因果关系?如果是这样,通过经济增长是否就能消除贫困,形成涓滴效应?如果把减贫摆在优先位置,是否会帮助还是会阻碍经济增长?

MT:经济增长和减贫政策之间的关系取决于多种因素,包括政府的政策选择、社会结构、制度环境等。一些观点认为,经济增长可以促进减贫,因为它可以创造就业机会、提高人们的收入水平,并为政府提供更多资源来投资于社会福利和减贫项目。但是,经济增长并不总是能够确保减贫,尤其是在贫富分化加剧、社会资源分配不均等情况下。有些人认为,如果贫困问题得不到及时解决,可能会导致社会不稳定和政治动荡,从而对经济增长产生负面影响。

表3可知,在总词数上,机器翻译略多于人工翻译,但从不同词汇种类数来看,两者相差不大。根据例2我们可以看出人工翻译的总词数为110字,虽相对较少,但每个词汇的选择都经过考量,以确保译文的准确和流畅。在词汇种类上,人工翻译更多样,更能准确地传达原文中的各个问题和逻辑关系。例如,“是否应该把经济增长的优先级放在减贫政策之前”这一表述,既符合原意,又符合中文表达习惯。同时,还保留了原文的疑问语气,使读者清晰地理解原文意图。

而机器翻译的总词数119字相对较多,在词汇种类上,机器翻译并没有展现出与人工翻译相当的多样性。相反,机器翻译在翻译过程中出现了词汇的重复和单调,尤其是在描述经济增长和减贫之间的关系时。机器翻译在传达原意方面存在问题。例如,原文中“是否应该把经济增长的优先级放在减贫政策之前”这一问题,在机器翻译中被扩展为“经济增长和减贫政策之间的关系取决于多种因素”,这并没有直接回答原文的问题。此外,机器翻译还引入了部分原文中并未提及的词汇和概念,如“政策选择”、“社会结构”和“制度环境”等,这些词汇虽与经济增长和减贫有关,并未在原文中出现,会使读者感到困惑。机器翻译的译文在流畅度方面也存在一些问题。部分句子间的逻辑关系不清晰,使读者难以理解整个段落的意思。此外,机器翻译还出现一些语法错误和不通顺的表述,影响译文的阅读体验。

综上所述,人工翻译在总词数控制、词汇多样性、准确性和流畅度方面都优于机器翻译。这进一步证明人工翻译在处理复杂问题和逻辑关系时的优势,以及机器翻译在这些方面的局限性[15]

人工翻译词汇频率和机器翻译词汇频率详细信息分别见表4表5

Table 4. Lexical frequency distribution in human translations

4. 人工翻译词汇频率

Type

Rank

Freq

Range

1

136

75

2

61

34

同比增长

3

56

31

4

38

26

他说

5

37

20

万亿元

6

24

18

月份

7

22

8

百分点

8

21

14

他表示

9

21

17

与此同时

10

20

19

亿元

11

19

13

12

19

3

报告称

13

15

9

此外

14

15

15

亿美元

15

14

9

表4所示,人工翻译在经济类新闻中高频使用“月”、“年”、“同比增长”等时间和比较词汇,有效描述了经济数据和时间变化。同时,准确运用“万亿元”、“百分点”等经济领域专业术语,体现了翻译的专业化水平,确保了信息的准确传达。在语言表达层面,人工翻译通过采用“他说”、“报告称”等表述方式,展现了引用信息源时的严谨;并巧妙运用“与此同时”等连接词,体现了人工翻译在构建句子逻辑和段落连贯方面的细致考虑。

Table 5. Lexical frequency distribution in machine translations

5. 机器翻译词汇频率

Type

Rank

Freq

Range

1

47

34

2

46

27

他说

3

41

24

亿美元

4

34

27

同比增长

5

30

18

万亿元

6

27

17

他表示

7

24

20

月至

8

23

16

与此同时

9

22

19

百分点

10

21

14

达到

11

19

15

12

17

3

万亿美元

13

15

13

他补充说

14

15

14

此外

15

15

13

根据表5,机翻在经济新闻处理中有效把握了“年”、“月”等基础词汇,其使用频率和排序与人工翻译略有差异。虽然机翻也呈现了“同比增长”等专业术语,但频率和排序的差异反映了其自动化倾向。机翻倾向于采用简洁的语言风格,如“他表示”、“达到”等简单结构和常见表达,这源于算法对语言简洁易读的追求。

(3) 原文:China’s fundamentals, including its super large market scale, complete industrial supporting facilities and an upward economic trend, will not change, and such comprehensive strengths are still prominent, Wang, who gave a speech at the Invest in China Year summit and Shanghai city promotion event in Shanghai, said.

HT:王文涛在投资中国年高峰会议暨上海城市推介活动上致辞时说:中国拥有超大规模市场、完备产业配套、经济向好的基本面不会改变,综合优势依然突出。

MT:中国的基本面,包括其超大规模的市场、完善的产业配套设施和向上的经济趋势,将不会改变,这些综合实力仍然突出,王在上海举行的投资中国年峰会和上海城市推介活动上发表讲话。

根据例3可以看出,人工翻译使用了具有经济背景的专业术语和词汇,如“投资中国年高峰会议”、“上海城市推介活动”、“经济向好的基本面”等。这些术语和词汇在经济类新闻报道中常见,丰富了表达的层次和专业性,能够更准确地传达原文的经济背景和内容。尽管机器翻译使用了部分专业术语,但相较于人工翻译,其表达更加通用,如人名等专有名称未补充完整,且缺乏一些深入的专业背景知识和特定行业术语的运用,句子表达的逻辑顺序也与人工翻译不同。在例3中,人工翻译能够更准确地传达原文的专业内容和语义层次。机器翻译虽能传达基本经济信息,但相对于人工译本,其使用的词汇和表达方式更普遍,专业术语的精确性和深度以及句子表达的优先顺序不及人工翻译。

由此可见,在词汇选择方面,人工翻译表现出了更高的细致度和对文本语境的适应。相较之下,机器翻译则更多地依赖于预训练模型和语料库,其在词汇的选用上相较于人工翻译,缺乏应有的专业水准。在词汇的频率和使用模式上,尽管人工翻译和机器翻译都使用了相似的词汇库,但两者在具体的词汇使用频率和模式上存在差异。这反映了机器翻译术语选择的自动化特性,其翻译结果更倾向于使用特定的词汇组合和表达方式。

Table 6. Lexical sophistication and rarity indices in translations

6. 人工翻译和机器翻译的词汇丰富度和稀有度指标

指标类型

人工译文

机器译文

词汇类型总数

10,609

10,822

词汇量/总词数比

0.347

0.345

独特词汇比

8.7%

8.9%

稀有词汇比例

12.3%

13.1%

表6可以看出,人工翻译和机器翻译在词汇丰富度和稀有度方面存在差异。虽然两者的词汇类型总数相近,但机器翻译在稀有词汇比例和独特词汇比上略高,那么,机器翻译输出的独特性词汇是否更多?详细分析见例4。

(4) 原文:The document also emphasizes preventing rural residents from slipping back into poverty.

HT:该文件还强调,要防止农民返贫。

MT:文件还强调防止农村居民再次陷入贫困。

从例4可以看出,在词汇类型总数方面,人工翻译和机器翻译均使用相对简洁的词汇表达。但从独特性角度来看,人工翻译中的“农民”一词在中文语境中具有特定的含义和指向。它直接指向从事农业生产的农村居民,这一词汇的选择使译文更加具有针对性和独特性。相比之下,机器翻译中的“农村居民”虽然也表达了原文意思,但在独特性方面略显不足。在这个例子中,人工翻译和机器翻译都没有使用过于稀有或复杂的词汇。然而,如果我们将“农民”视为一个在中国语境下具有特定含义的稀有词汇(这里的“稀有”并非指词汇本身的使用频率低,而是指其在中国社会和文化中的特殊地位和意义),那么人工翻译在稀有词汇比例上则略胜一筹。因为“农民”一词不仅准确地传达了原文的意思,还融入了中文特有的社会和文化背景。人工翻译中“返贫”是一个在扶贫和减贫语境下常见词汇,准确地描述了农村居民在脱贫后由于各种原因再次陷入贫困状态的现象。这一词汇的选择不仅体现了人工翻译对原文意思的准确理解,还融入了中文特有的社会和文化背景,使译文更地道且易于理解。同时,这一词汇还体现了人工翻译对扶贫和减贫工作的深入了解和关注。机器翻译中“再次陷入贫困”虽然也表达了原文意思,但在中文语境下稍显冗长,不够精炼。与“返贫”相比,这一表述缺乏一定的独特性。虽然“再次陷入贫困”在语义上没有问题,但在语境融合方面不如“返贫”自然和流畅。

人工翻译在语言表达的丰富度上具有显著优势,通过精准选用专业术语和多样化表达方式,不仅深化了读者对原文专业背景的理解,还拓展了文本的理解维度。机器翻译词汇选择单一,表达直白,难以匹敌人工翻译的专业性和精确度,尤其在处理复杂专业性主题时,难以捕捉原文深层含义,影响全面理解[16]。在经济类新闻文本中,人工翻译的词汇多样性优势更为突出,既丰富了语言风格,又确保了信息准确传达和深度理解。因此,专业翻译推荐采用人工翻译或人机协同方式,以提升新闻报道的准确性。

4. 结论

本研究聚焦于经济类新闻翻译,对人工翻译与机器翻译在词汇多样性方面的表现进行了深入对比。研究结果显示,人工翻译在处理经济术语和特定表达时具有显著优势,能够依据语境灵活地选择恰当的词汇,既确保信息的准确传达,又兼顾文化适应性。相比之下,机器翻译在词汇选择上相对固定和单一,导致译文出现重复;同时,机器翻译在处理专业术语和特定语境方面,其表现也不如人工翻译。

为优化机器翻译系统在经济新闻翻译中的表现,本研究提出以下建议:首先,加强机器翻译对经济新闻中专业术语的识别能力,建立并完善术语翻译库,以提高翻译的专业水平和准确性;其次,提升机器翻译系统在处理文化特定表达和习惯用语方面的能力,确保译文符合目标文化的习惯,且语言风格贴切恰当;最后,持续整合最新的人工智能技术和深度学习模型,通过模型更新和训练,提高机器翻译系统在语言处理和翻译质量方面的表现[17]

然而,本研究也存在一定的局限性。语料库规模有限,语料主要来源于中国日报的双语经济类新闻,这对研究结果产生一定的影响。机器翻译系统的选择以ChatGPT为代表,其翻译能力受到训练数据和模型结构的固有影响,因此对其他机器翻译系统的适用性存在差异[18]。研究时间范围限定在2023年5月至2024年5月之间,这一时间段无法全面反映长期或季节性变化对翻译质量的影响。

综上所述,本研究揭示了机器翻译在经济类新闻翻译中的特点和局限性,并展望未来研究方向。为提升研究结果的代表性,应扩展数据源和语料库,纳入更加多样的经济类新闻。同时,需深入探索人工智能与人工翻译的协同工作模式,结合两者优势以实现更优翻译。此外,持续关注机器翻译技术最新进展,不断优化研究方法,对提高机器翻译在专业领域的实用性和效果至关重要。未来研究应致力于克服现有局限性,推动机器翻译技术在专业翻译领域的更广泛应用与发展。

参考文献

[1] 朱光辉, 王喜文. ChatGPT的运行模式、关键技术及未来图景[J]. 新疆师范大学学报(哲学社会科学版), 2023, 44(4): 113-122.
[2] 孙毅, 孟林林. 认知术语学视角下的外交部网站新闻术语翻译[J]. 上海翻译, 2018(4): 30-38.
[3] 陈晓莉, 文军. 英语新闻标题翻译中的模因现象[J]. 上海翻译, 2011(2): 51-55.
[4] 刘立. 跨文化视角的新闻翻译的标准和策略——以《今日中国》 (2011)的英译为例[J]. 新闻界, 2012(13): 19-21, 80.
[5] 王维平. 对等理论指导下的英语经济新闻文体的难句翻译——以《经济学人》和《商业周刊》上的两篇特别报道为例[J]. 中国外语, 2012, 9(6): 77-80.
[6] 冯全功, 李嘉伟. 新闻翻译的译后编辑模式研究[J]. 外语电化教学, 2016(6): 74-79.
[7] 王伟. 基于语料库的新闻英语长句翻译研究[J]. 解放军外国语学院学报, 2017, 40(2): 18-23, 50.
[8] 魏丽英. 英语新闻翻译的常见问题研究——评《英语新闻翻译的常见错误辨析》 [J]. 新闻与写作, 2017(9): 119.
[9] 郭晓丽. 英语新闻的特点与翻译——评《英语新闻的语言特点与翻译》 [J]. 新闻与写作, 2019(9): 117.
[10] 朱一凡, 李鑫. 对翻译汉语语言特征的量化分析——基于翻译与原创汉语新闻语料库的对比研究[J]. 中国外语, 2019, 16(2): 81-90.
[11] 李奉栖. 人工智能时代人机英汉翻译质量对比研究[J]. 外语界, 2022(4): 72-79.
[12] 梁君英, 刘益光. 人类智能的翻译能力优势——基于语料库的人机翻译对比研究[J]. 外语与外语教学, 2023(3): 74-84, 147-148.
[13] 于蕾. ChatGPT翻译的词汇多样性和句法复杂度研究[J]. 外语教学与研究, 2024, 56(2): 297-307, 321.
[14] 王贇, 张政. ChatGPT人工智能翻译的隐忧与纾解[J]. 中国翻译, 2024, 45(2): 95-102.
[15] 赵丹丹. 新媒体语境下经济新闻传播效果的优化策略[J]. 山西财经大学学报, 2024, 46(S1): 178-180.
[16] 王华树, 王鑫. 人工智能时代的翻译技术研究: 应用场景、现存问题与趋势展望[J]. 外国语文, 2021, 37(1): 9-17.
[17] 王均松, 肖维青, 崔启亮. 人工智能时代技术驱动的翻译模式: 嬗变、动因及启示[J]. 上海翻译, 2023(4): 14-19.
[18] 黄水清, 王东波. 国内语料库研究综述[J]. 信息资源管理学报, 2021, 11(3): 4-17, 87.