1. 引言
随着全球化进程加速与信息技术快速发展,大型语言模型(LLM)应运而生。LLM是一种基于大量文本训练的深度学习模型,能够理解和生成自然语言,完成如语言理解、翻译、文本分类、文本生成及问答等任务[1]。近年来,LLM在人工智能领域发展迅猛:2020年9月,OpenAI授权微软使用GPT-3,成为首家采用该模型的公司,之后谷歌的LaMDA和百度的文心一言相继问世,模型规模从十亿级跃升至万亿级,极大增强了其对语言细微之处的理解能力。Hyland 曾提出,元话语是一种组织话语、表达作者立场并引导读者的语言资源。尽管元话语被广泛应用,但目前研究主要集中在学术领域,如期刊、教科书和学术论文等[2] [3]。虽然元话语研究已在语言学中取得进展,但机器生成文本中元话语标记的使用尚需深入探讨。
在人工智能领域,语言模型如ChatGPT成为了研究焦点。尽管其推出时间不长,但ChatGPT在自然语言处理方面表现得十分优异。虽然其回答不总是完全准确,但通常能较好理解用户意图,在问答、分类、摘要和翻译等任务中具有出色的表现[4]。然而,机器生成文本的元话语标记使用与人工版本会存在差异,可能影响文本的可读性及人机交互的有效性。研究这些差异对提升机器生成文本质量及人机交互效果至关重要。
本研究旨在比较和分析中国学生在英语口语问答中的元话语标记使用与ChatGPT生成回答的异同,以深入理解元话语标记在人机交互中的作用,并为未来人机交互的发展提供理论支持和实践指导。研究问题如下:
1) 学生语料库与ChatGPT语料库在元话语标记的使用上是否存在相似或差异?
2) 学生语料库与ChatGPT语料库在不同类型元话语标记的使用上是否存在相似或差异?
2. 文献综述
2.1. 元话语的定义
元话语的概念最早是由Z. Harris [5]提出的,指代的是话语中附加的重要信息。自该概念提出以来,不同学者对其进行了多种定义。随着Meyer 、Schiffrin 和Williams 的研究,元话语逐渐受到广泛关注。Meyer 提出了类似概念“信号”,用于连接话语结构并传达信息;Schiffrin 将元话语视为组织和评估对话的工具;Williams 则将“元话语”首次应用于写作领域,定义为“关于话语的语言,脱离主题内容”。
早期的元话语研究主要关注其话语组织功能,忽视了其在人际互动中的作用[9]。随着研究深入,元话语的人际功能逐渐引起更多关注。Cristmore [10]指出,元话语帮助读者理解和评价作者的信息,将其分为文本型和人际型,并建议在跨文化研究和写作教学中关注元话语。Hyland和Tse (2004)进一步提出,元话语是一种功能性资源,包含文本和人际功能,体现了作者对内容及受众的态度。通过使用元话语,作者能够将难懂的内容转化为连贯易懂的文本[11]。总体而言,元话语是教师、学习者和分析者用以描述、分析和讨论语言结构和功能的工具[12]。元话语标记的具体分类见表1所示。
Table 1. Hyland and Tse’s metadiscourse markers model
表1. Hyland和Tse的元话语标记模型
Category |
Function |
Examples |
Interactive resources |
Help to guide reader through the text |
|
Transitions |
express semantic relation between main clauses |
in addition/but/thus/and |
Frame markers |
refer to discourse acts, sequences, or text stages |
finally/to conclude/my purpose here is to |
Endophoric markers |
refer to information in other parts of the text |
noted above/see Fig/in section 2 |
Evidentials |
refer to source of information from other texts |
according to X/(Y, 1990)/Z states |
Code glosses |
help readers grasp functions of ideational material |
namely/e.g./such as/in other words |
Interactional resources |
Involve the reader in the argument |
|
Hedges |
withhold writer’s full commitment to proposition |
might/perhaps/possible/about |
Boosters |
emphasize force or writer’s certainty in proposition |
in fact/definitely/it is clear that |
Attitude markers |
express writer’s attitude to proposition |
unfortunately/I agree/surprisingly |
Engagement markers |
explicitly refer to or build relationship with reader |
consider/note that/you can see that |
Self-mentions |
explicit reference to author(s) |
I/we/my/our |
2.2. 人机交互导论
人机交互(Human-Computer Interaction, HCI)作为一门跨学科研究领域,主要探讨人与计算机系统之间的交互设计与优化问题,并研究与这些系统相关的核心现象[13]。该领域从早期的计算机语言命令交互、图形界面交互逐渐发展为如今的自然交互发展阶段。为了方便用户更高效表达意图,并使计算机准确识别,HCI领域日益融合视觉、听觉、触觉等多种交互方式,逐渐成为自然交互的重要路径[14]。近年来,国内学者在HCI领域取得了显著研究成果。在理论层面,何静(2025)提出了“双向建构”理论框架,揭示了智能系统中人机关系的协同本质,为人机交互研究提供了新的认识论基础[15]。在应用研究方面,黄立(2023)针对智能家居领域提出的“参与式设计”框架,强调了用户共创的重要性[16];刘迎新(2023)对混合脑机接口的研究表明,多模态信号融合技术将指令识别准确率提升至89.7% [17];谭征宇(2024)则系统研究了智能网联汽车中的信任校准机制,为解决自动驾驶的信任瓶颈提供了新思路[18]。
现代HCI研究呈现出多模态融合的发展趋势。例如,结合视觉、听觉和触觉等多种感知通道的3D交互方式,被广泛应用于3D游戏和智能家居控制领域;而虚拟现实(VR)和增强现实(AR)技术的突破为人机交互开辟了新的研究方向。医疗领域的术前模拟系统、教育行业的沉浸式学习环境等应用案例表明,这些技术正在改变传统的人机交互模式。然而,尽管国内研究在理论创新和技术应用方面取得进展,但仍存在理论研究与技术实践脱节、特殊群体需求关注不足等问题。未来研究需要进一步解决多模态信息整合、交互延迟等关键技术挑战,同时加强跨学科合作,推动人机交互技术的包容性发展。
3. 理论框架
3.1. 实验设计
本研究结合定性与定量的方法,构建了两个独立语料库。为构建中国学生口语问答语料库,本研究通过半结构化访谈收集了中国学生在特定语境下的英语交流数据。12名来自不同专业的中国学生用英语回答了关于其最喜欢的电影或电视剧的一系列问题。问题设计遵循预定提纲,共包含七个连贯问题,以探讨受访者的兴趣、观点和感受。在访谈过程中,采访者根据受访者的回答灵活调整问题内容,以确保对话自然流畅。访谈内容随后转录为文本,形成包含11,148个形符的语料库,并附有学习者的专业、英语学习年限和性别等信息。
为了与中国学生语料库比较,本研究还构建了由ChatGPT生成的语料库。采用相同提纲向ChatGPT提问,重复12次以获取不同回答。并在互动中给ChatGPT下了指令,让其模拟英语为第二语言的中国学生,以口语化风格回答,避免正式或条目式表达。此方法旨在尽可能模拟真实对话情境,使ChatGPT的回答更具可比性和研究价值。最后,将ChatGPT的回答整理成文本,形成总计10,867个形符的问答语料库。表2展示了各语料库的总词数和平均词数。
Table 2. A lexical comparison between students spoken Q&A corpus and ChatGPT Q&A corpus
表2. 学生口语问答语料库与ChatGPT问答语料库的词汇比较
|
学生口语问答语料库 |
ChatGPT问答语料库 |
文本数量 |
12 |
12 |
总词数 |
11,148 |
10,867 |
类符数 |
1737 |
1712 |
每篇文本的平均词数 |
929 |
906 |
3.2. 数据分析
在完成数据收集后,对两个语料库进行定性与定量分析。首先,依据Hyland 的条目识别元话语标记,重点关注互动标记。本研究使用Maxqda2022手动注释和筛选。例如,依据Hyland ,about被归为模糊语(hedge)。当about表示不确定性时(如学生语料库中的“I actually have watched it about twice or three times in movie theaters”),被视为模糊语;若作为介词使用(如ChatGPT语料库中的“Then there’s how he deals with his past and his guilt about Mal”),则不归类为模糊语。其次,使用Maxqda2022统计两个语料库中互动标记各子类的频率,并用AntConc2014统计总词汇单元,以呈现元话语标记的总体频率和分布。第三,使用IBM SPSS 26进行卡方检验,以确定互动标记及其子类使用频率差异的显著性。最后,探讨这些频率差异的潜在原因。
互动标记的总体频率如图1所示。
为比较两组语料库中互动标记的频率,本研究将采用卡方检验。首先,对互动标记各子类的频率进行标准化处理(原始频率/文本总词数 × 10,000)。处理后结果如表3所示。
随后,使用SPSS对学生口语问答语料库与ChatGPT问答语料库在五个子类别的互动标记方面进行显著性差异测试。经计算,学生口语问答语料库与ChatGPT问答语料库在五类互动标记的使用上差异显著(卡方值 = 39.456,p = 0.000 < 0.005)。在这两个语料库中,学生和ChatGPT均偏好使用自我提及和参与标记,这显示出在口语问答中构建互动性和表达个人观点的需求。在12次访谈中,学生与ChatGPT问答语料库中的互动标记分别为1564和1096,均表明互动标记的广泛使用。然而,ChatGPT语料库中的模糊语和增强语明显少于学生语料库,这表明ChatGPT生成的文本在话语标记使用上与人类有所不同,ChatGPT的主观确定性较低,且更注重文本的整体组织与结构。
Figure 1. Frequency of interaction markers in the two corpora
图1. 两组语料库中互动标记的频率
Table 3. Frequency distribution of interactional markers in students spoken Q&A corpus and ChatGPT Q&A corpus
表3. 学生口语问答语料库与ChatGPT口语问答语料库的互动标记语频率描述
|
学生口语问答语料库中的频率 |
标准频率 |
ChatGPT问答语料库中的频率 |
标准频率 |
模糊语 |
135 |
121 |
90 |
83 |
增强语 |
303 |
272 |
203 |
187 |
态度标记 |
35 |
31 |
27 |
25 |
自我提及 |
527 |
473 |
258 |
237 |
参与标记 |
564 |
506 |
518 |
477 |
总计 |
1564 |
1403 |
1096 |
1009 |
Table 4. Chi-square test results for the interactional markers standard frequency
表4. 交互标记标准频率的卡方检验结果
|
学生口语问答语料库 |
ChatGPT问答语料库 |
卡方值 |
p值 |
交互标记 |
14,029 |
10,085 |
645.067 |
0.000 |
表4展示了交互标记分布的卡方检验结果,学生口语问答语料库的交互标记显著多于ChatGPT问答语料库,标准频率分别为14,029和10,085。这表明学生在对话中使用交互标记引导听众更为显著(卡方值 = 645.067,p = 0.000)。学生口语问答语料库中频繁使用的交互标记反映了口语交流的动态互动性,有助于帮助建立并维持说话者间的关系,促进信息有效传递。相比之下,尽管ChatGPT生成的文本自然流畅,但其在交互标记使用上有所局限,这种结果可能源于其预训练模型的特点和偏正式的文本结构。例如在分析“你认为哪些因素有助于主人公的心理成熟?”时,ChatGPT通常按结构化方式先概述后细化解释,尽管设计上要求其用口语化方式回答,但其回答仍有条目式框架的倾向。而学生对问题的回答则更为灵活多样,这体现了人类即兴对话中的适应性与个体化特点。
根据Hyland [2]的元话语理论,交互标记不仅用于表达词汇关联,还传达说话者的观点和态度。实验中,学生语料库中的交互标记增加,表明学生倾向于表达个人观点和态度,使其回答更具个性化和说服力。访谈中,学生通过使用交互标记来引导注意、强调信息并建立话题连接,以增强话语的连贯性和理解性。而ChatGPT则更倾向于生成符合语法与语义规则的文本,导致其话语结构较为均质。总体而言,学生语料库中丰富的交互标记揭示了口语交流所需的灵活性和流动性,而ChatGPT则更贴近书面语言的规范。下文将比较两个语料库中五类互动标记的标准频率卡方检验结果。
Table 5. Chi-square test results for subcategories of interactional markers
表5. 互动标记子类别的卡方检验结果
|
学生口语问答语料库 |
ChatGPT问答语料库 |
卡方值 |
p值 |
模糊语 |
121 |
83 |
7.078 |
0.008 |
增强语 |
272 |
187 |
15.741 |
0.000 |
态度标记 |
31 |
25 |
0.643 |
0.423 |
自我提及 |
473 |
237 |
78.445 |
0.000 |
参与标记 |
506 |
477 |
0.856 |
0.355 |
表5显示了两个语料库之间的显著差异,其中,参与标记和自我提及的使用频率在两个语料库中分别位居第一和第二。学生口语问答语料库中的自我提及频率显著高于ChatGPT问答语料库(卡方值 = 78.445;p = 0.000),而参与标记和态度标记的频率在两个语料库之间没有显著差异(卡方值 = 0.856;p = 0.355;卡方值 = 0.643;p = 0.423)。此外,学生语料库中的自我提及的使用频率明显多于增强语,而在ChatGPT语料库中,自我提及与增强语的使用频率差异不明显。在自我提及中,单词I的使用频率最高,这是因为该词通常用来指代说话者自身的情况或态度,从而在说话者与听众之间建立亲近感,鼓励听众参与交流,这点在人际沟通中起到至关重要的作用。综上分析,参与标记和自我提及是两个语料库中最常见的交互标记。为更细致地理解这些差异,接下来将进一步探讨这两个子类的特点。
3.2.1. 参与标记
在两个语料库中,参与标记是使用频率最高的交互标记。这些标记使学生能够与采访者进行更自然、流畅的交流,促进双方之间更紧密的联系。表6和表7分别展示了学生口语问答语料库和ChatGPT问答语料库中使用频率最高的三种参与标记。其中,学生口语问答语料库中的前三个参与标记是you (你)、your (你的)和we (我们),而在ChatGPT问答语料库中,前三个参与标记则是you (你)、your (你的)和see (看/明白)。
Table 6. Top three engagement markers in the students spoken Q&A corpus
表6. 学生口语问答语料库中使用频率最高的三种参与标记
|
在ChatGPT问答语料库的频率 |
标准频率 |
you (你) |
251 |
225 |
your (你的) |
44 |
40 |
we (我们) |
30 |
27 |
Table 7. Top three engagement markers in the ChatGPT Q&A corpus
表7. ChatGPT问答语料库中使用频率最高的三种参与标记
|
在ChatGPT问答语料库的频率 |
标准频率 |
you (你) |
231 |
213 |
your (你的) |
42 |
39 |
see (看/明白) |
23 |
22 |
参与标记是通过语言工具明确将读者引入文本的手段,旨在引导其注意力并使其作为 谈话的积极参与者。这些标记具有两个主要功能:一是满足读者的期望,二是实现修辞定位。尽管由于其关系性,参与标记常与态度标记有重叠,但其独特之处在于着重于使读者积极参与谈话[2]。例如,在两个语料库中,参与标记可以引导受访者参与对话,并有助于更清晰地理解信息。以下示例清楚地展示了参与标记的使用。
(1) Interviewee: My favorite movie theory is definitely Harry Potter. You know, the series mainly tells a story of a young wizard named Harry Potter. (Text 8, Students’ Oral Q&A Corpus)
(2) ChatGPT: It’s all about resilience, friendship, and never giving up, you know? (Text1, ChatGPT Q&A Corpus)
如上文所展示的,短语you know是涉及you的最常见搭配,常用于寻求确认或在对话中强调观点。在学生和ChatGPT语料库中,you know的使用情境存在显著差异。学生通常以陈述语气使用you know,用于强调已知的事实或观点,暗示对方理解或认同所传达的信息,从而营造一种共鸣的氛围。有时,学生还将you know作为衔接语,以使对话流畅自然。相对而言,ChatGPT更多使用疑问形式you know?借此寻求听者确认或认同,以确保对方理解或同意。这种使用方式突出其在交流中对确认信息的关注,同时用于强调或澄清倾听方可能未立即明白的内容。
学生和ChatGPT对you know的不同使用反映了各自独特的互动风格:学生偏向陈述形式,更自然地依赖已有的理解,而ChatGPT则使用疑问形式,更注重确认共享理解。这种差异凸显了人类自然对话中的习语使用与AI生成的沟通策略之间的区别。学生在对话中更加自然地使用这些短语,而ChatGPT则通过生成的对话适应不同的沟通需求。
3.2.2. 自我提及
在两个语料库中,出现频率最高的前三个自我提及标记分别是I (我)、me (我)和my (我的),如表8和表9所示。具体来说,在两个语料库中,I是出现最频繁的自我提及标记。然而,在学生口语问答语料库中,my的频率位列第二,其次是me。相反,在ChatGPT问答语料库中,me排名第二,而my则位列第三。
自我指称是指作者在文本中明确出现的现象,通常通过第一人称代词和物主形容词(如I, me, mine, we, our, ours)的频率来衡量。这种做法是自我表达的一种有力手段,反映了作者的立场、身份以及其与论点和读者之间的关系[2]。在两个语料库中,自我指称主要用于传达作者的观点或立场,以下示例句子对此进行了说明。
Table 8. Top three self-mentions markers in the students spoken Q&A corpus
表8. 学生口语问答语料库中前三个自我提及标记
|
在学生口语问答语料库的频率 |
标准频率 |
I (我) |
338 |
303 |
my (我的) |
66 |
59 |
me (我) |
58 |
52 |
Table 9. Top three self-mentions markers in ChatGPT Q&A corpus
表9. ChatGPT问答语料库中前三个自我提及标记
|
在学生口语问答语料库的频率 |
标准频率 |
I (我) |
138 |
127 |
me (我) |
68 |
63 |
my (我的) |
28 |
26 |
(3) Interviewee: I think water wise growth is driven by several factors. (Text 6, Students’ Oral Q&A Corpus)
(4) Interviewee: I think is very closely related to my interest and hobbies. (Text 11, Students’ Oral Q&A Corpus)
(5) Overall, “Interstellar” has sparked my imagination and encouraged me to think beyond the ordinary, to consider the big questions about life, the universe, and everything in between. (Text 5, ChatGPT Q&A Corpus)
在学生口语问答语料库中,与I最常搭配的短语是I think,这表明中国学生倾向于使用I think直接表达个人意见,从而突出他们的主观能动性和自主性。此外,学生经常使用my与相关名词搭配,如my interests and hobbies,以强调个人的所有权或归属感。相比之下,me的使用频率相对较低,通常出现在间接宾语或宾语位置上。这表明学生更专注于表达个人的观点和想法,而不是作为被动的接受者。在ChatGPT问答语料库中,me的使用频率远高于my,这表明ChatGPT通过使用me强调自己作为对话参与者的身份,从而维持互动性。然而,由于ChatGPT不需要像人类那样频繁强调个人所有权或归属关系,因此my的使用频率明显低于me。这种差异揭示了人类与人工智能在语言使用策略上的不同。学生的表达更具个性化,强调个人观点和经验,而ChatGPT则根据其编程需求,使用自我指称来适应不同的对话需求,并保持对话的流畅性。
4. 结论
本研究通过比较中国学生与ChatGPT在回答他们最喜欢的电影或电视剧时互动标记的使用,深入探讨了人机交互中互动标记的特征及其影响。通过对两个自建语料库的分析发现,互动标记在交流中的使用频率显著高于ChatGPT的模拟回答。这一发现不仅突显了人类口语的复杂性和丰富性,也揭示了当前人工智能在模仿人类语言交流中的不足之处。首先,自我提及和参与标记在两个语料库中均排名最高,反映了说话者的自我意识及对听众的关注。尽管ChatGPT在模拟人类交流方面有所进步,但是其互动标记的使用仍呈现出结构化的特征,缺乏了人类对话的自然性和多样性。这种差异可能源于ChatGPT在生成自然语言时更依赖现有模板,限制了其灵活性和准确性。此外,尽管ChatGPT在口语化表达上有所优化,但仍表现出机械和刻板性,这种现象与其训练数据及算法偏向结构化书面语言有关。本研究的结果与Hyland (2005)提出的元话语人际功能理论具有显著的理论一致性。数据分析表明,学生受试者在口语交流中频繁使用自我提及标记(如“I think”)和参与标记(如“you know”),这种语言特征有效构建了对话者的身份认同并促进了即时互动。相比之下,ChatGPT生成的回应呈现出明显的标准化特征,这种模式反映出当前人工智能系统在本质上缺乏真实的自我意识,其语言生成主要依赖于预训练过程中习得的结构化文本范式。
值得注意的是,本研究的发现与何静(2025)提出的“双向建构”理论形成了有趣的对比。研究数据显示,人类对话中的元话语使用呈现出典型的动态协商特征,而AI系统的元话语模式则更倾向于单向度的信息传递,这一差异可能源于两者完全不同的认知基础和交互机制。在研究局限性方面,需要特别指出以下几点:首先,受试者作为英语学习者,其元话语使用可能受到母语迁移效应的影响,例如高频使用“I think”可能部分源于中文表达习惯“我觉得”的迁移作用,这一因素需要通过跨语言比较研究进一步验证。其次,ChatGPT表现出的“低模糊语”特征,可能与其训练数据中规避主观判断的倾向相关,这一发现提示后续研究需要针对不同AI模型的语言生成策略进行系统比较。从应用层面来看,本研究结果对AI系统的开发具有重要启示。为了提高人机交互的自然度,可以考虑在AI语言模型中适当增加对话性元话语标记的使用。然而,这一改进需要谨慎权衡,因为过度拟人化可能引发用户对AI系统的能力产生不切实际的预期,进而带来潜在的伦理风险。这些发现能为未来人机交互研究提供重要的理论参考和实践指导。
总体而言,互动标记在促进人际交流中至关重要,恰当的使用有助于使表达更具清晰度和互动性。虽然ChatGPT在模拟人类口语交流方面取得了重大进展,但其与人类的使用模式仍有显著差距,这表明了AI技术在此领域仍存在局限。在未来,提升AI在口语交流中的表现需进一步优化算法和训练数据,使其更适应复杂人类交流场景。今后的研究应深入探讨不同话语标记在人机互动中的作用,并优先关注AI在社会中的伦理影响,以确保其积极作用。本研究的局限在于,尽管采用了定性与定量分析,但访谈样本量较小,或无法全面代表中国学生群体;而ChatGPT的回答因版本或指令差异可能存在偏差。未来研究将扩大样本规模以提高代表性,并探索多样化的人机互动场景和话语标记类型,以拓展研究的广度与深度。