眼动技术与抑郁识别关系的研究综述
A Review of the Relationship between Eye Movement Technology and Depression Recognition
DOI: 10.12677/hjbm.2025.154080, PDF, HTML, XML,    科研立项经费支持
作者: 汪文馨:国防科技大学军政基础教育学院,湖南 长沙;曾若琬:湖南师范大学教育科学学院,湖南 长沙
关键词: 抑郁识别眼动跟踪技术眼动分析研究综述Depression Recognition Eye-Tracking Technology Eye Movement Analysis Research Review
摘要: 抑郁已经成为危害健康的第二大疾病,但是抑郁的识别和诊断仍缺乏客观明确的生物学指标。眼动技术通过客观的生物学指标揭示信息处理过程,成为抑郁识别的新趋势。本文详细介绍了眼动跟踪技术的基本概念、原理及主要指标,介绍了眼动技术及眼动技术和表情数据、脑电信号等结合的方式在抑郁识别中取得的研究进展。
Abstract: Depression has become the second most harmful disease to human health, yet its recognition and diagnosis still lack objective and clear biological indicators. Eye movement technology, which reveals information processing processes through objective biological indicators, has emerged as a new trend in depression recognition. This paper systematically introduces the basic concepts, principles, and key indicators of eye-tracking technology. It also reviews the research progress of eye movement technology alone and its combination with expression data, electroencephalogram (EEG) signals, and other modalities in the field of depression recognition.
文章引用:汪文馨, 曾若琬. 眼动技术与抑郁识别关系的研究综述[J]. 生物医学, 2025, 15(4): 737-743. https://doi.org/10.12677/hjbm.2025.154080

1. 引言

世界卫生组织(WHO)数据显示,全球患有抑郁症患者约2.8亿,并预计到2030年会成为全球负担第一大的疾病。由于抑郁障碍高危人群在外界不良刺激下更易出现亚临床抑郁状态甚至进展为抑郁障碍,因此,开展抑郁的早期筛查与识别具有重要的临床和公共卫生意义。目前对抑郁的筛查主要依赖自陈量表和医生诊断,这两种方法都存在一些明显的缺陷,自陈量表容易受到患者本身“装好”与“诈病”的影响,也会因不同人对条目理解的差异而产生结果的偏差,医生诊断容易受到医生主观因素的影响,因此抑郁的识别缺乏更为客观准确的识别方式。近年来,眼动跟踪技术因其非侵入性、高时间分辨率和对认知功能的直接反映特性,逐渐成为抑郁识别领域的研究热点。本文将介绍眼动跟踪技术的原理与其在抑郁识别领域的应用。

2. 眼动跟踪技术

2.1. 眼动的基本概念

眼动是指人的眼睛在接收到外界刺激后进行观察活动中的运动,主要有三种形式:注视(fixations),跳动(saccades)和平滑追随(smooth pursuit) [1]。注视是指眼睛停留在一个特定的目标上,持续100毫秒以上,是得到信息的主要方式;跳动是指注视点在短时间内快速移动到新的视觉目标位置的运动,由于运动时间过快,几乎不获得信息;平滑追随是指眼睛随着移动的目标而持续移动,目标移动速度一般在1~30˚/s之间,若缺乏缓慢移动目标,平滑追随一般无法进行。

2.2. 眼动跟踪技术及其原理

眼动跟踪技术是利用光学、电子等技术手段,采集和分析眼睛运动轨迹和注视点的方法。常见的眼动跟踪技术包括:接触目镜法、搜索线圈法、角膜反射法、红外光电反射法、瞳孔角膜反射法、眼动图法、双普金野象法等。

2.2.1. 接触式眼动跟踪技术

1) 接触目镜法:该方法通过在角膜或虹膜表面固定反射镜,利用反射镜对光线的反射特性,精确测量反射光线位置,进而确定眼球位置与运动轨迹。优势在于测量原理相对简单,易于实现,且能达到较高测量精度。然而,由于该方法违背人体正常用眼习惯,在数据采集过程中极易引发参与者的不适感,限制了其在长时间、大规模实验中的应用。

2) 搜索线圈法:参与者佩戴周边镶有线圈的隐形眼镜式设备,在参与者头部周围放置线圈阵列,当眼球运动时,眼球内的线圈会因切割磁力线而产生不同电信号,通过对这些信号变化的精确分析,即可实现对眼球位置与运动轨迹的精准检测。这种方法在保留了高准确度、高精度的特点的同时,具备较高的舒适度,但需要在实验过程中保持参与者头部的相对稳定。

2.2.2. 非接触式眼动跟踪技术

1) 角膜反射法:该方法利用眼球表面的角膜反射点来确定眼球的位置和运动,通常使用光源照射到眼球上,形成一个或多个反射点。通过分析这些反射点的位置关系,能够推断眼球的运动轨迹。此方法主要聚焦于角膜反射点,不涉及瞳孔位置与运动信息,具有较高精度,能获取较为可靠的数据,但是需要参与者头部保持静止。

2) 红外光电反射法:该方法运用红外光照射参与者眼部,并在眼球周围布置红外光敏管,用于接收虹膜与巩膜边缘处的反射光。当眼球运动时,反射光信号会随之改变,通过分析光线信号差,可实时监测眼球运动方向。这种方法的优点是可以实时监测眼球的运动,但是受到环境光的干扰和个体差异影响较大。

3) 瞳孔角膜反射法:它使用红外光源照射参与者的瞳孔,通过红外传感器测量反射光的位置和强度变化,利用亮瞳孔和暗瞳孔原理,以角膜反射点的位置作为基点,分析瞳孔中心位置及变化,确定注视点位置与视线运动轨迹。这种方法广泛用于商用眼动仪,优点是易于使用和较低的成本,但对于较小的眼动范围可能存在一定的精度限制。

4) 眼动图法:眼球的视网膜和角膜代谢速度不同,会产生电势差,当参与者眼球运动时,眼睛周围皮肤上的电极将会捕捉到电势的变化并通过计算转换为眼球运动的位置信息。该方法避免了头部和眼球的移动对实验结果的影响,参与者可以在自然状态下进行实验,无需改变头部或眼睛的位置,但是信号的转换较为复杂,电势差也存在个体的差异。

5) 双普金野象法:普金野反射是由于眼球的各个结构的光学性质差异,反射出的具有不同光学性质和空间关系的图像。第一普金野反射是角膜前表面反射出的光,第四普金野反射则来源于晶状体后表面。两个光电感应器分别接收第一和第四普金野反射图像,并将光信号转化为电信号,当参与者的眼球转动,电信号也随之变化。该方法的优点是精确度和准确度都非常出色,能够跟踪到微眼跳这种极细微的眼动行为,但是双普金野眼动仪对于头动十分敏感,也会受到参与者瞳孔大小变化的影响,同时,该仪器的学习曲线非常陡峭,易用性较差。

眼动跟踪技术通过多样化的手段实现对眼球运动的精确捕捉与分析,各类方法在原理、优势及局限性上各有千秋。接触式技术凭借高精度的特性在特定实验场景中发挥重要作用,却面临舒适性与应用范围的限制;非接触式技术以其便捷性和自然性得到广泛应用,但在精度、抗干扰能力等方面仍需完善。随着技术的不断迭代升级,未来眼动跟踪技术有望在整合多种方法优势的基础上,进一步突破现有局限。

2.3. 眼动跟踪技术的主要指标

眼动跟踪技术能提供的指标很多,一般可以分为时间指标与空间指标,系统揭示了个体认知活动中的信息处理规律与注意力分配模式。

2.3.1. 眼动跟踪时间指标

眼动跟踪时间指标是衡量视觉信息加工过程的重要参数,主要涵盖注视时间、眼跳潜伏期、追随运动时间、回视时间及注视次数等,这些指标从时间序列角度,为解析认知加工机制提供了量化依据。

1) 注视时间:作为认知心理学研究的核心指标之一,注视时间被广泛视为信息认知加工时长的直观表征。当个体对信息进行深度加工时,往往需要投入更多的注视时间。根据认知负荷理论[2],信息的复杂度与认知加工难度直接影响注视时长,复杂度越高,所需的认知资源越多,注视时间也就越长。同时,注视时间还可反映信息对参与者的吸引力,高吸引力的信息通常会引发更长时间的注视。

2) 眼跳潜伏期:该指标定义为刺激呈现至首次眼跳发生的时间间隔,在视觉信息加工研究中具有重要意义[3]。依据注意分配理论,眼跳潜伏期与信息加工难度呈正相关关系。当面对复杂或新颖的信息时,个体需要更多时间进行信息处理与决策,从而导致眼跳潜伏期延长。眼跳相关指标能够有效揭示用户视觉信息加工进程,以及注意转移过程中的时间特性,为探究注意机制提供关键线索。

3) 回视次数:回视行为表现为注视点从后一区域返回到先前已注视区域的现象,其本质是对先前信息的重新审视与深度加工[4]。回视次数不仅反映了参与者对信息的再加工程度,还能体现其对信息不同区域关注度的差异。在文本阅读研究中,回视常被用于分析读者对难句、关键段落的理解过程,通过回视行为,读者可弥补初次阅读时的信息缺失,完善对文本的整体理解。

2.3.2. 眼动跟踪空间指标

眼动跟踪空间指标聚焦于视觉信息加工的空间维度,主要包括注视点、眼跳距离、眼动轨迹图和热点图等[5]。这些指标从空间分布和运动路径层面,为剖析认知加工模式提供了可视化依据。

1) 注视点:作为最基础的空间指标,注视点的分布能够直接映射参与者的兴趣焦点和信息关注区域[6]。在界面设计、广告效果评估等应用场景中,通过分析注视点的位置与停留时长,可以精准定位用户关注的关键信息,为优化设计提供数据支持。

2) 眼跳距离:该指标通过量化眼跳前后注视点之间的夹角,反映视觉加工的广度范围[7]。眼跳距离越大,表明个体在单次眼跳过程中能够处理的视觉信息范围越广,反映出更高的视觉搜索效率和信息整合能力。在场景感知研究中,眼跳距离常被用于评估个体对场景整体结构的把握能力。

3) 眼动轨迹图:眼动轨迹图以动态可视化的方式,完整呈现了参与者在浏览信息过程中注视点的时空变化序列[8]。通过分析眼动轨迹,研究者能够还原参与者认知加工的真实过程,包括信息处理的先后顺序、信息搜索策略以及不同信息区域之间的关联模式,为深入理解认知机制提供直观证据。

4) 热点图:热点图通过对注视点的空间分布进行统计分析,以热力梯度的形式直观展示注视点的密集程度。该图能够清晰呈现参与者在刺激材料上的注意分配模式,揭示其浏览行为的偏好与规律。在可用性测试中,热点图可帮助研究者快速定位用户注意力集中区域和易被忽视区域,为产品优化提供针对性建议。

3. 抑郁障碍的基本概念及其患者眼动特征

心理学研究表明,抑郁症患者在注意偏向、情绪信息处理和认知抑制功能等方面呈现显著异常,这些异常可通过眼动特征的定量分析实现客观测量。眼动技术不仅能捕捉瞳孔的动态变化特征,还可精确记录人眼注视的位置及运动轨迹,直观呈现注视点的分布和注视时间等指标,对描述人类视觉的感知过程与特点、重现个体基本认知的加工过程有着重要意义。

3.1. 抑郁障碍的基本概念

抑郁障碍(也称抑郁症)作为一种常见的精神病理现象,其核心临床表现为显著且持久的心境低落,该症状的严重程度与个体当前处境明显不相称,并伴随兴趣减退及愉悦感丧失等核心症状群。从功能损害维度分析,该障碍可对个体的工作效能、学习能力、社会交往模式及躯体活动水平产生显著负性影响,同时显著增加自杀、自伤及攻击性行为的发生风险。抑郁症的病因和发病机制尚未完全清楚,但目前的研究显示,家族遗传、童年经历、人格特征、脑结构与脑网络连接异常、重大创伤事件等均有明显影响。临床诊断通常以主观评估为主,缺乏客观、识别特征。

3.2. 抑郁障碍患者眼动特征

当前研究普遍认为,抑郁症患者常伴随不同维度的情绪调节异常、认知功能损伤及生物学指标改变,其眼动特征可作为评估患者认知功能的有效指标。罗新玉等[9]研究表明,存在抑郁情绪的个体在认知加工效率上显著低于健康对照组,且在处理高兴、悲伤等情感刺激时表现出眼动抑制机制的功能性障碍。Li等人[10]针对未接受药物干预的抑郁障碍患者开展的研究表明,该群体在注视稳定性任务中呈现出特征性眼动模式,具体表现为注视频次增加、单次注视持续时间缩短,同时伴随跳视次数增多及跳视路径延长。自由视图任务结果显示,抑郁患者的扫视频率显著降低、平均注视时长延长,且注视点数量较健康人群减少约20%~30% [11]。此外,抑郁障碍患者对情绪刺激存在特异性注意分配偏向,如徐西良等[12]研究发现,其对负性刺激(如悲伤面孔)的总注视时间偏向分数显著高于正常对照组。

4. 眼动技术在抑郁识别领域的应用

4.1. 单模态抑郁识别

传统的抑郁症检测方法存在一定局限性,眼动特征作为一种可量化、易获取的生理行为指标,逐渐受到学者们的关注,为抑郁的识别提供新的有效途径。Alghowinem等学者[13]通过对面部视频中的眼动特征进行提取,深入探究其在抑郁症检测中的应用效能,研究发现,将眼动特征与高斯混合模型(GMM)及支持向量机(SVM)相结合构建的混合分类器,可实现70%的平均召回率。Li等[14]以情绪表情图片作为刺激源获取眼动数据,基于随机森林算法构建分类模型对抑郁症患者与健康对照进行区分,结果显示该模型准确率达80.1%。Pan团队[15]则整合眼动特征与反应时间特征,采用支持向量机分类器进行抑郁症分类研究,分类准确率达到86%。Shen等人[16]根据从眼动数据中提取72维眼动特征,经特征选择后用支持向量机(SVM)分类,模型准确率达77%,验证了抑郁症患者对正性图像注视时间更短、负性图像注意力转移更慢的理论。Lu等人[17]构建了一种基于情感相关的眼动数据和核极限学习机(KELM)的抑郁症分类模型,模型准确率达到88.55%。研究者通过结合不同算法与眼动各个维度的特征,构建多种分类模型。这些研究均证实眼动特征与抑郁症存在紧密关联,不同模型在抑郁检测上均取得了较为可观的准确率和召回率,表明眼动特征在抑郁症检测中具有显著的应用价值与发展潜力,但是,仅依靠眼动指标进行抑郁识别存在信息维度单一、易受噪声干扰、诊断可靠性低等问题。

4.2. 多模态抑郁识别

传统单一模态的抑郁识别方法存在局限性,近年来,众多学者围绕多模态融合开展了一系列研究,不断提升抑郁识别准确率。李慧茹[18]结合表情数据和瞳孔数据构建了多模态融合用于抑郁识别,该方法在抑郁分类准确率达到75.0%。范永恒[19]构建脑电和眼动的多任务抑郁识别模型,抑郁的眼动识别准确率由71.78%上升至74.93%。Zhu [20]提出基于脑电和眼动信号同步采集网络的多模态轻度抑郁识别方法,通过同步记录被试在自由观看中性和负性面孔时的脑电(EEG)和眼动(EM)信号,识别准确率最高达83.42%,验证了EEG与EM信号的互补性。Scherer等学者[21]构建了一种融合声音特征与视觉特征的抑郁症识别模型,实验表明该方法可将分类准确率从64%提升至90%。Li等[22]运用统计方法结合主成分分析(PCA)对行为特征和眼动特征进行筛选,并采用核极限学习机(KELM)建立分类模型,结果显示融合特征的分类效能显著优于单一模态特征,抑郁识别准确率达到91%。魏仕青[23]提出基于内容的多证据融合方法(CBMEF),该方法在轻度抑郁识别中表现出良好性能,最高准确率可达91.12%。龚涛[24]提出基于贝叶斯理论的决策层融合算法,在特征层融合的基础上,结合αβ及全波段三个模态在四种决策向量下进行决策层融合,最终通过高斯核支持向量机(SVM)实现了80.44%的分类准确率。多模态融合技术通过整合表情、瞳孔、脑电、眼动、声音等多源信息,显著提升了抑郁识别的准确率,然而,目前研究仍存在样本量有限、成本高、模型普适性不足等问题。

5. 结语

抑郁症作为全球高致残性精神疾病,其客观诊断标志物的探索是当前研究热点。眼动跟踪技术通过记录眼球运动模式,为抑郁症的认知功能障碍评估提供了无创、量化指标,眼动设备复杂度低、操作简便,在临床辅助诊断、疗效评估及分型鉴别中展现出潜力。然而,它的特异性有所不足,虽然眼动技术通常与认知功能有关,但它并不具备唯一性指征的特点,也会受到个体差异与数据噪声的干扰,往往需要结合其他因素进行综合考量。为提高抑郁识别的准确性,眼动与脑电、面部特征等其他模态融合的方式应运而生,多模态的识别方式能够捕捉更全面的信息,缓解个体差异等干扰,增强模型的鲁棒性。但多模态的实现需要解决多设备同步、数据异构型等问题,计算成本与技术复杂度显著增加,这也使得多模态的抑郁识别在临床推广上难度更大。

目前,对于眼动技术的研究存在一定的局限性,多数使用眼动指标的研究都是基于小样本实验,容易受到个体差异、被试群体的单一等问题导致研究结果难以泛化。另外,不同实验所使用的眼动设备来自不同厂商,基于不同的原理进行设计,缺乏统一的阈值,这导致了数据的一致性和准确性存在一定的疑问。因此在使用眼动技术进行抑郁症诊断时,需要建立更为统一且标准化的实验操作流程,以保障数据的一致性和可比性。为进一步提升眼动技术在抑郁症识别与诊断中的准确性和可靠性,未来的研究者可以建立大样本数据库,覆盖抑郁不同亚型及不同性别、年龄人群,制定眼动指标检测设备参数、实验范式等统一标准,与其他心理评估工具相结合,综合考量患者的认知功能、情绪状态、社会支持等多维度因素,从而优化诊断效能,为患者提供更精准的临床支持。

基金项目

2024年度湖南省高校思想政治教育研究项目“高校大学生心理危机预警指标构建”(24B17)研究成果。

参考文献

[1] 邓铸. 眼动心理学的理论、技术及应用研究[J]. 南京师大学报, 2005, 1(1): 90-95.
[2] Just, M.A. and Carpenter, P.A. (1980) A Theory of Reading: From Eye Fixations to Comprehension. Psychological Review, 87, 329-354.
https://doi.org/10.1037/0033-295x.87.4.329
[3] Crevits, L., Van den Abbeele, D., Audenaert, K., Goethals, M. and Dierick, M. (2005) Effect of Repetitive Transcranial Magnetic Stimulation on Saccades in Depression: A Pilot Study. Psychiatry Research, 135, 113-119.
https://doi.org/10.1016/j.psychres.2003.10.008
[4] Clifton, C., Ferreira, F., Henderson, J.M., Inhoff, A.W., Liversedge, S.P., Reichle, E.D., et al. (2016) Eye Movements in Reading and Information Processing: Keith Rayner’s 40 Year Legacy. Journal of Memory and Language, 86, 1-19.
https://doi.org/10.1016/j.jml.2015.07.004
[5] Duchowski, A. (2007) Eye Tracking Methodology: Theory and Practice. Springer.
[6] Loftus, G.R. and Mackworth, N.H. (1978) Cognitive Determinants of Fixation Location during Picture Viewing. Journal of Experimental Psychology: Human Perception and Performance, 4, 565-572.
https://doi.org/10.1037//0096-1523.4.4.565
[7] Curtis, C.E. and Connolly, J.D. (2008) Saccade Preparation Signals in the Human Frontal and Parietal Cortices. Journal of Neurophysiology, 99, 133-145.
https://doi.org/10.1152/jn.00899.2007
[8] Holmqvist, K. and Andersson, R. (2017) Eye-Tracking: A Comprehensive Guide to Methods, Paradigms and Measures. Oxford University Press.
[9] 罗新玉, 陈睿, 高鑫. 抑郁情绪大学生反应抑制的眼动特点[J]. 心理科学, 2012, 35(6): 1289-1293.
[10] Li, Y., Xu, Y.Y., Xia, M.Q., et al. (2016) Eye Movement Indices in the Study of Depressive Disorder. Shanghai Archives of Psychiatry, 28, 326-334.
[11] 杨丽颖, 郑月, 康传依, 等. 眼动跟踪技术应用于抑郁障碍患者注意偏向观察的研究进展[J]. 神经疾病与精神卫生, 2021, 21(10): 730-734.
[12] 徐西良, 刘明矾. 复发性抑郁缓解期个体对情绪面孔注意偏向的眼动研究[J]. 中华行为医学与脑科学杂志, 2015, 24(9): 824-827.
[13] Alghowinem, S., Goecke, R., Wagner, M, et al. (2013) Eye Movement Analysis for Depression Detection. Proceedings of the 2013 IEEE International Conference on Image Processing, Melbourne, 15-18 September 2013, 4220-4224.
https://doi.org/10.1109/ICIP.2013.6738869
[14] Li, X., Cao, T., Sun, S., Hu, B. and Ratcliffe, M. (2016) Classification Study on Eye Movement Data: Towards a New Approach in Depression Detection. 2016 IEEE Congress on Evolutionary Computation (CEC), Vancouver, 24-29 July 2016, 1227-1232.
https://doi.org/10.1109/cec.2016.7743927
[15] Pan, Z., Ma, H., Zhang, L. and Wang, Y. (2019) Depression Detection Based on Reaction Time and Eye Movement. 2019 IEEE International Conference on Image Processing (ICIP), Taipei, 22-25 September 2019, 2184-2188.
https://doi.org/10.1109/icip.2019.8803181
[16] Shen, R., Zhan, Q., Wang, Y. and Ma, H. (2021) Depression Detection by Analysing Eye Movements on Emotional Images. ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Toronto, 6-11 June 2021, 7973-7977.
https://doi.org/10.1109/icassp39728.2021.9414663
[17] Lu, S., Liu, S., Li, M., Shi, X. and Li, R. (2020) Depression Classification Model Based on Emotionally Related Eye-Movement Data and Kernel Extreme Learning Machine. Journal of Medical Imaging and Health Informatics, 10, 2668-2674.
https://doi.org/10.1166/jmihi.2020.3198
[18] 李慧茹. 基于面部表情和瞳孔的多模态抑郁识别研究[D]: [硕士学位论文]. 兰州: 兰州大学, 2023.
[19] 范永恒. 基于脑电、眼动信号的深度学习对轻度抑郁识别的研究[D]: [硕士学位论文]. 兰州: 兰州大学, 2021.
[20] Zhu, J., Wang, Y., La, R., Zhan, J., Niu, J., Zeng, S., et al. (2019) Multimodal Mild Depression Recognition Based on EEG-EM Synchronization Acquisition Network. IEEE Access, 7, 28196-28210.
https://doi.org/10.1109/access.2019.2901950
[21] Scherer, S., Stratou, G. and Morency, L. (2013) Audiovisual Behavior Descriptors for Depression Assessment. Proceedings of the 15th ACM on International conference on multimodal interaction, Sydney, 9-13 December 2013, 135-140.
https://doi.org/10.1145/2522848.2522886
[22] Li, M., Cao, L., Zhai, Q., Li, P., Liu, S., Li, R., et al. (2020) Method of Depression Classification Based on Behavioral and Physiological Signals of Eye Movement. Complexity, 2020, Article 4174857.
https://doi.org/10.1155/2020/4174857
[23] 魏仕青. 基于脑电与眼动数据融合的轻度抑郁识别应用研究[D]: [硕士学位论文]. 兰州: 兰州大学, 2023.
[24] 龚涛. 基于脑电与眼动特征的轻度抑郁症分类研究[D]: [硕士学位论文]. 兰州: 兰州大学, 2021.