1. 引言
在日常生活中,多种感官通道的刺激(如听觉、视觉、嗅觉和躯体感觉刺激)不断向人们扑面而来,这让我们对世界的知觉自然而然地具有多感官性。尽管输入感觉通道的信息如此之多,但我们并没有将世界知觉为感觉的简单组合,这是因为大脑能够将不同通道中输入的信息有效地融合为统一、连贯的知觉过程,被称为多感觉整合(Multisensory Integration, MSI) [1] [2]。视觉和听觉信息是人类感知外部世界的两个重要来源,整合视觉和听觉通道信息的知觉过程,被称为视听整合(Audiovisual Integration, AVI) [3]。大量研究证明,与单一感觉通道视觉或听觉信息相比,当视觉和听觉信息同时出现时,人们反应得更快更准确,即产生了冗余效应 [4]。冗余效应的大小是衡量视听觉整合效应的重要行为学指标。
视听整合的老龄化已被广泛研究。虽然科学研究已证明随着年龄的增长,老年人的视敏度趋于下降,听力阈限也在逐步提高,但随着年龄的增长视听整合是否会增强或降低,仍存在争议。Laurienti等设计了视听觉辨别任务(audio-visual discrimination task),视觉刺激为蓝色和红色的圆盘,听觉刺激为蓝色、红色单词的读音,要求被试对蓝色圆盘、蓝色单词读音单独或同时出现时反应。结果发现,老年人对单独视觉、单独听觉和视听觉刺激的反应时显著长于年轻人。但是,数据表明老年人和年轻人在实验中都产生了冗余效应,进一步对反应时进行竞争模型(Race model)分析,结果发现老年人的视听觉促进效果强于年轻人 [5]。Peiffer等人使用了类似的分析方法,采用更为简单的视觉刺激(会产生绿光的发光二极管)和听觉刺激(白噪音)来研究老年人的视听觉整合,结果发现老年人的视听整合强于年轻人 [6]。另外有研究者发现,老年人不仅视听整合强度高于年轻人,而且整合时间窗(Time Window of Integration)也长于年轻人 [5] [7]。如:Laurienti等人发现年轻人视听觉行为促进发生在刺激呈现后340~550 ms,而老年人在刺激呈现后330~740 ms。
然而,Ren等人任然采用了简单的视听觉刺激(视觉:无意义的两张图片,听觉:500 Hz纯音和500 Hz纯音)让被试完成视听觉辨别任务以此考察老年人多感觉整合,却发现老年人的视听觉整合弱于年轻人 [8]。虽然Ren等人运用的刺激属性与前述研究中的类似,却产生了截然相反的结果。那么,对于其他更为复杂的视听觉刺激,老年人的视听整合效应又会有什么样的变化呢?
另外,已有研究显示,随着年龄的增长,外周知觉处理能力会明显下降,即老年人可以提取有用的视觉信息的空间区域会缩小 [9],所以刺激的呈现位置在一定程度上也是会对视听整合产生影响。
最后,已有研究表明,通过基于Gabor视标的知觉学习可以提高人的视觉对比敏感度 [10] [11],视觉对比敏感度代表人眼在明亮对比变化的情况下对不同空间频率的分辨力。因此,基于Gabor视标的视觉刺激能够更加真实地表现被试对视觉刺激的反应,同时,相较于上述带颜色的圆盘、发光二极管、无意义图片等视觉刺激更复杂。
综上所述,本研究将采用视听觉辨别任务,运用垂直和水平的正弦Gabor视标作为视觉刺激、1000 Hz正弦音和500 Hz正弦音作为听觉刺激,从而探讨老年人与年轻人在辨别任务中的视听整合差异。基于前人研究结果,本研究预期,老年人的视听觉整合弱于年轻人。
2. 方法
2.1. 被试
实验最终招募十名年轻被试(平均年龄:20.1 ± 1.3岁)、十名老年被试(平均年龄:60.6 ± 8.0岁)参与实验。所有参与者均为贵州省贵阳市花溪大学城内学生及居民,听力正常,视力或矫正视力正常,均为右利手,未患有精神疾病,无脑部损伤史。被试在实验结束后获得一定酬劳。
2.2. 实验装置和材料
实验程序的编写和数据的采集均采用E-prime 3.0。刺激呈现在Dell SE2719HR型号的液晶显示器上,可视尺寸27英寸,分辨率为1920 × 1080像素,刷新率为60 Hz。实验在黑暗、隔音的环境下进行,屏幕背景为灰色。被试眼睛距离屏幕中心约60 cm。
实验刺激如图1所示。视听觉辨别任务中刺激共有6种呈现形式,视觉目标刺激(VT)为图1(a)所示的垂直正弦Gabor视标,视觉标准刺激(VS)为图1(b)所示的水平正弦Gabor视标;听觉目标刺激(AT)为60 dB的1000 Hz正弦音,听觉标准刺激(AS)为60 dB的500 Hz正弦音;视听觉目标刺激(VAT)为视觉目标刺激和听觉目标刺激组合而成,视听觉标准刺激(VAS)为视觉标准刺激和听觉标准刺激组合而成。
(a)(b)
Figure 1. The stimuli of the experiment
图1. 实验刺激
2.3. 实验设计和程序
实验采用2(群体:老年人,年轻人) × 3(刺激类型:视觉刺激,听觉刺激,视听觉刺激)的被试间实验设计。实验中标准刺激与目标刺激的呈现比例为4:1。实验共300试次,实验过程约15分钟。
实验程序如图2所示。首先在屏幕中央呈现白色“+”注视点1000 ms,接着在“+”正下方呈现视觉单通道刺激、听觉单通道刺激或者视听觉双通道刺激100 ms,被试需对目标刺激进行左键反应。为避免练习效应,两刺激之间的间隔时间设为1800~3000 ms。正式实验前有练习。

Figure 2. The paradigm of the experiment process
图2. 实验流程示意图
2.4. 数据分析
首先,分别计算每个被试的击中率和反应时。根据不同的群体对每个被试的反应时和标准差(SD)进行重组并取平均值。随后,使用SPSS 26.0软件,对目标刺激的反应时和正确率进行Friedman检验,进一步的组间比较符合正态分布的采用独立样本t检验,不符合正态分布的采用Mann-Whitney U检验。
其次,为了检测视听整合的冗余效应,采用竞争模型不等式(race model inequality),用视觉目标刺激和听觉目标刺激反应时间的累积分布函数(cumulative distribution functions, CDFs)来计算竞争模型(Race Model),竞争模型是基于单通道视觉和单通道听觉的累积分布函数结合来计算的 [2] [12] [13]。然后将视听觉双通道CDF与竞争模型CDF作差得到差异CDF,即视听觉双通道CDF与竞争模型CDF在RT范围内(本研究为200~1200 ms)每10 ms上的概率差异 [5]。若在给定反应时范围内,实际视听觉双通道CDF显著大于预测的竞争模型CDF,即显著违反竞争模型,代表发生多感觉整合效应 [13]。
3. 结果
3.1. 击中率
比较老年人、年轻人对三种目标刺激的击中率,采用Friedman检验。结果如表1所示:老年人的视觉目标刺激的击中率(97.0%)、听觉目标刺激的击中率(93.0%)和视听觉目标刺激的击中率(95.5%)的差异无统计学意义(P = 0.074);年轻人的视觉目标刺激的击中率(93.0%)、听觉目标刺激的击中率(95.5%)和视听觉目标刺激的击中率(98.0%)的差异有统计学意义(c2 = 6.500, df = 2, P < 0.05),采用Bonferroni法校正显著性水平的事后两两比较发现,目标刺激的击中率两两之间无统计学意义(视觉–听觉:P = 0.656;视觉–视听觉:P = 0.101;听觉–视听觉:P = 1.000)。
将视觉目标刺激、听觉目标刺激、视听觉目标刺激的击中率按照群体进行比较,经Shapiro-Wilk检验,六组数据中五组不符合正态分布(P < 0.05),因此采用Mann-Whitney U检验。结果如表1所示:老年人的视觉目标刺激击中率(97.0%)和年轻人的视觉目标刺激击中率(93.0%)的差异无统计学意义(Z = 1.834, P = 0.089);老年人的听觉目标刺激击中率(93.0%)和年轻人的听觉目标刺激击中率(95.5%)的差异无统计学意义(Z = −0.919, P = 0.436);老年人的视听觉目标刺激击中率(95.5%)和年轻人的视听觉目标刺激击中率(98.0%)的差异无统计学意义(Z = −1.893, P = 0.105)。

Table 1. Response time (RT/ms), hit rate (%) and standard deviation (SD) of older adults and younger adults in audio-visual discrimination task
表1. 视听觉辨别任务中老年人、年轻人的反应时(RT/ms)、击中率(Hit Rate/%)及其标准差(SD)
3.2. 反应时
比较老年人、年轻人对三种目标刺激的反应时,采用Friedman检验。结果如表1和图3所示:老年人对视觉目标刺激的反应时(609 ms)、听觉目标刺激的反应时(636 ms)和视听觉目标刺激的反应时(510 ms)的差异有统计学意义(c2 =15.200, df = 2, P < 0.01);采用Bonferroni法校正显著性水平的事后两两比较发现,老年人视觉目标刺激的反应时(609 ms)略短于听觉目标刺激的反应时(636 ms),两者间差异无统计学意义(P = 1.000),老年人视觉目标刺激的反应时(609 ms)显著长于视听觉目标刺激的反应时(510 ms, P < 0.01),听觉目标刺激的反应时(636 ms)显著长于视听觉目标刺激的反应时(510 ms, P < 0.01)。年轻人对视觉目标刺激的反应时(540 ms)、听觉目标刺激的反应时(515 ms)和视听觉目标刺激的反应时(438 ms)的差异有统计学意义(c2 =15.800, df = 2, P < 0.001);采用Bonferroni法校正显著性水平的事后两两比较发现,年轻人视觉目标刺激的反应时(540 ms)略长于听觉目标刺激的反应时(515 ms),两者间差异无统计学意义(P = 1.000),年轻人视觉目标刺激的反应时(540 ms)显著长于视听觉目标刺激的反应时(438 ms, P < 0.001),年轻人听觉目标刺激的反应时(515 ms)显著长于视听觉目标刺激的反应时(438 ms, P < 0.05)。

Figure 3. Response Time (RT) of the elderly and young people to V, A and VA stimuli
图3. 老年人和年轻人对三种目标刺激的反应时
将视觉目标刺激、听觉目标刺激、视听觉目标刺激的反应时按照群体进行比较,经Shapiro-Wilk检验,老年人对视觉目标刺激反应时的数据符合正态分布(P = 0.200 > 0.05),年轻人对视觉目标刺激反应时的数据符合正态分布(P = 0.895 > 0.05),且方差齐性检验显示L(1,18) = 0.445,P > 0.05,数据满足方差齐性假设,因此采用独立样本t检验;然而,另外四组数据中,老年人对视觉目标刺激、视听觉目标刺激反应时的数据均不符合正态分布(P < 0.05),因此采用Mann-Whitney U检验。结果如表1和图3所示:老年人对视觉目标刺激的反应时(609 ms)略长于年轻人对视觉目标刺激的反应时(540 ms),两者间差异无统计学意义(t = −2.055, P = 0.055);老年人对听觉目标刺激的反应时(636 ms)显著长于年轻人对听觉目标刺激的反应时(515 ms, Z = 2.797, P < 0.01);老年人对视听觉目标刺激的反应时(510 ms)显著长于年轻人对视听觉目标刺激的反应时(438 ms, Z = 2.646, P < 0.01)。
3.3. 竞争模型(Race Model)分析
不同群体的实际单独视觉、单独听觉、视听觉结合累计概率和竞争模型(Race Model)累计分布概率如图4所示,两类人群的对视听觉目标刺激的反应显著快于单独视觉目标刺激和单独听觉目标刺激。将不同群体的实际视听觉结合的累计概率与竞争模型(Race Model)累计分布概率的累计差异概率值相减,在每10 ms上进行单样本t检验(与0进行比较)。结果如图5所示,老年群体显著违反竞争模型(显著大于0)的时间窗口是380 ms (420~800 ms),t (100) = 7.042,P < 0.001,峰值在520 ms,为19.0%;年轻群体显著违反竞争模型(显著大于0)的时间窗口是250 ms (310~560 ms),t (100) = 4.931,P < 0.001,峰值在430 ms,为21.9%。说明两类群体基于Gabor视标的视听觉辨别任务中,都发生了视听觉整合。另外,老年群体的时间窗口长于年轻群体;年轻群体的峰值发生时间早于老年群体,且年轻群体的峰值大于老年群体。
(a)
(b)
Figure 4. Race model of different groups. (a) Older adults; (b) Younger adults
图4. 不同群体的竞争模型。(a) 老年人;(b) 年轻人

Figure 5. Direct comparison between bimodal and race model of audiovisual perception
图5. 视听觉结合模型与预测竞争模型的直接比较
4. 讨论
本研究采用视听觉辨别任务,运用垂直和水平的正弦Gabor视标作为视觉刺激、1000 Hz正弦音和500 Hz正弦音作为听觉刺激,从而考察老年人与年轻人在辨别任务中的视听整合差异。结果发现,老年人和年轻人在基于Gabor视标的视听觉辨别任务中都产生了冗余效应,进一步的竞争模型分析表明,老年人与年轻人相比视听整合效应延迟、视听整合的时间窗口更长、峰值更低。
在反应时结果上,在不同负荷条件下均发现双通道目标的反应时显著快于单通道目标的反应时,即产生冗余效应,体现了双通道的加工优势,与以往研究结果一致 [4] [14]。基于Race Model结果,老年人与年轻人相比视听整合效应延迟、视听整合的时间窗口更长、峰值更低,这与前人采用简单的视听觉刺激(视觉:无意义的两张图片,听觉:500 Hz纯音和500 Hz纯音) [8]、使用黑白色棋盘图片和白噪音 [15] 让被试完成视听觉辨别任务探究视听整合老龄化的研究结果一致。Talsma等人的系列研究已经证实,注意可以在视听觉整合的多个阶段发挥重要的调节作用,并且发现相较于没有注意到刺激的情况,注意到刺激的情况下视听觉整合效应会增强 [16] [17] [18] [19]。另外,目前有大量行为学和脑成像研究证明了老年人的注意存在缺陷 [20] [21],这导致了老年人在完成认知任务时可使用的注意资源与年轻人相比较少。因此,老年人与年轻人相比视听整合效应延迟、峰值更低的原因,可能是老年人在处理简单无意义的视听刺激时注意资源减少所致。
此外,以往的大量研究也发现了老年人与年轻人相比视听整合效应延迟、视听整合的时间窗口更长 [22] [23] [24]。Colonius等人提出的“整合时间窗口模型”假设听觉和视觉信息的整合包括两个阶段:第一阶段为早期传入阶段(early afferent processing),第二阶段为汇聚子阶段(converging subprocesses) [25]。第一阶段包括了非常早期的感觉处理,并且对单独通道信息的处理时间是独立的,而第二阶段需要听觉和视觉信息处理都在给定的时间间隔内终止才会被触发。在第一阶段,与年轻人相比,老年人对视觉和听觉刺激的感知阈值较高,处理速度较慢 [26] [27],就会导致第二阶段延迟。因此,老年人的视听整合效应延迟可能是由于老年人对单独通道信息处理功能减弱。
最后,值得注意的是,老年人对听觉目标刺激、视听觉目标刺激的反应时均显著长于年轻人,而年轻人与老年人对视觉目标刺激的反应时却没有显著差异,在未来的研究中或许可以再增加视觉刺激的复杂性、真实性,并结合脑成像等技术进一步探讨视听整合效应的老龄化。
本研究完善了前人对于在视听辨别任务中老年人与年轻人视听整合差异的研究,发现老年人与年轻人相比视听整合效应延迟、视听整合的时间窗口更长、峰值更低;同时,本研究并未发现两类人群对视觉目标刺激反应时的显著差异,未来可以进一步优化。
基金项目
2021年贵州省大学生创新创业训练项目(202110662043)。
NOTES
*通讯作者。