集群编码:感知机制、影响因素与神经机制研究综述
Ensemble Coding: A Review of Perceptual Mechanisms, Influencing Factors and Neural Mechanisms
摘要: 在复杂的感知环境中,人类如何高效提取关键信息是认知科学的核心问题。集群编码(ensemble coding)是人类感知系统快速提取一组相似对象概要统计信息(如平均值、方差等)的重要机制,也被称为整体知觉或集合感知。本文系统综述了集群编码的定义、跨层次加工特性、影响因素及神经机制。研究表明,集群编码能够高效整合低级视觉特征(如朝向、大小)和高级社会信息(如面部表情、身份),并表现出跨感官(视觉、听觉)的普遍性。其加工效率受注意、刺激数量、呈现时间和个体差异等因素影响,且神经机制涉及背侧与腹侧通路的协同作用。未来研究需进一步探索集群编码的多感官整合机制、神经基础及其在认知科学等领域的应用潜力。
Abstract: In complex perceptual environments, how humans efficiently extract key information is a central question in cognitive science. Ensemble coding is a crucial mechanism by which the human perceptual system rapidly extracts summary statistical information (e.g., mean, variance) about a group of similar objects, also known as global perception or ensemble perception. This paper provides a systematic review of the definition, cross-level processing characteristics, influencing factors, and neural mechanisms of ensemble coding. Research indicates that ensemble coding can efficiently integrate low-level visual features (e.g., orientation, size) and high-level social information (e.g., facial expressions, identity), and exhibits cross-modal (visual, auditory) universality. Its processing efficiency is influenced by factors such as attention, stimulus quantity, presentation time, and individual differences, and its neural mechanisms involve the collaborative action of dorsal and ventral pathways. Future research should further explore the multisensory integration mechanisms, neural foundations, and application potential of cluster coding in fields such as cognitive science.
文章引用:李佳琦 (2025). 集群编码:感知机制、影响因素与神经机制研究综述. 心理学进展, 15(8), 10-16. https://doi.org/10.12677/ap.2025.158440

1. 引言

在人类所处的复杂视觉与听觉环境中,时刻充斥着海量的信息。面对如此繁杂的感知输入,我们的感知系统如何在有限的时间和认知资源下,高效且准确地提取关键信息,以实现对外部世界的有效认知与快速反应,一直是认知科学领域备受关注的核心问题。集群编码(ensemble coding),作为一种独特而重要的感知机制,为我们理解这一问题提供了关键线索。

集群编码指的是人们能够快速且准确地提取出一组相似对象的概要统计量,如方差或平均数等的能力,也有研究者将其称为整体知觉、集合感知(Haberman & Whitney, 2009)。这种信息压缩机制犹如一把高效的钥匙,使我们能够在纷繁复杂的外部世界中,快速感知到关键信息,从而更高效地应对各种挑战。尽管集群编码在信息提取过程中会丢失每个个体的准确信息,但这并不影响其在人类感知系统中的重要地位和价值。

集群编码作为一种关键的感知机制,在人类认知外部世界的过程中发挥着重要的作用。深入研究集群编码的定义、跨层次加工特性、影响因素以及神经机制,不仅有助于我们更全面地理解人类感知系统的运作机制,还能为相关领域的研究和应用提供重要的理论基础和实践指导。因此,本文将对集群编码的相关研究进行系统综述,以期为该领域的进一步发展贡献力量。

2. 集群编码的定义

人们可以快速且准确地提取出一组相似对象的概要统计量(如方差或者平均数),这种快速且准确提取出概要统计量的能力便是集群编码(ensemble coding),也被称为整体知觉、集合感知(ensemble perception, Haberman & Whitney, 2009)。这种信息压缩的机制使我们能够快速感知外部世界,更高效地应对复杂的视觉环境。尽管这种编码方法会丢失每个个体的准确信息(Herzog & Manassi, 2015; Manassi et al., 2012),但它仍然非常有意义。

是否任何东西—任意一组特征、物体或构型—都可以被感知为一个集合体吗?答案是否定的。Whitney和Leib (2018)提到,集群编码具有独特的特征,为了构建集群编码的灵活操作性定义,需要明确以下五个概念:

并不是每一个群体或事物的集合都被认为是一个整体。人们可以感知一组随机对象或特征与对象之间的相互作用,这些对象彼此之间没有意义或一致的关系,没有潜在的统计分布,不能作为一个集合进行报告或判别。人们也可以识别格式塔或整体分组线索,但这些线索不需要涉及对一个统计时刻的知觉,因此不是对整体加工的诊断。

对于什么是知觉的集群编码的操作性定义而言,唯一的要求是两个或多个刺激的整合。已有研究表明整合(抽样)两个项目即可构成集群编码的充分证据(Allik et al., 2013; Maule & Franklin, 2016)。然而,需要指出的是,目前尚未确立构成集合或汇总统计表征所需的最小项目数量标准。

每个表征水平上的集群编码相对于该水平上单个对象的加工可以是精确的。整体而言,集合感知的灵敏度通常优于基于单个物体辨别力的理论阈值。例如,在方向(Parkes et al., 2001)、大小(Allik et al., 2014)和面部表情(Fischer & Whitney, 2011)的感知中,平均化过程具有强制性,甚至那些因拥挤效应而无法单独识别的物体仍能贡献于集群编码(Fischer & Whitney, 2011; Ikeda et al., 2013; Parkes et al., 2001)。

研究表明,集群编码并不依赖于对单个项目的精确识别。即使在快速序列视觉呈现(RSVP)范式中,当单个项目呈现时间过短而无法被准确识别时,观察者仍能正确提取整体统计信息(Haberman & Whitney, 2009)。类似地,当单个刺激无法被有意识辨别时,观察者仍能提取平均颜色(Ward et al., 2016)或平均表情(Haberman & Whitney, 2011)等统计特征。

在时间特性方面,集群编码表现出惊人的效率。研究显示,在极短的呈现时间(50 ms)或高频率刺激(20 Hz)条件下,观察者仍能准确获取平均面部表情(Ariely, 2001; Haberman & Whitney, 2009)、物体大小(Gorea et al., 2014)和注视方向(Florey et al., 2017)等集合特征,这种快速处理能力甚至超越了注意分辨率和单个物体识别的时间需求。

总体而言,集群编码是一种重要的感知机制,能够帮助人们快速、准确地从复杂环境中提取平均表征信息。

3. 集群编码的跨层次加工

研究表明,视觉系统能够对简单视觉刺激进行高效的集群编码。Parkes等人(2001)发现观察者可以准确估计一组光栅的平均朝向,却无法报告单个光栅的具体朝向。类似地,Ariely (2001)的研究显示,当呈现四个或更多相似项目时,视觉系统会建立集合表征并舍弃单个项目信息。这种编码机制不仅适用于空间频率和方向等低级特征(Landy, 2013),也体现在色调信息的整合上(Virtanen et al., 2020)。

在高级社会信息处理方面,集群编码同样表现出色。Haberman和Whitney (2007, 2009)率先发现观察者可以快速评估多面孔的平均情绪和性别。后续研究进一步证实了对面部身份(Bai et al., 2015)、注视方向(Florey et al., 2016)等的集合编码能力。值得注意的是,这种加工具有视点不变性(Leib et al., 2014),且能在100毫秒内完成(Haberman & Whitney, 2009; Li et al., 2016)。此外,对动态刺激如点光步行者的研究(Sweeny et al., 2013)进一步拓展了集群编码的应用范围,表明这种机制具有广泛的适应性。

大多数的集群编码的研究集中在从一组特定的刺激(例如,平均大小或表情)中感知一个特定的集合特征。少数研究调查了参与者是否可以从一个或多个群体中提取多个集成特征。Chong和Treisman (2005)发现,观察者能够同时感知两种颜色圆盘的平均大小,即使注意力需要在不同颜色间分配。Emmanouil和Treisman (2008)进一步证实,观察者可以同时提取圆形集合的平均速度和大小,尽管多重集合条件下的准确率低于单一集合条件。在特征分类方面,Elias和Sweeny (2020)通过调整方法任务发现,参与者对类别内椭圆集合(相同纵横比)的平均表征判断优于跨类别集合。这一结果支持了Im等人(2021)提出的双峰分布假说,即跨类别刺激会形成两个独立的平均表征,而非单一表征。Yang等人(2024)将这一发现拓展到高级视觉刺激,证实面部表情同样存在跨类别集群编码现象,且当知觉距离较小时这种编码更为有效。这些研究表明,集群编码机制能够同时处理多个维度的集合特征,但加工效率会受到特征类别和知觉相似性的影响。

集群编码不仅存在于视觉系统,在听觉领域同样表现出类似的特性。Piazza等人(2013)的研究发现,观察者能够准确估计时间序列中呈现的对数间隔纯音的平均频率,这表明听觉系统同样具备提取集合统计信息的能力。

这些研究结果揭示了人类感知系统在提取和整合集合特征时的高效性和准确性,表明集群编码在不同感知领域中都具有重要作用,并为我们理解感知信息处理的机制提供了丰富的参考。

4. 集群编码的影响因素

个体的集群编码感知精度和效率受到很多因素的影响,不同的任务设计或是刺激特征下,其集群编码的精度与效率也会有所不同。例如,在颜色任务(Michael et al., 2014)和面孔(Haberman & Whitney, 2011)任务中,统计异常值(偏差)被淡化或过滤,这种现象被称为异常值排斥(Epstein et al., 2020; Haberman & Whitney, 2011)。最近有研究发现,异常值的位置不同,对异常值的反应也不同。具体来说,当异常值出现在较边缘的区域时,更有可能被排除在平均值之外,而它们出现在旁中心凹区域时,则只有部分异常值被排除。

注意是影响集群编码精度的因素之一,而且注意所产生的影响更为复杂。在不同的集群编码任务中,注意产生的影响也是不一样的。有研究发现,集群编码过程不需要直接注意的参与。在时间序列呈现范式中,个体可以快速且准确地报告出刺激信息的平均信息(Haberman & Whitney, 2009)。在刺激呈现阶段,每个刺激信息呈现的速度非常快,个体并不能够准确地在每一个项目中分配注意,但是仍旧可以知觉出刺激集信息的平均信息。并且在类似变化盲的研究范式中发现,个体也可以利用分散注意力进行集群编码,感知出群体信息的平均信息(Ward et al., 2016)。

呈现时间、刺激数量和个体差异同样对集群编码有重要影响。暴露时间的长短会影响表征的精确性(Haberman & Whitney, 2009; Li et al., 2016)。集群编码任务的精度也会受到刺激呈现阶段所呈现的项目数量的影响。在低层级的集群编码任务研究中,通常由3~5个刺激项目组成了刺激呈现阶段的刺激信息(Im & Halberda, 2013);而在面孔吸引力及其他高级特征的更高水平的整体知觉研究中,被试通常能够整合4~8个甚至更多物体的信息(Haberman & Whitney, 2011)。随着刺激呈现阶段刺激数量的增加,个体的整体感知精确度会随之降低。并且,如果刺激面孔之间情绪差异变大,个体的整体感知精度也会逐渐降低。Peng等人(2022)的研究中,探讨了情绪状态对多张面孔的集群感知的影响。他们发现情绪状态可以调节集群感知。在积极情绪诱导下,面孔身份的平均化程度增加,但在消极情绪诱导下,这些身份的平均化程度降低。

5. 集群编码的神经机制

关于集群编码的神经机制研究相对有限。Haberman和Whitney (2012)最早提出了神经通路假设,认为平均表征可能通过视觉系统不同层级的信号汇集(Signal Pooling)形成。例如,低水平特征(如线段朝向)可能在早期皮层阶段开始表征,而高水平特征(如面孔身份)可能在腹侧通路后期加工。

Im等人(2017)通过fMRI研究发现,情绪面孔的整体编码主要激活背侧通路(顶内沟和额上回),而个体编码则依赖腹侧通路(梭状皮层),且整体编码表现出右半球偏侧化优势。后续MEG研究(Im et al., 2021)进一步证实,背侧通路在早期处理阶段通过大细胞输入快速形成整体表征。这些发现为理解不同层级视觉信息的集群编码机制提供了重要证据。

Tark等人(2021)通过操纵集成特征的任务相关性来构建集群编码的神经表示。结果发现只有当方向与任务相关时,这些刺激对沿视觉层次结构的多个刺激的平均方向的选择反应才会逐渐增加。这种对集合方向的反应存在于纹状外区域V3中,即使平均方向与任务无关,表明集成表示可以与任务相关的单个特征表示共存。集合方向也表示在额叶区域,但只有当每个平均方向都与运动响应维度相关联时,这些表示才是稳健的。这表明,视觉系统在多个层次通过信号汇集(Signal Pooling)形成对整体感知的神经表征。

Liu等人(2023)通过N2pc和CDA成分揭示了集群编码的双阶段神经机制:早期(100 ms) N2pc不受面孔数量影响,表明背侧通路快速提取整体情绪统计;晚期(750 ms) N2pc和CDA的增强反映腹侧通路对个体表征的精细化处理(Biological Psychology)。这一发现支持反向层级理论,并表明集群与个体表征的关系具有时间依赖性。

6. 总结与展望

本文围绕集群编码展开全面综述,深入探讨了该领域的关键研究内容与成果。集群编码作为人类感知系统中的重要机制,使人们能够快速且准确地提取一组相似对象的概要统计信息,在应对复杂环境时发挥着关键作用。尽管会丢失个体准确信息,但其在信息提取效率上的优势不容忽视。

尽管集群编码研究已取得一定进展,但当前研究仍然存在一些局限:影响因素研究范围较窄,对文化背景、年龄、认知能力等潜在因素考察不足;跨层次加工研究中,不同感知领域交叉研究不够深入,对多感官整合中集群编码的作用机制及感官间协同作用认识有限;神经机制研究方面,技术手段的先进性和精确性有待提升,对神经活动区域和通路的定位,以及不同层级和类型刺激下神经层面的加工过程与相互作用机制的研究均不够深入;应用研究上,实际应用的探索较少,将研究成果转化为实际应用的实践与验证均有待加强。

未来的研究中,在影响因素研究上可进一步拓展研究范围,考察更多潜在因素对集群编码的影响。在跨层次加工研究方面可加强不同感知领域之间的交叉研究,深入探究集群编码在视觉、听觉、触觉等多感官整合中的作用机制,以及不同感官信息之间的相互影响和协同作用。在神经机制研究方面,未来应进一步运用先进的神经成像技术,更精确地定位集群编码相关的神经活动区域和神经通路,深入探究不同层级、不同类型刺激的集群编码在神经层面的具体加工过程和相互作用机制。在应用研究方面,集群编码的研究成果具有广阔的应用前景。例如,在临床心理学和神经康复领域,通过建立标准化集群感知测试(如快速视觉集合辨别任务),作为辅助识别面孔失认症的筛查工具(Robson et al., 2018),针对集群编码异常的患者,开发针对性的康复训练方法,促进其感知和认知功能的恢复。

总之,集群编码研究是一个充满活力和潜力的领域,未来需要多学科、多领域的交叉合作,不断深入探索其内在机制和应用价值,为人类认知科学的发展和相关领域的应用做出更大贡献。

参考文献

[1] Allik, J., Toom, M., Raidvee, A., Averin, K., & Kreegipuu, K. (2013). An Almost General Theory of Mean Size Perception. Vision Research, 83, 25-39.
https://doi.org/10.1016/j.visres.2013.02.018
[2] Allik, J., Toom, M., Raidvee, A., Averin, K., & Kreegipuu, K. (2014). Obligatory Averaging in Mean Size Perception. Vision Research, 101, 34-40.
https://doi.org/10.1016/j.visres.2014.05.003
[3] Ariely, D. (2001). Seeing Sets: Representation by Statistical Properties. Psychological Science, 12, 157-162.
https://doi.org/10.1111/1467-9280.00327
[4] Bai, Y., Leib, A. Y., Puri, A. M., Whitney, D., & Peng, K. (2015). Gender Differences in Crowd Perception. Frontiers in Psychology, 6, Article 1300.
https://doi.org/10.3389/fpsyg.2015.01300
[5] Chong, S. C., & Treisman, A. (2005). Statistical Processing: Computing the Average Size in Perceptual Groups. Vision Research, 45, 891-900.
https://doi.org/10.1016/j.visres.2004.10.004
[6] Elias, E., & Sweeny, T. D. (2020). Integration and Segmentation Conflict during Ensemble Coding of Shape. Journal of Experimental Psychology: Human Perception and Performance, 46, 593-609.
https://doi.org/10.1037/xhp0000733
[7] Emmanouil, T. A., & Treisman, A. (2008). Dividing Attention across Feature Dimensions in Statistical Processing of Perceptual Groups. Perception & Psychophysics, 70, 946-954.
https://doi.org/10.3758/pp.70.6.946
[8] Epstein, M. L., Quilty-Dunn, J., Mandelbaum, E., & Emmanouil, T. A. (2020). The Outlier Paradox: The Role of Iterative Ensemble Coding in Discounting Outliers. Journal of Experimental Psychology: Human Perception and Performance, 46, 1267-1279.
https://doi.org/10.1037/xhp0000857
[9] Fischer, J., & Whitney, D. (2011). Object-Level Visual Information Gets through the Bottleneck of Crowding. Journal of Neurophysiology, 106, 1389-1398.
https://doi.org/10.1152/jn.00904.2010
[10] Florey, J., Clifford, C. W. G., Dakin, S., & Mareschal, I. (2016). Spatial Limitations in Averaging Social Cues. Scientific Reports, 6, Article No. 32210.
https://doi.org/10.1038/srep32210
[11] Florey, J., Dakin, S. C., & Mareschal, I. (2017). Comparing Averaging Limits for Social Cues over Space and Time. Journal of Vision, 17, 17.
https://doi.org/10.1167/17.9.17
[12] Gorea, A., Belkoura, S., & Solomon, J. A. (2014). Summary Statistics for Size over Space and Time. Journal of Vision, 14, 22-22.
https://doi.org/10.1167/14.9.22
[13] Haberman, J., & Whitney, D. (2007). Rapid Extraction of Mean Emotion and Gender from Sets of Faces. Current Biology, 17, R751-R753.
https://doi.org/10.1016/j.cub.2007.06.039
[14] Haberman, J., & Whitney, D. (2009). Seeing the Mean: Ensemble Coding for Sets of Faces. Journal of Experimental Psychology: Human Perception and Performance, 35, 718-734.
https://doi.org/10.1037/a0013899
[15] Haberman, J., & Whitney, D. (2011). Efficient Summary Statistical Representation When Change Localization Fails. Psychonomic Bulletin & Review, 18, 855-859.
https://doi.org/10.3758/s13423-011-0125-6
[16] Haberman, J., & Whitney, D. (2012). Ensemble Perception: Summarizing the Scene and Broadening the Limits of Visual Processing. In J. Wolfe, & L. Robertson (Eds.), From Perception to Consciousness (pp. 339-349). Oxford University Press.
https://doi.org/10.1093/acprof:osobl/9780199734337.003.0030
[17] Herzog, M. H., & Manassi, M. (2015). Uncorking the Bottleneck of Crowding: A Fresh Look at Object Recognition. Current Opinion in Behavioral Sciences, 1, 86-93.
https://doi.org/10.1016/j.cobeha.2014.10.006
[18] Ikeda, H., Watanabe, K., & Cavanagh, P. (2013). Crowding of Biological Motion Stimuli. Journal of Vision, 13, 20-20.
https://doi.org/10.1167/13.4.20
[19] Im, H. Y., & Halberda, J. (2013). The Effects of Sampling and Internal Noise on the Representation of Ensemble Average Size. Attention, Perception, & Psychophysics, 75, 278-286.
https://doi.org/10.3758/s13414-012-0399-4
[20] Im, H. Y., Albohn, D. N., Steiner, T. G., Cushing, C. A., Adams, R. B., & Kveraga, K. (2017). Differential Hemispheric and Visual Stream Contributions to Ensemble Coding of Crowd Emotion. Nature Human Behaviour, 1, 828-842.
https://doi.org/10.1038/s41562-017-0225-z
[21] Im, H. Y., Tiurina, N. A., & Utochkin, I. S. (2021). An Explicit Investigation of the Roles That Feature Distributions Play in Rapid Visual Categorization. Attention, Perception, & Psychophysics, 83, 1050-1069.
https://doi.org/10.3758/s13414-020-02046-7
[22] Landy, M. S. (2013). Texture Analysis and Perception. The New Visual Neurosciences, 476, 639-652.
[23] Leib, A. Y., Fischer, J., Liu, Y., Qiu, S., Robertson, L., & Whitney, D. (2014). Ensemble Crowd Perception: A Viewpoint-Invariant Mechanism to Represent Average Crowd Identity. Journal of Vision, 14, 26-26.
https://doi.org/10.1167/14.8.26
[24] Li, H., Ji, L., Tong, K., Ren, N., Chen, W., Liu, C. H. et al. (2016). Processing of Individual Items during Ensemble Coding of Facial Expressions. Frontiers in Psychology, 7, Article 1332.
https://doi.org/10.3389/fpsyg.2016.01332
[25] Liu, R., Ye, Q., Hao, S., Li, Y., Shen, L., & He, W. (2023). The Relationship between Ensemble Coding and Individual Representation of Crowd Facial Emotion. Biological Psychology, 180, Article ID: 108593.
https://doi.org/10.1016/j.biopsycho.2023.108593
[26] Manassi, M., Sayim, B., & Herzog, M. H. (2012). Grouping, Pooling, and When Bigger Is Better in Visual Crowding. Journal of Vision, 12, 13.
https://doi.org/10.1167/12.10.13
[27] Maule, J., & Franklin, A. (2016). Accurate Rapid Averaging of Multihue Ensembles Is Due to a Limited Capacity Subsampling Mechanism. Journal of the Optical Society of America A, 33, A22.
https://doi.org/10.1364/josaa.33.000a22
[28] Michael, E., de Gardelle, V., & Summerfield, C. (2014). Priming by the Variability of Visual Information. Proceedings of the National Academy of Sciences of the United States of America, 111, 7873-7878.
https://doi.org/10.1073/pnas.1308674111
[29] Parkes, L., Lund, J., Angelucci, A., Solomon, J. A., & Morgan, M. (2001). Compulsory Averaging of Crowded Orientation Signals in Human Vision. Nature Neuroscience, 4, 739-744.
https://doi.org/10.1038/89532
[30] Peng, S., Liu, C. H., Liu, W., & Yang, Z. (2022). Emotion Matters: Face Ensemble Perception Is Affected by Emotional States. Psychonomic Bulletin & Review, 29, 116-122.
https://doi.org/10.3758/s13423-021-01987-w
[31] Piazza, E. A., Sweeny, T. D., Wessel, D., Silver, M. A., & Whitney, D. (2013). Humans Use Summary Statistics to Perceive Auditory Sequences. Psychological Science, 24, 1389-1397.
https://doi.org/10.1177/0956797612473759
[32] Robson, M. K., Palermo, R., Jeffery, L., & Neumann, M. F. (2018). Ensemble Coding of Face Identity Is Present but Weaker in Congenital Prosopagnosia. Neuropsychologia, 111, 377-386.
https://doi.org/10.1016/j.neuropsychologia.2018.02.019
[33] Sweeny, T. D., Haroz, S., & Whitney, D. (2013). Perceiving Group Behavior: Sensitive Ensemble Coding Mechanisms for Biological Motion of Human Crowds. Journal of Experimental Psychology: Human Perception and Performance, 39, 329-337.
https://doi.org/10.1037/a0028712
[34] Tark, K., Kang, M., Chong, S. C., & Shim, W. M. (2021). Neural Representations of Ensemble Coding in the Occipital and Parietal Cortices. NeuroImage, 245, Article ID: 118680.
https://doi.org/10.1016/j.neuroimage.2021.118680
[35] Virtanen, L. S., Olkkonen, M., & Saarela, T. P. (2020). Color Ensembles: Sampling and Averaging Spatial Hue Distributions. Journal of Vision, 20, 1.
https://doi.org/10.1167/jov.20.5.1
[36] Ward, E. J., Bear, A., & Scholl, B. J. (2016). Can You Perceive Ensembles without Perceiving Individuals? The Role of Statistical Perception in Determining Whether Awareness Overflows Access. Cognition, 152, 78-86.
https://doi.org/10.1016/j.cognition.2016.01.010
[37] Whitney, D., & Yamanashi Leib, A. (2018). Ensemble Perception. Annual Review of Psychology, 69, 105-129.
https://doi.org/10.1146/annurev-psych-010416-044232
[38] Yang, Z., Wu, Y., Liu, S., Zhao, L., Fan, C., & He, W. (2024). Ensemble Coding of Crowd with Cross-Category Facial Expressions. Behavioral Sciences, 14, Article 508.
https://doi.org/10.3390/bs14060508